6 mô hình AI tạo video từ văn bản
Không lâu sau khi Dall-E tạo cơn sốt sử dụng trí tuệ nhân tạo để "vẽ ảnh" từ văn bản, nhiều công ty nhanh chóng phát triển những mô hình có khả năng dựng video từ các câu lệnh do người dùng nhập vào. Sau hai năm, lĩnh vực này đã có những bước tiến dài, được giới chuyên gia đánh giá là đem đến chất lượng siêu thực.
Dù vẫn còn một số điểm chưa hoàn hảo, các công cụ AI vẫn cho thấy khả năng kiểm soát ấn tượng và tạo được những video đa dạng phong cách.
Sora
Sora là sản phẩm mới ra mắt tuần này của OpenAI - công ty tạo ra ChatGPT. Với sự nổi tiếng của công ty mẹ cùng khả năng "thấu hiểu sâu sắc ngôn ngữ" của mô hình, nhiều người dùng tỏ ra phấn khích với Sora. Các clip minh họa cho thấy mô hình này có thể tạo ra "những nhân vật có khả năng thể hiện cảm xúc sinh động", theo Analyticsindiamag. Độ chân thực của các sản phẩm từ Sora cũng là chủ đề bàn luận trên nhiều hội nhóm mạng xã hội. Một số người cho rằng công cụ AI này thực sự sẽ thay đổi cuộc chơi trên trên thị trường.
Tuy nhiên, trước khi đưa Sora tới công chúng, OpenAI sẽ phải tiến hành nhiều biện pháp cẩn trọng nhằm đảm bảo sự an toàn. Nhà phát triển thừa nhận Sora vẫn còn một số vấn đề, như giữ cho hình ảnh chuyển động mượt mà hay phân biệt bên trái, phải.
Lumier
Google gọi AI sản xuất video của mình là Lumiere, dựa trên mô hình khuếch tán (diffusion model) có tên Sapce-Time-U-Net (STUNet). Theo Ars Technica, Lumiere tìm ra những chi tiết trong video (không gian), theo dõi cách chúng chuyển động và thay đổi cùng lúc (thời gian). Điều này giúp quá trình vận hành suôn sẻ.
Hiện Lumiere chưa sẵn sàng để đưa ra công chúng nhưng Google có đủ khả năng phát triển những mô hình AI vượt trội so với các công cụ hiện tại như Runway hay Pika. Trên thực tế, chỉ trong hai năm, hãng đã tạo ra bước nhảy vọt về công nghệ trong lĩnh vực video game có AI.
VideoPoet
VideoPoet là mô hình ngôn ngữ lớn (LLM) được đào tạo từ kho video, ảnh, âm thanh và văn bản khổng lồ. Công cụ này có thể thực hiện nhiều nhiệm vụ tạo video khác nhau từ nguồn vào là văn bản, ảnh, video, làm nổi bật video theo phong cách, nội dung... hay chuyển video thành âm thanh.
VideoPoet xây dựng từ một ý tưởng rất đơn giản: chuyển bất cứ mô hình ngôn ngữ tự hồi quy nào được nhập vào sang một hệ thống tạo video. Hiện nay, các mô hình ngôn ngữ tự hồi quy có thể xử lý văn bản và mã hoàn toàn tự nhiên, nhưng lại gặp phải rào cản khi chuyển sang video. Để giải quyết vấn đề này, VideoPoet sử dụng mã thông báo có thể chuyển video, ảnh, âm thanh... thành ngôn ngữ nó có thể hiểu được.
Emu Video
Mô hình AI làm video của Meta có tên Emu Video. Ảnh: Meta
Một công ty công nghệ lớn khác là Meta cũng có mô hình AI làm video riêng mang tên Emu Video. Công cụ này hoạt động theo hai bước: đầu tiên sẽ chuyển hình ảnh thành văn bản, sau đó sử dụng văn bản và hình ảnh để tạo ra video.
Các đánh giá viên tham gia vào chương trình này cho biết 81% trong số họ thích Emu Video hơn Imagen Video của Google, 90% chọn công cụ này so với Pyoco (Nvidia) và 96% nhận định tốt hơn Make-A-Video của chính Meta. Thêm vào đó, mô hình Emu Video cũng "đánh bại" các lựa chọn khác như RunwayML và Pika Labs, theo Analyticsindiamag.
Phenaki
Đội ngũ phát triển Phenaki Video sử dụng Mask GIT để sản xuất video từ văn bản trong PyTorch - khuôn khổ máy học dựa trên thư viện Torch, được sử dụng trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên do Meta AI phát triển. Mô hình này sử dụng văn bản để tạo video có độ dài tối đa hai phút.
Mô hình được đánh giá linh hoạt và khả dụng cho các nhà phát triển để huấn luyện AI chuyển văn bản thành ảnh hoặc video. Họ có thể bắt đầu bằng các hình ảnh rồi từ đó tinh chỉnh thành video mà không gặp trở ngại trong quá trình đào tạo.
CogVideo
Một nhóm nhà nghiên cứu từ Đại học Thanh Hoa, Trung Quốc đã phát triển CogVideo, mô hình AI tạo sinh chuyển văn bản thành video được đào tạo trên dữ liệu quy mô lớn. Họ xây dựng CogVideo từ một mô hình chuyển văn bản thành hình ảnh được huấn luyện trước có tên CogView2 để khám phá những kiến thức mà công cụ này đã học được.
Nghệ sĩ Glenn Marshall trong lần thử nghiệm mô hình này đã ấn tượng tới mức phải thốt lên rằng giới đạo diễn có thể mất việc. Đoạn video The Crow do ông tạo bằng CogVideo cũng được đánh giá rất cao, thậm chí còn được tham dự giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).
Theo vnexpress.net
Tin cùng chuyên mục
- Nokia chuẩn bị triển khai 5G tại Việt Nam 24.09.2024 | 13:58 PM
- Sinh động các chương trình trực tiếp tại Fanpage Báo Tuyên Quang online 03.01.2023 | 08:16 AM
- Thực hiện quy định về chuẩn hóa thông tin thuê bao di động 31.03.2023 | 16:13 PM
- Hưởng ứng ngày Chuyển đổi số quốc gia 10/10Chuyển đổi số vì một cuộc sống tốt đẹp hơn 09.10.2022 | 21:42 PM
- Sở Thông tin và Truyền thông: Diễn tập ứng phó sự cố an toàn thông tin mạng năm 2022 04.10.2022 | 17:30 PM
- Hướng dẫn trẻ em sử dụng mạng internet an toàn và hiệu quả 05.08.2022 | 08:27 AM
- Người dùng nên cập nhật Chrome 92 ngay để vá 9 lỗ hổng nghiêm trọng 21.08.2021 | 15:47 PM
- UBND tỉnh nghe báo cáo dự thảo đề án chuyển đổi số tỉnh Thái Bình giai đoạn 2021 - 2025, định hướng đến năm 2030 21.07.2021 | 19:16 PM
- Thiết bị đầu tiên chuyển suy nghĩ thành câu nói 19.07.2021 | 09:47 AM
- Tại sao không gộp các ứng dụng chống dịch thành một 'super app' 19.07.2021 | 09:48 AM
Xem tin theo ngày
- Quốc hội thảo luận về các dự án luật
- Đồng chí Ngô Đông Hải giữ chức Phó Trưởng Ban Tuyên giáo Trung ương
- Tiếp tục chương trình kỳ họp thứ tám, Quốc hội thảo luận tại tổ về các dự án luật
- Họp Ban Cán sự đảng UBND tỉnh
- Ký kết Quy chế phối hợp công tác giữa Ban Cán sự đảng UBND tỉnh với Ban Cán sự đảng Viện Kiểm sát nhân dân tỉnh
- Tiếp tục chương trình kỳ họp thứ tám, Quốc hội thảo luận về các dự thảo nghị quyết
- Đồng chí Nguyễn Khắc Thận, Phó Bí thư Tỉnh ủy, Chủ tịch UBND tỉnh tiếp xúc cử tri tại thành phố Thái Bình
- Quốc hội tiếp tục họp đợt 2 của kỳ họp thứ tám
- Các đồng chí lãnh đạo tỉnh chúc mừng Sở Giáo dục và Đào tạo nhân ngày Nhà giáo Việt Nam
- Đồng chí Nguyễn Tiến Thành, Phó Bí thư thường trực Tỉnh ủy, Chủ tịch HĐND tỉnh chúc mừng ngày Nhà giáo Việt Nam tại xã Vũ Lăng