Thứ 7, 23/11/2024, 21:05[GMT+7]

36 giờ chạy đua của ngành AI

Thứ 7, 18/05/2024 | 09:20:00
3,731 lượt xem
OpenAI bất ngờ ra mắt GPT-4o, Google trình diễn loạt AI mới trong khi ByteDance của Trung Quốc cũng ra mắt mô hình ngôn ngữ lớn Doubao.

Ảnh minh họa

Trong vòng 36 giờ, ngành AI toàn cầu chứng kiến cuộc cạnh tranh sôi động khi OpenAI, Google, ByteDance lần lượt tổ chức các sự kiện, phô diễn sức mạnh AI mới.

Cuộc chạy đua trong ba ngày qua cũng cho thấy ngành công nghiệp AI của Mỹ và Trung Quốc dường như đã đến ngã ba đường. Trong khi OpenAI, Google trình diễn những công nghệ vượt xa trí tưởng tượng, ByteDance lại có cách tiếp cận khác khi cung cấp mô hình với giá rẻ đáng kinh ngạc, sẵn sàng để tiếp cận người dùng trên diện rộng.

OpenAI cho thấy AGI đang đến gần

OpenAI tổ chức Hội nghị mùa xuân vào 14/5. Nhiều người đồn đoán GPT-5 hoặc công cụ tìm kiếm GPT sẽ trình làng nhưng CEO Sam Altman chỉ mang đến bản cập nhật GPT-4o. Dù vậy, giới công nghệ vẫn được dịp ấn tượng với các khả năng tương tác đa phương thức giữa văn bản, âm thanh và hình ảnh theo thời gian thực. Mô hình có thể phản hồi giao tiếp âm thanh trong 232 mili giây, tương tự thời gian phản hồi của hai người đang nói chuyện hay bước tiến vượt bậc về âm thanh khi thể hiện được cảm xúc, thay đổi giọng điệu.

Theo OpenAI, chữ "o" sau tên gọi GPT-4o là viết tắt của thuật ngữ "omni" (toàn năng). Đây là bước tiến mới, tiến đến sự tương tác giữa người và máy tính một cách tự nhiên.

"GPT-4o là tập hợp tất cả những gì chúng tôi đã học được trong vài năm qua. OpenAI đã nghiên cứu các mô hình âm thanh, hình ảnh, văn bản và làm việc chăm chỉ để kết hợp chúng lại. Ngày nay, mô hình ngôn ngữ lớn hiệu quả không chỉ là tìm ra bước đột phá vĩ đại mà là làm sao kết hợp nhiều phần lại với nhau", Sam Altman nói.

Không chỉ trò chuyện, GPT-4o còn có thể diễn giải biểu đồ, trợ giúp mã hóa, diễn giải cảm xúc hoặc phân tích hình ảnh qua camera, đồng thời "vẫn duy trì giọng điệu vui vẻ". Theo giới phân tích, mô hình mới của OpenAI có thể tương tác giống con người một cách đáng kinh ngạc. Đây là bước tiến mới cho thấy AGI đang đến gần.

Google chưa tạo được sự hứng thú như mong đợi

Một ngày sau màn trình diễn ấn tượng của OpenAI, Google cũng giới thiệu loạt AI mới tại sự kiện I/O rạng sáng 15/5 (giờ Hà Nội). Veo là câu trả lời của công ty với AI Sora được đối thủ ra mắt ba tháng trước. Tuy nhiên hiệu ứng từ video được tạo bằng Veo không gây ấn tượng mạnh bằng đối thủ về độ chân thực, khung cảnh phức tạp cho đến chuyển động máy quay.

Astra là trợ lý AI có thể "làm được mọi việc", tương tác theo thời gian thực tương tự các GPT-4o có thể làm. Google cho biết, mục tiêu của công cụ là trở thành tác nhân AI "trung thực nhất và tốt nhất". Trong khi đó, Gemini được nâng cấp lên bản 1.5 và đưa vào hầu hết dịch vụ của Google. Trên công cụ tìm kiếm Google Search, Gemini cũng được tích hợp sâu, không đơn thuần trả về thông tin kèm liên kết trích dẫn, mà còn lời truy vấn theo ngôn ngữ tự nhiên, thông tin liên quan, gợi ý nội dung mới dựa trên từ khóa tìm kiếm.

Khác màn ra mắt ấn tượng của OpenAI, sự kiện của Google không gây được nhiều hứng thú cho người tham gia vì hầu hết là phát lại video đã được chuẩn bị sẵn thay vì trình diễn trực tiếp. Hơn nữa các mô hình AI này vẫn đang trong thời gian thử nghiệm, chưa sẵn sàng cho người dùng phổ thông.

Trong một video do chính Google chuẩn bị, Gemini đã hướng dẫn nhiếp ảnh gia xử lý máy ảnh bị kẹt phim. Tuy nhiên The Verge đánh giá đây là hướng dẫn là "cực kỳ tệ", khi AI này khuyên rằng "nên mở phía sau và nhẹ nhàng gỡ phim ra".

Andrew Lanxon, phóng viên công nghệ của Cnet, trực tiếp tham gia sự kiện nói: "Sau bài thuyết trình kéo dài hai giờ về Gemini và các công cụ AI khác, ngay cả những nhà báo công nghệ giàu kinh nghiệm cũng phải gãi đầu". Có đến hàng chục mô hình AI mới được Google ra mắt nhưng Lanxon cho rằng công ty nên khiến người dùng hàng ngày cảm thấy hào hứng hơn nữa với những tiềm năng của sản phẩm và hiểu chính xác AI sẽ giúp ích thế nào với cuộc sống con người.

ByteDance gây sốc về giá

12 giờ sau màn trình diễn của Google, cách đó nửa vòng trái đất, gã khổng lồ công nghệ ByteDance cũng tổ chức một hội nghị công nghệ quy mô lớn. Tương tự cách tiếp cận của Google, công ty đã giới thiệu 8 phiên bản khác nhau của mô hình ngôn ngữ lớn Doubao. Điều gây sốc với giới công nghệ là giá của các dịch vụ này "cạnh tranh không tưởng" so với các đối thủ.

SCMP dẫn lời Tan Dai, chủ tịch mảng dịch vụ điện toán đám mây Volcano Engine của ByteDance, tuyên bố trong sự kiện hôm 15/5 rằng: "Doubao Pro có chi phí thấp nhất là 0,0008 nhân dân tệ (0,011 cent Mỹ) cho 1.000 lời nhắc token. Giá này thấp hơn 99,8% so với GPT-4 của OpenAI". Hiện GPT-4 có giá 0,42 nhân dân tệ cho 1.000 token, trong đó Ernie của Baidu và Tongyi Qianwen của Alibaba tính phí 0,12 nhân dân tệ.

Tan Dai, Chủ tịch mảng dịch vụ điện toán đám mây của ByteDance công bố giá của AI Doubao trong sự kiện ngày 15/5. Ảnh: Yicai

Tan Dai, Chủ tịch mảng dịch vụ điện toán đám mây của ByteDance công bố giá của AI Doubao trong sự kiện ngày 15/5. Ảnh: Yicai

Giới phân tích nhận định việc giảm giá thấp hơn 99,8% của ByteDance đã khơi mào một cuộc chiến mới về AI. Trong khi đó Washington Post cho rằng công ty đang chơi "tất tay" để cạnh tranh trong trận chiến "không thể thua".

Không những thế, ByteDance còn công bố "liên minh LLM thiết bị thông minh" với các gã khổng lồ điện thoại thông minh Samsung Electronics, Xiaomi, Honor và "liên minh hệ sinh thái LLM ôtô" với các nhà sản xuất địa phương như Geely và Great Wall Motor. Điều này cho thấy tham vọng mạnh mẽ của ByteDance trong việc đối đầu với các mô hình AI trong nước và quốc tế.

Theo vnexpress.net