OpenAI dùng bot thu thập dữ liệu Internet
OpenAI, nhà phát triển ChatGPT, ngày 8/8 xác nhận sự tồn tại của GPTbot - trình thu thập dữ liệu web để huấn luyện AI. Mô hình GPT-5 dự kiến được đào tạo bằng nguồn dữ liệu này.
"Việc cho phép GPTBot truy cập website của bạn giúp các mô hình AI trở nên chính xác hơn, đồng thời cải thiện khả năng và độ an toàn của chúng", OpenAI cho biết.
Trước đó, người dùng đã quen với Googlebot, có nhiệm vụ lọc thông tin, ưu tiên hiển thị và xếp hạng trang web trong các kết quả tìm kiếm. Dù cũng thu thập dữ liệu, Business Insider đánh giá Goolgebot hữu ích vì website có thêm lưu lượng truy cập nếu được đề xuất. Tuy nhiên, sự trỗi dậy của AI tạo sinh và mô hình ngôn ngữ lớn đang phá vỡ sự cộng tác này.
Các công cụ như GPTbot sẽ giúp ChatGPT và GPT-4 có thể tổng hợp và trả lời câu hỏi, người dùng không cần truy cập các đường link. Điều này khiến nhiều trang web mất lượng truy cập lớn. Có nghĩa, các nhà sáng tạo nội dung cung cấp dữ liệu để GPTbot thu thập và phát triển lớn mạnh, sau đó quay lại cạnh tranh với chính họ. Stack Overflow, web cộng đồng của những lập trình viên chuyên nghiệp, ghi nhận sụt giảm người tham gia khi ChatGPT đủ khả năng giải quyết các lỗi lập trình khó.
Theo Business Insider, nỗi lo về GPTbot đang lan truyền mạnh. Trang công nghệ The Verge đã triển khai việc chặn GPTbot. OpenAI cũng cho biết người dùng có thể lựa chọn không cho phép GPTbot thu thập thông tin.
"Sau khi lấy tất cả nội dung có bản quyền trên mạng để xây dựng một sản phẩm độc quyền, OpenAI giờ lại cung cấp cho mọi người cách để ngăn chặn", Prasad Dhumal, chuyên gia tư vấn về công cụ tìm kiếm, bình luận.
Neil Clarke, biên tập viên của Clarkesworld, cho rằng các nhà sáng tạo nội dung đang ngày càng mất niềm tin vào OpenAI. Bên cạnh GPTbot, một số công cụ khác như CCbot của Common Crawl cũng chuyên thu thập dữ liệu nhằm huấn luyện AI. Theo Clarke, CCbot thường xuyên tiến hành sao lưu dữ liệu đã lấy. Do đó, ngay cả khi ngăn không cho bot tiếp tục truy cập, chủ sở hữu website cũng không thể thu hồi dữ liệu cũ.
"Tôi không biết có ai từng thành công khi yêu cầu Common Crawl xóa các nội dung lấy từ trang web hay chưa. Tôi đã thử liên hệ nhưng họ không phản hồi", ông nói.
Trong khi đó, OpenAI cho biết GPTbot được lập trình để tránh nguồn nội dung có tính phí và thông tin cá nhân. Vào tháng 7, công ty đạt thỏa thuận với hãng thông tấn AP để mua quyền thu thập nội dung báo chí.
Dù vậy, OpenAI được cho là phải trả phí trước khi lấy nội dung của bên khác. "OpenAI cần làm việc với các nhà lập pháp về vấn đề thu thập dữ liệu trong quá khứ, hiện tại và tương lai", Clarke nói. Ngoài ra, ông cho rằng OpenAI không được phép đẩy trách nhiệm chặn GPTbot cho người dùng, mà họ nên xin phép để công cụ được tiếp cận một trang web nhất định.
Theo vnexpress.net
Tin cùng chuyên mục
- Nokia chuẩn bị triển khai 5G tại Việt Nam 24.09.2024 | 13:58 PM
- Sinh động các chương trình trực tiếp tại Fanpage Báo Tuyên Quang online 03.01.2023 | 08:16 AM
- Thực hiện quy định về chuẩn hóa thông tin thuê bao di động 31.03.2023 | 16:13 PM
- Hưởng ứng ngày Chuyển đổi số quốc gia 10/10Chuyển đổi số vì một cuộc sống tốt đẹp hơn 09.10.2022 | 21:42 PM
- Sở Thông tin và Truyền thông: Diễn tập ứng phó sự cố an toàn thông tin mạng năm 2022 04.10.2022 | 17:30 PM
- Hướng dẫn trẻ em sử dụng mạng internet an toàn và hiệu quả 05.08.2022 | 08:27 AM
- Người dùng nên cập nhật Chrome 92 ngay để vá 9 lỗ hổng nghiêm trọng 21.08.2021 | 15:47 PM
- UBND tỉnh nghe báo cáo dự thảo đề án chuyển đổi số tỉnh Thái Bình giai đoạn 2021 - 2025, định hướng đến năm 2030 21.07.2021 | 19:16 PM
- Thiết bị đầu tiên chuyển suy nghĩ thành câu nói 19.07.2021 | 09:47 AM
- Tại sao không gộp các ứng dụng chống dịch thành một 'super app' 19.07.2021 | 09:48 AM
Xem tin theo ngày
- Tiếp tục chương trình kỳ họp thứ tám: Quốc hội thảo luận về dự thảo nghị quyết và các dự án luật
- Tiếp tục quan tâm, hướng dẫn thành lập chi hội, tổ hội nông dân nghề nghiệp
- Quốc hội thảo luận về các dự án luật và chủ trương đầu tư chương trình mục tiêu quốc gia phòng, chống ma túy
- Hội nghị Ban Thường vụ Tỉnh ủy
- Thống nhất nội dung, chương trình kỳ họp để giải quyết công việc phát sinh đột xuất và kỳ họp thứ chín, HĐND tỉnh khóa XVII nhiệm kỳ 2021 - 2026
- Họp Tiểu ban Tổng kết công tác kinh tế - xã hội, quốc phòng, an ninh phục vụ Đại hội đại biểu Đảng bộ tỉnh lần thứ XXI, nhiệm kỳ 2025 - 2030
- Tiếp tục chương trình kỳ họp thứ tám: Quốc hội thảo luận về các dự án luật
- Giá trị, tầm vóc và ý nghĩa thời đại của Cách mạng Tháng Mười Nga bất diệt
- Đồng chí Nguyễn Khắc Thận, Phó Bí thư Tỉnh ủy, Chủ tịch UBND tỉnh dự ngày hội đại đoàn kết toàn dân tộc khu dân cư thôn An Cư
- Tiếp tục chương trình kỳ họp thứ tám: Quốc hội thảo luận về các dự án luật