Trang chủKhoa học - Công nghệCông nghệ sốBốn mô hình AI hàng đầu tranh tài, tìm ra ứng dụng...

Bốn mô hình AI hàng đầu tranh tài, tìm ra ứng dụng tự tin trả lời sai nhất


Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI giành danh hiệu mô hình “ảo giác” nhất với những câu trả lời sai tự tin nhất.

Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.

Vấn đề thông tin sai lệch do AI tạo ra đang ngày càng nóng khi bầu cử Tổng thống Mỹ 2024 đến gần.

Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác của các mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.

Ảo giác AI chỉ hiện tượng các LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.

Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô hình AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô hình giải trình các bước lập luận về thông tin đưa ra”.

Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt nhất trong số các mô hình được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.  

Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.

Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.

Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của các mô hình AI (đưa ra thông báo “Là một mô hình AI, tôi không thể đưa ra ý kiến”).

Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô hình AI của Cohere hoàn toàn không có động thái phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.

Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.

(Theo CNBC)



Nguồn

Cùng chủ đề

OpenAI chính thức ra mắt o3-mini

Được biết, o3-mini là mô hình lý luận đầu tiên của OpenAI cho phép người dùng sử dụng miễn phí. Mô hình được thiết kế nhằm cung cấp độ chính xác cao hơn so với các mô hình ngôn ngữ lớn thông thường. Nó sử dụng hệ thống "chuỗi suy nghĩ" trước khi đưa ra câu trả lời và tự sửa lỗi. Điều này khiến nó trở thành lựa chọn lý tưởng cho các câu hỏi khó nhất...

OpenAI phát hành công cụ AI mới, có thể hoạt động như nhà nghiên cứu

Công ty trí tuệ nhân tạo (AI) OpenAI của Mỹ ngày 3.2 công bố một công cụ AI mới có khả năng hoạt động như một nhà nghiên cứu phân tích chuyên sâu. ...

Ông Trump công bố dự án đầu tư hạ tầng AI khủng 500 tỉ USD

Tổng thống Mỹ Donald Trump ngày 21.1 đã công bố khoản đầu tư lớn để xây dựng cơ sở hạ tầng cho trí tuệ nhân tạo (AI) do 3 công ty Softbank, Oracle và OpenAI dẫn đầu. ...

Nếu TikTok bị xóa sổ ở Mỹ, ai hưởng lợi?

(Dân trí) - Theo các nhà phân tích, TikTok bị cấm sẽ tạo nên khoảng trống hàng tỷ USD doanh thu quảng cáo trên thị trường Mỹ và Meta có thể là một trong những công ty hưởng lợi lớn nhất. "Đạo luật cấm TikTok bắt đầu có hiệu lực tại Mỹ. Điều đó đồng nghĩa bạn không thể sử dụng TikTok lúc này. May mắn là Tổng thống Donald Trump đã bày tỏ ý định phối hợp với chúng...

Nổi bật

Mới nhất

Cùng tác giả

Gợi ý của ban giám khảo về nội dung viết thư UPU lần thứ 54

Dưới đây là một số gợi ý của Ban giám khảo cuộc thi viết thư UPU lần thứ 54 năm 2025, các em học sinh có thể tham khảo để hoàn thiện bài dự thi của mình. Hàng năm, Liên minh Bưu chính Thế giới (gọi tắt là UPU) tổ chức Cuộc thi Viết thư quốc tế dành cho trẻ em, nhằm góp phần phát triển khả năng viết văn và sự phong phú trong tư duy sáng tạo của...

Sau sự cố bung khe co giãn trên cao tốc, Bộ GTVT ra công điện khẩn

Sau sự cố bung khe co giãn cao tốc qua Thanh Hóa, Bộ GTVT đã ra công điện yêu cầu các chủ đầu tư tăng cường kiểm tra định kỳ, kiểm tra đột xuất, kịp thời phát hiện khiếm khuyết để yêu cầu nhà thầu khắc phục. Theo đó, để đảm bảo chất lượng công trình và an toàn giao thông các tuyến đường bộ cao tốc, Bộ GTVT yêu cầu Cục Đường bộ Việt Nam, Cục Đường cao tốc...

Miền Bắc sắp phải đối phó đợt sương mù, mưa phùn ẩm ướt

Khoảng từ 12-16/2, khu vực Nam Sơn La, Hòa Bình và phía Đông Bắc Bộ xảy ra tình trạng sáng sớm và đêm có mưa nhỏ, mưa phùn và sương mù rải rác; trời rét, vùng núi có nơi rét đậm, rét hại. Chiều nay (9/2), Trung tâm Dự báo khí tượng thủy văn quốc gia cho biết, do tác động của đợt không khí lạnh mạnh tràn về từ 7/2, thời tiết Bắc Bộ tiếp tục rét đậm, rét...

Hãng taxi truyền thống đầu tiên chuyển đổi sang xe điện

Lado Taxi vừa công bố thay thế 100% đội xe xăng sang xe điện VF e34 và VF5 tại chi nhánh Lâm Đồng từ ngày 8/2 và sẽ chuyển đổi hoàn toàn ở các tỉnh thành khác trong năm 2025. Hành trình chuyển đổi xanh của Lado Taxi bắt đầu từ tháng 5/2022 với 20 chiếc VF e34 mua từ VinFast chuyên phục vụ hành khách di chuyển từ sân bay Liên Khương đến các địa phương. Mẫu xe điện chủ...

Khách tố quán bánh mì ở Hà Nội bán ‘thịt mốc đen’, chủ quán phản bác ra sao?

Tối 8/2, trên mạng xã hội lan truyền một bài viết tố quán bánh mì N.H (Quán Thánh, Ba Đình, Hà Nội) bán thịt mốc đen cho thực khách. Bài viết được chia sẻ nhiều với hàng ngàn lượt tương tác bình luận. Khách tố trong bánh mì có "thịt mốc" Thực khách T.T. - người đăng bài, cho biết: Khoảng 20h ngày 8/2, anh T. vào quán bánh mì N.H., mua một chiếc bánh mì thập cẩm. Khi mang về...

Bài đọc nhiều

Phát huy vai trò của chuyển đổi số trong kỷ nguyên vươn mình của dân tộc

Thế giới, bao gồm cả Việt Nam đang đứng trước nhiều thách thức và cơ hội trong kỷ nguyên số. Đâu là giải pháp để Việt Nam phát huy vai trò tích cực của chuyển đổi số trong kỷ nguyên mới?

Những bộ, ngành nào dẫn đầu bảng xếp hạng về chuyển đổi số?

DNVN - Ở nhóm 17 bộ, ngành có dịch vụ công, Bộ Kế hoạch và Đầu tư đứng ở vị trí số 1, Bộ Tài chính đứng ở vị trí số 2 ở tất cả các chỉ số chính, đây cũng là thứ tự xếp hạng giữ nguyên như năm 2022. Ngân hàng Nhà...

Cùng chuyên mục

Quá khứ “bất hảo” của nhân viên được Elon Musk trọng dụng

Edward Coristine từng khoe khoang về việc giữ quyền truy cập máy chủ của công ty cũ. Nay, với tư cách nhân viên dưới trướng Elon Musk, cậu được tiếp cận thông tin nhạy cảm của chính phủ Mỹ.

Đà Nẵng lần thứ tư liên tiếp đứng đầu cả nước về chuyển đổi số

Bộ Thông tin và Truyền thông vừa công bố "Báo cáo chỉ số đánh giá chuyển đổi số của các bộ, cơ quan ngang bộ, cơ quan thuộc Chính phủ và tỉnh, thành phố trực thuộc Trung ương - DTI cấp bộ, cấp tỉnh năm 2023".

Mới nhất

Khi nào Hà Nội thành lập các sở mới?

UBND thành phố Hà Nội yêu cầu cơ quan chuyên môn hoàn thiện hồ sơ sắp xếp tổ chức bộ máy để kịp tiến độ trình HĐND thành phố phê duyệt thành lập các sở mới trước ngày 20/2/2025. ...

Nỗi niềm trước thềm Thông tư 29

Thông tư 29 có hiệu lực từ 14/2 đang gây xôn xao, trăn trở cho các bậc phụ huynh, các em học sinh và cả các thầy, cô giáo trên giảng đường. Chỉ còn ít ngày nữa, từ 14/2 tới, Thông tư 29 của Bộ Giáo dục và Đào tạo sẽ chính thức có hiệu lực,...

Nhộn nhịp thị trường đồ cúng Rằm tháng Giêng trên ‘chợ mạng’

Trên ‘chợ mạng’, những mâm cỗ cúng Rằm tháng Giêng được quảng cáo dày đặc với mức giá chỉ từ 800 nghìn đồng/mâm. Ngày Rằm tháng Giêng (hay còn gọi là Tết Thượng Nguyên) là một ngày lễ quan trọng để người Việt Nam thể hiện lòng thành kính đối với tổ tiên, thần linh, mong...

Đồng Nai đón 14 dự án xông đất đầu năm, tổng vốn đầu tư gần 738 triệu USD

Chiều 7/2, UBND tỉnh Đồng Nai trao giấy chứng nhận đăng ký đầu tư cho 8 dự án đầu tư mới và 6 dự án tăng vốn với tổng số vốn đăng ký gần 738 triệu USD. Đồng Nai đón 14 dự án "xông đất" đầu năm, tổng vốn đầu tư gần 738 triệu USDChiều 7/2, UBND tỉnh Đồng Nai...

Bao lâu và khi nào chúng ta nên kiểm tra cân nặng?

Nếu đang nỗ lực giảm cân, có thể bạn sẽ muốn cân mỗi ngày để theo dõi tiến độ. Việc cân hằng ngày có thể giúp bạn đi đúng hướng, nhưng cũng có thể dẫn đến suy nghĩ ám ảnh. ...

Mới nhất