Trang chủKhoa học - Công nghệCông nghệ sốBốn mô hình AI hàng đầu tranh tài, tìm ra ứng dụng...

Bốn mô hình AI hàng đầu tranh tài, tìm ra ứng dụng tự tin trả lời sai nhất


Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến hành thử nghiệm những mô hình hàng đầu ngành công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung bình mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI giành danh hiệu mô hình “ảo giác” nhất với những câu trả lời sai tự tin nhất.

Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở thành vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.

Vấn đề thông tin sai lệch do AI tạo ra đang ngày càng nóng khi bầu cử Tổng thống Mỹ 2024 đến gần.

Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác của các mô hình ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.

Ảo giác AI chỉ hiện tượng các LLM bịa đặt hoàn toàn thông tin và hành xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.

Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô hình AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô hình giải trình các bước lập luận về thông tin đưa ra”.

Kết quả cho thấy GPT-4 của OpenAI nhìn chung hoạt động tốt nhất trong số các mô hình được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.  

Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.

Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.

Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề phòng rủi ro” của các mô hình AI (đưa ra thông báo “Là một mô hình AI, tôi không thể đưa ra ý kiến”).

Với bài test này, GPT-4 có mức đề phòng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người dùng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô hình AI của Cohere hoàn toàn không có động thái phòng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.

Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô hình được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.

(Theo CNBC)



Nguồn

Cùng chủ đề

Elon Musk đề xuất mua OpenAI

Một báo cáo mới đây cho biết, tỷ phú Elon Musk đang dẫn đầu một nhóm các nhà đầu tư trong việc đề nghị mua quyền kiểm soát OpenAI với giá 97.4 tỷ USD. Lời đề nghị này dành cho tổ chức phi lợi nhuận giám sát công ty khởi nghiệp trí tuệ nhân tạo đằng sau ChatGPT. Nhóm các nhà đầu tư gồm Elon Musk, công ty khởi nghiệp xAI của ông và các nhà đầu tư lâu năm...

Chip AI đầu tiên do OpenAI thiết kế sẽ sớm ra mắt

Theo đó, chip AI đầu tiên do OpenAI thiết kế dự kiến được sản xuất tại TSMC trên tiến trình 3nm đã gần hoàn tất thiết kế và sẽ gửi đi sản xuất thử nghiệm trong vài tháng tới. OpenAI đặt mục tiêu sản xuất hàng loạt chip AI vào năm 2026. Quá trình gửi thiết kế qua nhà máy sẽ tốn hàng chục triệu USD và mất khoảng 6 tháng để hoàn thành. Nếu thất bại, OpenAI sẽ...

Cuộc chiến AI Mỹ-Trung chưa hạ nhiệt, thung lũng Silicon nóng rực vì Elon Musk

Sau ồn ào kiện tụng, tỷ phú giàu nhất thế giới Elon Musk hỏi mua OpenAI với giá gần 100 tỷ USD nhằm 'mang lại lợi ích cho nhân loại'. Sếp OpenAI Sam Altman phản pháo đầy chất cà khịa, xoáy vào nỗi đau của ông chủ Tesla. Cuộc đua trong lĩnh vực trí tuệ nhân tạo (AI) tại Thung lũng Silicon cũng nóng không kém cuộc chiến công nghệ giữa Mỹ và Trung Quốc sau "cơn địa chấn" DeepSeek. Tỷ...

Instagram có tài khoản cho thanh thiếu niên tại Việt Nam, phụ huynh được kiểm soát

Meta bắt đầu cung cấp tài khoản thanh thiếu niên trên Instagram cho người dưới 16 tuổi tại Việt Nam, dưới sự kiểm soát của phụ huynh. Meta cho biết tính năng tài khoản thanh thiếu niên (Teen accounts) trên Instagram nhằm phục vụ...

Nổi bật

Mới nhất

Cùng tác giả

Công an khẳng định clip bị móc túi ở bệnh viện là tạo dựng, sẽ xử lý người trục lợi

Tại cơ quan công an, Hồ Thị Xuân khai nhận thông tin bị 2 người móc túi tại cổng Bệnh viện Nhi đồng 2 như trong clip gây xôn xao mạng xã hội những ngày qua là không đúng sự thật. Hôm nay (13/2), tổ công tác của Công quận 1, TPHCM phối hợp cùng Công an xã Ea Ô, huyện Ea Kar, tỉnh Đắk Lắk tiến hành mời làm việc với Hồ Thị Xuân (38 tuổi, ngụ Tổ dân...

Cháy gara ô tô ở Hà Nội

Một gara ô tô nằm trong ngõ 543 đường Giải Phóng (Hà Nội) bất ngờ bốc cháy, người dân đã tìm cách dập lửa nhưng bất thành. Theo thông tin ban đầu, tối 13/2, một vụ cháy xảy ra tại gara ô tô nằm trong ngõ 543 đường Giải Phóng (quận Hoàng Mai, Hà Nội). Người dân chứng kiến sự việc cho biết, khoảng 19h, họ phát hiện khói, lửa bốc ra từ cơ sở sửa chữa ô tô. Người dân nhanh...

Dự kiến chuyển sát hạch, cấp giấy phép lái xe sang Bộ Công an trước 19/2

Cục Đường bộ Việt Nam (Bộ GTVT) vừa có văn bản gửi Sở GTVT các tỉnh, thành phố chuẩn bị bàn giao nhiệm vụ quản lý nhà nước về sát hạch, cấp giấy phép lái xe từ Bộ GTVT sang Bộ Công an. Văn bản do Phó Cục trưởng Cục Đường bộ Việt Nam Phan Thị Thu Hiền ký cho biết, thực hiện ý kiến chỉ đạo của lãnh đạo Bộ Công an và Bộ GTVT tại cuộc họp ngày...

Công nghệ AI của Samsung: Biến TV thành tác phẩm nghệ thuật

TV AI Samsung 2025 biến màn hình TV thành tác phẩm nghệ thuật cá nhân hóa với Generative Wallpaper, dùng AI tiên tiến tạo hình nền 4K, nâng tầm trải nghiệm thị giác. Tính năng phô diễn sức mạnh của Samsung Vision AI Tại CES 2025, Samsung đã giới thiệu mô hình trí tuệ nhân tạo mới cho các thiết bị nghe nhìn của mình mang tên Vision AI. Đây là hướng đi hoàn toàn mới, đưa AI cá nhân hóa...

Không khí lạnh suy yếu nhanh, miền Bắc lại tràn sương mù và mưa phùn

Không khí lạnh tăng cường nhưng nhanh chóng suy yếu khiến thời tiết miền Bắc tiếp tục diễn biến sương mù và mưa phùn ẩm ướt kéo dài. Theo Trung tâm Dự báo khí tượng thủy văn quốc gia, hiện nay (13/2), không khí lạnh đã ảnh hưởng yếu đến hầu hết các nơi ở phía Đông Bắc Bộ. Ở vịnh Bắc Bộ đã có gió đông bắc cấp 5, có lúc cấp 6, giật cấp 7, biển động. Chiều tối...

Bài đọc nhiều

Apple phát hành bản cập nhật iOS 18.3.1

Trong bài viết về bảo mật được Apple đăng tải trên trang web của công ty thì chi tiết các bản vá bảo mật có trong iOS 18.3.1 và iPadOS 18.3.1 đã được đề cập. Theo đó, bản cập nhật này khắc phục lỗ hổng được tìm thấy trong các trợ năng iOS đã bị kẻ tấn công khai thác tích cực. Được biết, kẻ tấn công có thể lợi dụng lỗ hổng này để truy cập vật lý...

Hội nghị thượng đỉnh AI hướng đến đổi mới và trí tuệ nhân tạo an toàn

Các nhà lãnh đạo thế giới và giám đốc điều hành công nghệ bắt đầu họp tại Paris (Pháp) hôm nay (10/2) để thảo luận về sự đổi mới và cách áp dụng trí tuệ nhân tạo (AI) an toàn. ...

Google phát hành Gemini 2.0, cạnh tranh với AI Trung Quốc

Google phát hành Gemini 2.0, chatbot trí tuệ nhân tạo thế hệ mới với nhiều phiên bản và cập nhật tạo sự cạnh tranh mạnh mẽ với các đối thủ AI trên thị trường.

Cùng chuyên mục

Apple có thể ra mắt màn hình gập vào năm 2026

Dự kiến chiếc iPhone màn hình gập đầu tiên của Apple sẽ có thiết kế vỏ sò nhỏ gọn. Kiểu dáng này tương tự các mẫu Z Flip của Samsung.

Cách tải ảnh Instagram về máy tính cực rõ nét nhanh chóng

Bạn bắt gặp được một bức ảnh tuyệt đẹp trên Instagram và muốn lưu về máy tính, nhưng nền tảng này không hỗ trợ tải ảnh trực tiếp. Bài viết hôm nay sẽ bật mí cho bạn cách tải ảnh từ Instagram về máy tính cực kỳ đơn giản.

Mới nhất

Cô gái Hải Phòng gác bằng đại học xung phong nhập ngũ

TPO - Ngày 13/2, TP Hải Phòng và tỉnh Hải Dương đồng loạt tổ chức lễ giao hơn 5.300 công dân tham gia nghĩa vụ quân sự, nghĩa vụ công an nhân dân. Trong đó, có cô gái trẻ Ngô Thùy Linh (22 tuổi) gác bằng đại học, xung phong tình nguyện nhập ngũ, theo đuổi ước mơ. ...

Valentine 14/2 ai là người tặng quà?

Valentine 14/2 nam hay nữ là người tặng quà khi đây là dịp lễ đặc biệt để bày tỏ tình yêu của mình đến với nửa kia và các cặp đôi thường tặng quà cho nhau? ...

Đại biểu đề nghị cân nhắc việc xem xét, thông qua luật trong một kỳ họp

Nhiều đại biểu đề nghị xem lại việc định hướng các dự án luật, nghị quyết về nguyên tắc sẽ được xem xét, thông qua trong một kỳ họp. Thực tế nhiều dự án luật khi trình Quốc hội vẫn còn nhiều ý kiến khác nhau. ...

Công an khẳng định clip bị móc túi ở bệnh viện là tạo dựng, sẽ xử lý người trục lợi

Tại cơ quan công an, Hồ Thị Xuân khai nhận thông tin bị 2 người móc túi tại cổng Bệnh viện Nhi đồng 2 như trong clip gây xôn xao mạng xã hội những ngày qua là không đúng sự thật. Hôm nay (13/2), tổ công tác của Công quận 1, TPHCM phối hợp cùng Công an xã Ea Ô,...

Đề xuất áp dụng mô hình trường THCS trong Trường THPT chuyên Chu Văn An

Đây là chia sẻ của ông Trần Thế Cương, giám đốc Sở Giáo dục và Đào tạo Hà Nội, tại lễ công bố quyết định tổ chức lại Trường THPT Chu Văn An thành Trường THPT chuyên Chu Văn An sáng 13-2. ...

Mới nhất