Trang chủKhoa học - Công nghệCông nghệ sốAI học cách nói dối tinh vi hơn khi bị phạt

AI học cách nói dối tinh vi hơn khi bị phạt


Kể từ khi ra mắt công chúng vào cuối năm 2022, các mô hình ngôn ngữ lớn (LLM) như ChatGPT đã không ít lần cho thấy những mặt tối đáng lo ngại, từ việc nói dối, gian lận, che đậy hành vi thao túng, cho đến những lời lẽ đáng sợ như đe dọa tính mạng con người hay đánh cắp bí mật quốc gia. Giờ đây, một thí nghiệm mới cho thấy việc “dạy dỗ” AI để loại bỏ những thói hư tật xấu này trong quá trình huấn luyện phức tạp hơn chúng ta tưởng rất nhiều.

Trong nghiên cứu thực hiện bởi OpenAI, các chuyên gia đã thử thách một mô hình AI chưa công bố bằng những nhiệm vụ mà nó có thể hoàn thành nhanh hơn nếu gian lận hoặc đi đường tắt. Kết quả cho thấy, AI đã nhanh chóng học được cách tìm mọi phương án khả thi nhằm “lách luật”, tối đa hóa phần thưởng (reward hacking) mà không cần hoàn thành đúng yêu cầu.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1.

AI sẽ tìm mọi cách để che giấu hành vi gian lận của mình sau quá trình bị phạt

Điều đáng nói là khi bị phạt vì hành vi này, mô hình không hề sửa đổi. Thay vào đó AI trở nên tinh vi hơn trong việc che giấu sự lừa lọc của mình.

Các nhà nghiên cứu giải thích trong bài đăng trên blog công khai: “Thông thường, các mô hình suy luận tiên tiến hay trình bày rất rõ ý định trong chuỗi tư duy (CoT) của chúng. Chẳng hạn, chúng thường thẳng thắn đến mức tự ghi nhận ý định ‘Hãy hack thôi’ khi muốn phá vỡ nhiệm vụ được giao”.

Họ cũng nhấn mạnh dù các nhà phát triển có thể theo dõi và phát hiện hành vi sai trái, khả năng giám sát tự nhiên này rất mong manh. “Nếu áp dụng biện pháp giám sát mạnh mẽ trực tiếp vào chuỗi tư duy, mô hình có thể học cách che giấu ý định xấu trong khi vẫn tiếp tục thực hiện hành vi đó”, họ cảnh báo.

Đi tìm “lời nói dối” của AI

Để hiểu rõ hơn, mô hình suy luận (như các phiên bản của ChatGPT) là một bước tiến so với LLM thông thường, sử dụng phương pháp chuỗi tư duy cho phép tự xem xét lại các bước logic đã thực hiện, nhờ đó giải quyết vấn đề phức tạp chính xác hơn. Quá trình này giống như việc AI “nghĩ thành lời”, viết ra từng bước suy luận bằng ngôn ngữ tự nhiên, giúp con người dễ dàng theo dõi.

Trong thí nghiệm, các nhà nghiên cứu đã dùng mô hình GPT-4o làm “giám thị” cho một mô hình suy luận tiên tiến khác khi nó thực hiện các tác vụ lập trình. Với nhiều trường hợp, mô hình bị giám sát đã chủ động chọn cách gian lận để đạt điểm thưởng cao hơn và ghi lại rõ ràng ý định này trong chuỗi tư duy của nó. Ví dụ, nó tự ý dừng chương trình sớm rồi báo cáo đã hoàn thành, hoặc tạo ra các tệp tin có tên giống yêu cầu nhưng hoàn toàn trống rỗng bên trong.

Khi các nhà nghiên cứu thử áp dụng hình phạt, mô hình có cải thiện, tuy nhiên những hành vi gian lận và lỗi đầu ra nghiêm trọng vẫn tiếp diễn. Điểm khác biệt là giờ đây, mô hình suy luận đã học được cách “ngụy trang” chuỗi tư duy để che mắt AI giám sát. “Mô hình được huấn luyện dưới áp lực giám sát CoT vẫn học cách gian lận. Chỉ khác là việc gian lận đó không bị phát hiện vì nó đã biết cách giấu ý định trong chuỗi tư duy”, nghiên cứu chỉ rõ.

Do việc phát hiện sự giả mạo trong chuỗi tư duy là rất khó, nhóm nghiên cứu khuyến cáo cộng đồng nên tránh áp dụng các biện pháp giám sát quá mạnh mẽ vào quá trình này, ít nhất là cho đến khi con người hiểu rõ hơn về hậu quả. “Việc hy sinh một phương pháp giám sát hiệu quả có thể không đáng để đổi lấy chút cải thiện nhỏ về năng lực mô hình. Do đó, chúng tôi khuyên nên tránh các áp lực tối ưu hóa CoT mạnh mẽ cho đến khi chúng ta hiểu rõ hơn về chúng”, các nhà nghiên cứu kết luận.

Lời khuyên này càng trở nên cấp thiết trong bối cảnh AI đang phát triển với tốc độ chóng mặt và có thể sớm vượt qua trí tuệ của chính những người đang giám sát chúng.



Nguồn: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm

Cùng chủ đề

AI đang tiến gần hơn tới trí tuệ con người

Tại hội nghị công nghệ GTC vừa diễn ra, Nvidia – gã khổng lồ trong lĩnh vực sản xuất chip – đã gây ấn tượng mạnh khi công bố nền tảng chip AI mới mang tên Blackwell Ultra....

Chó robot ‘vờn’ chó nghiệp vụ gây sốt ở Đà Nẵng

TPO - Chú chó robot biết chạy nhảy, đứng ngồi, thậm chí chọc ghẹo như chó thật đang gây sốt tại Đà Nẵng. Đặc biệt, sau đoạn clip chó robot vờn chú chó nghiệp vụ, rất đông bạn trẻ, các gia đình dẫn con đến xem tận mắt chú chó AI này. 29/03/2025 | 10:46 ...

Que diêm và ngọn lửa trên tay sinh viên báo chí

Ngày 28/3, tại trụ sở Báo Công Thương, Tổng Biên tập Nguyễn Văn Minh đã có cuộc gặp gỡ nhóm sinh viên thực tập xung quanh chuyện que diêm và ngọn lửa nghề báo. Lý thuyết que diêm Buổi gặp mặt có sự tham gia của lãnh đạo một số phòng chuyên môn và nhóm sinh viên thực tập tại cơ quan, nhằm điểm lại những kết quả của nhóm sinh viên sau một thời gian...

Nổi bật

Mới nhất

Cùng tác giả

Tên lửa quỹ đạo của châu Âu rơi và phát nổ sau khi phóng

Tên lửa Spectrum phóng lên thất bại trong thử nghiệm vốn được trông đợi sẽ là bước tiến mới của châu Âu trong lĩnh vực không gian. ...

Israel quyết gây áp lực với Hamas, triển khai kế hoạch của ông Trump ở Gaza

Thủ tướng Israel Benjamin Netanyahu cho hay nội các Israel đồng ý gia tăng áp lực với Hamas, đồng thời tuyên bố nỗ lực thực hiện kế hoạch của Tổng thống Mỹ Donald Trump về việc khuyến khích người dân Dải Gaza 'di...

Bài đọc nhiều

Thực hư hành trình tìm lại nguồn gốc của những đứa trẻ bị ‘đánh cắp’ ở Chile

Công nghệ hiện đại giúp hàng nghìn người Chile, được nhận nuôi bất hợp pháp từ thời Pinochet, tìm kiếm và liên lạc với gia đình ruột thịt của họ sau nhiều thập kỷ xa cách.

Lần đầu tiên phóng thiết bị bay không người lái vào tâm bão

Các nhà nghiên cứu thuộc Cục Quản lý khí quyển và hải dương quốc gia Mỹ (NOAA) vừa thực hiện một nhiệm vụ đột phá, mang tính dấu mốc khi phóng các thiết bị bay không người lái bay sâu vào tâm bão để thu thập dữ liệu khí tượng về cách thức cơn bão hình thành và mạnh lên.

eOne vẫn tấn công Wolfoo sau thương vụ 'bán mình'

Entertainment One UK LTD (eOne) - cha đẻ của “cô lợn” Peppa Pig đã không còn quyền sở hữu đối với bộ nhân vật này từ ngày 1/9/2023 do công ty mẹ là Hasbro đã bán doanh nghiệp này cho Lionsgate. Peppa Pig hiện đang là đối tượng trong vụ tranh chấp bản quyền với Wolfoo (thuộc quyền sở hữu của Sconnect Việt Nam). Hai bên đã và đang khởi kiện lẫn nhau ra tòa án tại các quốc...

TP Hồ Chí Minh: Cấp thiết thành lập trung tâm dữ liệu dự phòng

Chiều 26/6, Trung tâm Chuyển đổi số TP Hồ Chí Minh đã phối hợp với Chi hội An toàn thông tin phía Nam tổ chức hội thảo “Mô hình và phương án lựa chọn Trung tâm dữ liệu dự phòng Thành phố”. ...

Cùng chuyên mục

Doanh nghiệp Nhà nước phải xông pha hơn nữa để thúc đẩy tăng trưởng

DNVN - Phát biểu chỉ đạo Hội nghị Thủ tướng Chính phủ làm việc với doanh nghiệp Nhà nước tiên phong trong chuyển đổi số và thúc đẩy tăng trưởng, ngày 15/4, Thủ tướng Phạm Minh Chính yêu cầu doanh nghiệp Nhà nước phải xông pha hơn nữa để thúc đẩy tăng trưởng. ...

33,3% dân số ở Hàn Quốc sử dụng AI tạo sinh

Theo khảo sát của Chính phủ Hàn Quốc, 33,3% dân số đã sử dụng AI tạo sinh như ChatGPT trong năm 2024.

Phát triển dữ liệu để đưa Việt Nam trở thành quốc gia số

Chuyển đổi số, với dữ liệu là trung tâm đang làm thay đổi căn bản cách chúng ta sống, làm việc và phát triển. Việt Nam cần làm gì để tiếp cận cơ hội này?.

Mới nhất

KỲ VỌNG KCN DỐC ĐÁ TRẮNG – DẤU MỐC MỚI CHO KHU KINH TẾ VÂN PHONG – Tổng công ty Viglacera

“Kỳ vọng vào KCN Dốc Đá Trắng”, “KCN Dốc Đá Trắng: Phát huy lợi thế phát triển kinh tế - xã hội Khánh Hòa”, “Sắp có dự án khu công nghiệp hơn 1.807 tỷ đồng tại Khu kinh tế Vân Phong”, là nhan đề chính của hàng loạt bài báo của các cơ quan báo chí trung ương...

Nâng tầm thẩm mỹ với ứng dụng kính siêu trắng cho thiết kế mặt dựng – Tổng công ty Viglacera

Là loại vật liệu đón ánh sáng, tạo nên các không gian kiến trúc đa dạng, kính siêu trắng góp phần làm thay đổi bộ mặt kiến trúc đô thị, tạo bước chuyển biến lớn trong hiện đại hóa công trình xây dựng. Với những ưu điểm nổi bật, kính siêu trắng ứng dụng ngày càng rộng rãi...

BÌNH THUẬN ĐÓN 85.000 LƯỢT KHÁCH TRONG DỊP GIỖ TỔ HÙNG VƯƠNG

Trong 3 ngày nghỉ lễ (5 – 7.4), Bình Thuận đã đón khoảng 85.000 lượt khách, trong đó có 3.500 lượt khách quốc tế. Tổng doanh thu du lịch ước đạt khoảng 237 tỷ đồng. Nhờ kỳ nghỉ kéo dài, hạ tầng giao thông thuận tiện và loạt sự kiện hấp dẫn, Bình Thuận tiếp tục khẳng định vị...

Tập đoàn Vietravel – Dấu ấn 30 năm vững vàng hội nhập, đồng hành phát triển Bình Định trở thành điểm đến kinh tế

Hội nghị là dịp quy tụ những doanh nghiệp hàng đầu, những nhà hoạch định chính sách và chuyên gia giàu tâm huyết nhằm cùng chung tay định hướng tương lai phát triển bền vững cho Bình Định - vùng đất hội tụ tinh hoa văn hóa, tài nguyên du lịch đặc sắc và tiềm năng kinh tế vượt...

GẦN 600 NGƯỜI THAM GIA NGÀY CHẠY OLYMPIC VÌ SỨC KHỎE TOÀN DÂN NĂM 2025

Sáng 29/3, gần 600 học sinh, người dân địa phương, các đơn vị, tổ chức, DN trên địa bàn xã Bình Châu (huyện Xuyên Mộc) đã tham gia Lễ phát động ngày chạy OLYMPIC vì sức khỏe toàn dân năm 2025. Gần 600 VĐV tham gia giải Chạy Olympic Run 2025. Sự kiện do UBND xã Bình Châu tổ chức,...

Mới nhất