Trang chủVăn hóa - Xã hộiGiáo dụcHai nam sinh công bố nghiên cứu tại hội nghị AI hàng...

Hai nam sinh công bố nghiên cứu tại hội nghị AI hàng đầu thế giới


Với phương pháp đào tạo đối nghịch để AI tạo thêm dữ liệu mới, nghiên cứu của hai sinh viên Bách khoa TP HCM được công bố ở AAAI – hội nghị về AI hàng đầu thế giới.

Nghiên cứu về mô hình đa ngôn ngữ huấn luyện AI tạo câu đồng nghĩa của Phạm Khánh Trình và Lê Minh Khôi, 23 tuổi, được đăng trong tài liệu Hội nghị AAAI-24 về Trí tuệ nhân tạo, diễn ra cuối tháng 2 tại Vancouver, Canada.

PGS.TS Quản Thành Thơ, Phó trưởng khoa Khoa học và Kỹ thuật Máy tính, Đại học Bách khoa TP HCM, đánh giá đây là kết quả đáng khen ngợi. Thầy Thơ cho biết AAAI được giới nghiên cứu, chuyên gia đánh giá có chất lượng hàng đầu trong các hội nghị khoa học lĩnh vực khoa học máy tính, trí tuệ nhân tạo, với tỷ lệ chấp thuận bài báo rất thấp, năm nay là 23,75%.





Minh Khôi và Khánh Trình (giữa) trong buổi bảo vệ luận văn tốt nghiệp, năm 2023. Ảnh: Nhân vật cung cấp

Minh Khôi và Khánh Trình (giữa) trong buổi bảo vệ luận văn tốt nghiệp, năm 2023. Ảnh: Nhân vật cung cấp

Có chung niềm đam mê với Học sâu và Xử lý ngôn ngữ tự nhiên, Trình và Khôi chọn hướng nghiên cứu về mô hình ngôn ngữ lớn (LLMs). Cả hai muốn tìm ra những mặt hạn chế của LLMs và cải tiến nó.

Khánh Trình cho biết Chat GPT hay LLMs cần được huấn luyện một lượng dữ liệu văn bản khổng lồ để tạo ra các phản hồi chính xác, đa dạng cho người dùng. Hai nam sinh nhận ra với các ngôn ngữ ít phổ biến như tiếng Hindi, Kazakh, hay Indonesia, Chat GPT và LLMs thường cho ra kết quả không như mong đợi vì chưa được học nhiều thứ tiếng này, hoặc thứ tiếng này chưa đủ dữ liệu cho chúng học.

“Tại sao chúng ta không tạo thêm dữ liệu dạng chữ từ những ‘tài nguyên ít ỏi’ của các thứ tiếng đó để huấn luyện thêm cho AI”, hai nam sinh đặt vấn đề. Từ đó mô hình LAMPAT (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) – diễn giải đa ngôn ngữ bằng cách sử dụng phương pháp đào tạo đối nghịch do Trình và Khôi nghiên cứu, ra đời.

LAMPAT có khả năng tạo một câu đồng nghĩa từ một câu đầu vào có sẵn, nhằm sinh thêm dữ liệu dạng chữ. Trình giải thích “đào tạo đối nghịch” là một phương pháp tương đối mới trong huấn luyện các mô hình ngôn ngữ lớn. Khi đưa một câu đầu vào, với phương pháp huấn luyện truyền thống, ứng dụng sẽ tạo một câu đầu ra. Nhưng với phương pháp đào tạo đối nghịch, ứng dụng có thể tự nhận xét, chỉnh sửa câu đầu ra, “đối nghịch với chính nó” để tạo thêm nhiều câu khác.

Tính đa ngôn ngữ của LAMPAT nằm ở việc mô hình này cùng một lúc tích hợp 60 thứ tiếng. Trên cơ sở các bộ dữ liệu thu thập được, nhóm tiếp tục huấn luyện cho LAMPAT tạo câu đồng nghĩa. Lượng dữ liệu dạng chữ được tạo ra từ LAMPAT sẽ tiếp tục được mang đi huấn luyện cho LLMs để các mô hình này học được nhiều kiểu diễn đạt thông tin khác nhau cho cùng một nội dung, từ đó cho kết quả phản hồi đa dạng và có xác suất đúng cao hơn. Với tính năng này, đại diện nhóm cho rằng LAMPAT có thể được tích hợp vào các ứng dụng như ChatGPT để hoàn thiện hơn mô hình này.

Bên cạnh đó, tình trạng thiếu dữ liệu cho Chat GPT hay LLMs khiến một số công ty phải tìm kiếm nhiều nguồn từ bên ngoài như sách, báo, blog,… mà không để ý đến vấn đề bản quyền. Việc tạo câu đồng nghĩa cũng là một trong những cách để hạn chế tình trạng đạo văn, vi phạm bản quyền, theo Khánh Trình.

Nam sinh ví dụ với các ứng dụng như Chat GPT, khi người dùng yêu cầu tóm tắt một văn bản có sẵn A, ứng dụng sẽ tạo ra một văn bản tóm tắt B. Nếu tích hợp phương pháp nghiên cứu của nhóm, khi tiếp nhận văn bản A, ứng dụng sẽ tạo ra nhiều văn bản cùng nội dung A1, A2, A3 dựa trên cơ chế tạo câu đồng nghĩa, từ đó mới tóm tắt văn bản và cho ra nhiều kết quả để người dùng lựa chọn.

Trong thời gian đầu nghiên cứu, nhóm gặp khó khăn khi chuẩn bị dữ liệu đánh giá cho 60 thứ tiếng. Do chưa thể tiếp cận với số lượng dữ liệu đủ lớn nên nhóm đã tổng hợp bộ dữ liệu đa dạng, đầy đủ của 13 thứ tiếng để đánh giá khách quan mô hình, gồm: Việt, Anh, Pháp, Đức, Nga, Nhật, Trung, Tây Ban Nha, Hungary, Bồ Đào Nha, Thụy Điển, Phần Lan, Séc. Đây cũng là bộ dữ liệu đáng tin cậy cho bước Human Evaluation (chấm điểm) cuối cùng.





Minh Khôi (trái) và Khánh Trình (phải) chụp ảnh kỷ niệm với thầy Quản Thành Thơ nhân ngày tốt nghiệp, tháng 11/2023. Ảnh: Nhân vật cung cấp

Minh Khôi (trái) và Khánh Trình (phải) chụp ảnh kỷ niệm với thầy Quản Thành Thơ nhân ngày tốt nghiệp, tháng 11/2023. Ảnh: Nhân vật cung cấp

Đối với mỗi ngôn ngữ tiếng Anh, Việt, Đức, Pháp và Nhật, nhóm trích xuất ngẫu nhiên 200 cặp câu (một cặp gồm câu đầu ra và nhãn đúng) để đánh giá. Với mỗi ngôn ngữ nêu trên, nhóm nhờ 5 chuyên gia ngôn ngữ chấm điểm độc lập, dựa trên ba tiêu chí: bảo toàn ngữ nghĩa; cách lựa chọn từ ngữ và độ tương đồng về từ vựng, tính trôi chảy và mạch lạc của câu đầu ra. Thang đo được tính từ 1 đến 5. Kết quả, điểm đánh giá trung bình từ chuyên gia ngôn ngữ ở 5 thứ tiếng này dao động 4,2-4,6/5 điểm.

Trình đưa ra ví dụ một cặp câu tiếng Việt được chấm điểm 4,4/5, trong đó câu đầu vào là: “Anh ta đã giải thích vấn đề ấy một cách chi tiết”, và câu đầu ra: “Anh ta đã giải thích chi tiết vấn đề ấy”.

Nhưng cũng có những cặp câu chất lượng không tốt, sai ngữ nghĩa, như cặp câu “Chúng tôi ăn trong khi súp nóng – Chúng tôi ăn súp trong khi chúng tôi đang nóng”, chỉ đạt 2/5 điểm.

Khánh Trình cho hay mất 8 tháng để nghiên cứu và hoàn thành công trình này. Đây cũng là đề tài luận văn tốt nghiệp của Trình và Khôi. Luận văn đứng đầu ở Hội đồng Khoa học Máy tính 2 với 9,72/10 điểm.

Theo thầy Quản Thành Thơ, dù LAMPAT chứng tỏ khả năng thành thạo trong việc tạo ra các cụm diễn giải đồng nghĩa giống con người trên nhiều ngôn ngữ, nhưng nó vẫn cần cải tiến để xử lý các thành ngữ, ca dao, tục ngữ ở các thứ tiếng khác nhau.

Hơn nữa, tập dữ liệu đánh giá của nhóm chỉ gồm 13 ngôn ngữ, vẫn còn bỏ sót nhiều, nhất là tiếng dân tộc thiểu số. Vì vậy, nhóm cần nghiên cứu để nâng cao và mở rộng khả năng của các mô hình diễn giải đa ngôn ngữ hiện nay. Từ đây, chúng ta có thể gỡ bỏ được rào cản ngôn ngữ giữa các quốc gia và dân tộc.

Cuối năm 2023, Trình và Khôi tốt nghiệp cử nhân Khoa học Máy tính loại giỏi và xuất sắc với điểm trung bình (GPA) lần lượt là 3.7 và 3.9/4. Cả hai định du học thạc sĩ và đi theo con đường nghiên cứu về trí tuệ nhân tạo, học máy.

“Chúng mình vẫn tiếp tục nghiên cứu đề tài này với mục tiêu ứng dụng LAMPAT nhiều hơn vào các công trình khoa học sắp tới, tạo được một sản phẩm đa ngôn ngữ đáng tin cậy cho người dùng”, Trình chia sẻ.

Lệ Nguyễn




Source link

Cùng chủ đề

Meta hỗ trợ xây dựng bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao

Sáng nay (14/3), Tập đoàn Meta cùng Trung tâm Đổi mới sáng tạo Quốc gia (NIC) khởi động Chương trình Thách thức Đổi mới sáng tạo 2025, đánh dấu năm thứ ba triển khai chương trình với mục tiêu thúc đẩy phát triển trí tuệ nhân tạo (AI) tại Việt Nam. ...

Foxconn ra mắt mô hình ngôn ngữ lớn đầu tiên

Hôm nay (10/3), công ty Foxconn của Đài Loan (Trung Quốc) công bố đã phát triển mô hình ngôn ngữ lớn đầu tiên và có kế hoạch sử dụng công nghệ này để cải thiện quản lý sản xuất và chuỗi cung ứng. ...

Doanh nghiệp Trung Quốc đổ xô ủng hộ DeepSeek

Các doanh nghiệp Trung Quốc, từ nhà sản xuất chip đến cung cấp dịch vụ đám mây, đang đổ xô hỗ trợ cho mô hình trí tuệ nhân tạo (AI) của DeepSeek. ...

Nữ sinh Củ Chi vừa học bài vừa dỗ mẹ bệnh tâm thần đã đậu Đại học Bách khoa TP.HCM

Nhiều năm tháng thời gian học bài luôn phải ngắt quãng vì tiếng la của mẹ, phải bỏ dở bài vở để chạy vào “dỗ” người mẹ mắc bệnh tâm thần, Hồng Nhung không nguôi khát khao được vào đại học, năm 2024 cô thành tân sinh viên Trường ĐH Bách khoa TP.HCM. Gia đình chính là động lực để Hồng Nhung nhắc mình phấn đấu, thay đổi số phận - Ảnh: DIỆU QUÍ Kỳ thi tốt nghiệp THPT vừa qua,...

Nổi bật

Mới nhất

Cùng tác giả

Suntory Pepsico sẽ chuyển 4 dây chuyền từ TP HCM về Long An

4 dây chuyền sản xuất nước có ga và Aquafina với công suất gần 450 triệu lít mỗi năm của Pepsico sẽ chuyển về Long An. Trong báo cáo đánh giá tác động môi trường mới nhất của dự án tại Long An, Công ty TNHH Nước giải khát Suntory PepsiCo Việt Nam (SPVB) cho biết sẽ chuyển 4 dây chuyền sản xuất từ nhà máy tại Quận 12, TP HCM về lắp đặt tại Khu công nghiệp Hựu Thạnh,...

Thứ trưởng Đỗ Hùng Việt đánh giá phiên đối thoại báo cáo UPR của đoàn Việt Nam

Thứ trưởng Bộ Ngoại giao Đỗ Hùng Việt cho biết Việt Nam đã có một phiên đối thoại UPR rất thành công với sự tham gia của đông đảo các nước thành viên Liên hợp quốc. Ngày 10/5 (giờ Thụy Sĩ), Nhóm làm việc về Cơ chế rà soát định kỳ phổ quát (UPR) chu kỳ IV của Hội đồng Nhân quyền Liên hợp quốc đã đồng thuận thông qua Báo cáo quốc gia UPR của Việt Nam. Chia sẻ với...

Khối sỏi san hô chiếm gần hết thận người phụ nữ

TP HCMBà Phương, 59 tuổi, bị sỏi thận nhiều năm, ba tháng nay đau thắt lưng nhiều hơn, bác sĩ phát hiện khối sỏi san hô 7 cm to gần bằng quả thận. Ngày 9/5, thạc sĩ, bác sĩ Nguyễn Tân Cương, Phó khoa Tiết niệu, Trung tâm Tiết niệu - Thận học - Nam khoa, Bệnh viện Đa khoa Tâm Anh TP HCM, cho biết khối sỏi san hô nhiều nhánh nằm ở thận phải bệnh nhân, gần...

Venezuela trở thành quốc gia đầu tiên mất tất cả sông băng 

Venezuela từng có 6 sông băng rộng 1.000 km2 vào năm 1910, nhưng chúng nhanh chóng trở thành những vùng băng nhỏ không đủ tiêu chuẩn xếp loại sông băng. Sông băng Humboldt hiện nhỏ đến mức được phân loại là cánh đồng băng. Ảnh: Jorge ferrer Sự biến mất của sông băng cuối cùng, Humboldt, đưa Venezuela về nhất trong cuộc đua trở thành quốc gia đầu tiên trong thời hiện đại chứng kiến toàn bộ sông băng tan...

Cuộc chiến pháp lý dài hơi giữa TikTok với chính phủ Mỹ

TikTok và ByteDance kiện chính phủ Mỹ về đạo luật có thể cấm ứng dụng này, châm ngòi cuộc chiến pháp lý có thể kéo dài đến giữa năm 2025. TikTok và công ty mẹ ByteDance, trụ sở Trung Quốc, ngày 7/5 đệ đơn kiện lên Tòa phúc thẩm liên bang Quận Columbia, sau khi Tổng thống Joe Biden ngày 24/4 ký ban hành Đạo luật Bảo vệ người Mỹ khỏi ứng dụng do đối thủ nước ngoài kiểm...

Bài đọc nhiều

Thượng tướng Nguyễn Tân Cương chủ trì Hội nghị tổng kết năm học 2022-2023 và triển khai nhiệm vụ năm học 2023-2024

Sáng 30-8, Bộ Tổng Tham mưu Quân đội nhân dân Việt Nam tổ chức Hội nghị tổng kết năm học 2022-2023 và triển khai nhiệm vụ năm học 2023-2024. Thượng tướng Nguyễn Tân Cương, Ủy viên Trung ương Đảng, Ủy viên Thường vụ Quân ủy Trung ương, Tổng Tham mưu trưởng Quân đội nhân dân Việt Nam, Thứ trưởng Bộ Quốc phòng...

Ban hành Bộ Chỉ số đánh giá mức độ trưởng thành chuyển đổi số báo chí

Bộ Thông tin và Truyền thông đã ban hành Quyết định số 951/QĐ-BTTTT về Bộ Chỉ số đánh giá, đo lường mức độ trưởng thành chuyển đổi số báo chí. Bộ Chỉ số nhằm giúp các cơ quan báo chí xác định được mình đang ở giai đoạn nào trong quá trình chuyển đổi số từ đó có lộ trình, kế hoạch,...

Những đặc điểm và biểu hiện để nhận biết người trường thọ

Người sống trường thọ có đùi to, eo vừa phải, dung tích phổi lớn, thái độ sống lạc quan...

Cách đạt 9.0 Writing IELTS của Luyện Quang Kiên

Chú ý các dữ liệu đặc biệt và lập luận thuyết phục, theo anh Luyện Quang Kiên là bí quyết cho bài thi IELTS Writing điểm 9.0. Anh Kiên, giáo viên tiếng Anh, 31 tuổi, ở Hà Nội, là người đầu tiên đạt 9.0 ở cả bốn kỹ năng IELTS gồm Listening (Nghe), Speaking (Nói), Reading (Đọc) và Writing (Viết) sau bài thi trên máy hôm 3/6.Theo anh Kiên, Viết là kỹ năng khó giành điểm tối đa nhất....

Cùng chuyên mục

Tuyển giáo viên trước sáp nhập đơn vị hành chính: Nơi tự tạm dừng, nơi tiếp tục tuyển

Tại tỉnh Ninh Thuận có huyện tiếp tục tuyển giáo viên để đảm bảo việc dạy học, nhưng có nơi lại tạm dừng vì lý do sắp xếp, sáp nhập đơn vị hành chính. Ngược lại, UBND huyện Ninh Phước cũng đã có thông...

Đừng tự nuốt ‘chén đắng’ do gian dối thi cử

Nhiều quảng cáo về chuyện thi hộ các chứng chỉ tiếng Anh, trong đó có nhiều chứng chỉ quốc tế uy tín đang công khai trên mạng. "Thi hộ chứng chỉ ngoại ngữ. Thanh toán khi biết điểm. PTE-IELTS-TOEIC. Cam kết đạt mục tiêu,...

TP Hồ Chí Minh thông báo kế hoạch tuyển sinh lớp 10 công lập năm học 2025-2026

Học sinh tốt nghiệp THCS năm học 2024 - 2025, tại TP Hồ Chí Minh trong độ tuổi quy định đều được tham gia dự thi tuyển sinh vào lớp 10 THPT công lập theo 2 phương thức  xét tuyển và thi tuyển. Phương thức xét tuyển chỉ dành riêng cho học sinh đã tốt nghiệp Trường THCS - THPT Thạnh...

TPHCM mở rộng đối tượng thi tuyển lớp 10 chuyên

Trường Trung học phổ thông chuyên Lê Hồng Phong và Trung học phổ thông chuyên Trần Đại Nghĩa được phép tiếp nhận thí sinh đã tốt nghiệp trung học cơ sở ở các tỉnh, thành phố khác. ...

Danh sách học sinh các tỉnh lọt đội tuyển dự thi Olympic quốc tế năm 2025

Bộ GD-ĐT vừa công bố kết quả kỳ thi chọn đội tuyển quốc gia dự thi Olympic quốc tế và khu vực năm 2025. Theo đó, có 37 học sinh lọt vào danh sách này. Từ ngày 25 - 27/3, Bộ GD-ĐT tổ chức kỳ thi chọn đội tuyển quốc gia dự thi Olympic quốc tế và khu vực năm 2025. Kỳ thi năm nay có sự tham gia của 187 thí sinh đến từ các tỉnh, thành phố trên...

Mới nhất

Cắt bỏ thận do chủ quan khi mắc sỏi niệu quản

Bệnh viện Đa khoa Hà Nội vừa tiến hành phẫu thuật cắt bỏ thận phải cho một bệnh nhân 40 tuổi do biến chứng của sỏi niệu quản. Trước đó, bệnh nhân đã chủ quan, không điều trị kịp thời, dẫn đến mất chức năng thận. ...

Nhà đầu tư cam kết thực hiện, theo đuổi các dự án

Tròn 1 năm sau ký kết bản ghi nhớ đầu tư về dự án điện gió hơn 5.000 tỷ đồng tại huyện Vân Canh, Tập đoàn Nexif Ratch Energy đã tiến hành đo gió, đang xúc tiến các thủ tục để đấu thầu dự án. Bình Định: Nhà đầu tư cam kết thực hiện, theo đuổi các dự ánTròn 1...

Biến chứng đáng sợ của men gan thấp nếu không được điều trị đúng

GĐXH - Men gan thấp nếu không được điều trị kịp thời có thể gây suy dinh dưỡng, suy gan, rối loạn chuyển hóa và tăng nguy cơ nhiễm trùng. ...

Kiến trúc đô thị Đà Nẵng từ góc nhìn các dự án bất động sản

Kiến trúc đô thị Đà Nẵng đang phát triển mạnh mẽ theo hướng hiện đại, thông minh, xanh và bền vững. Trong đó, các dự án bất động sản lớn đóng vai trò quan trọng trong việc dẫn dắt, định hướng, định hình hệ thống kiến trúc, góp phần tạo ra một diện mạo hiện đại cho đô thị...

Tìm giải pháp đa đạng hóa thị trường xuất khẩu

Các giải pháp đa dạng hóa thị trường, chuỗi cung ứng mà doanh nghiệp đang làm không chỉ nhằm ứng phó với tình thế trước mắt. Các giải pháp đa dạng hóa thị trường, chuỗi cung ứng mà doanh nghiệp đang làm không chỉ nhằm ứng phó với tình thế trước mắt. ...

Mới nhất