Các bài thử nghiệm lập trình và toán học cho thấy S1 (tên của mô hình) có kết quả tương đương những mô hình AI lý luận tiên tiến nhất hiện nay như o1 của OpenAI và R1 của DeepSeek.

Đáng chú ý, S1 là mô hình mã mở, đang có sẵn trên kho GitHub cho tất cả mọi người có thể truy cập.

Đội ngũ phát triển chia sẻ, họ bắt đầu từ một mô hình cơ bản có sẵn, sau đó tinh chỉnh thông qua “chưng cất” – quá trình trích xuất khả năng “lý luận” từ một mô hình AI khác bằng cách huấn luyện trên các câu trả lời của nó.

Cụ thể, S1 được chưng cất từ mô hình Gemini 2.0 Flash Thinking Experimental của Google. Việc chưng cất diễn ra tương tự như cách những nhà khoa học tại Đại học Berkeley thực hiện để tạo ra mô hình với chi phí khoảng 450 USD (khoảng 11,3 triệu VNĐ).

GettyImages 1168836247 1.jpg.jpeg
DeepSeek mở màn cuộc đua phát triển AI giá rẻ. Ảnh: TechCrunch

Các nhà nghiên cứu đằng sau s1 đã tìm ra phương pháp đơn giản nhất để đạt được hiệu suất lý luận mạnh mẽ và “tăng cường quy mô trong quá trình thử nghiệm,” tức là cho phép mô hình AI suy nghĩ nhiều hơn trước khi trả lời câu hỏi.

Đây là một trong những đột phá trong o1 của OpenAI, mà DeepSeek và các phòng thí nghiệm AI khác đã cố gắng sao chép thông qua các kỹ thuật khác nhau. 

Bài báo về S1 cho thấy các mô hình lý luận có thể được chưng cất với một bộ dữ liệu khá nhỏ thông qua một quá trình gọi là tinh chỉnh giám sát (SFT), trong đó một mô hình AI được chỉ dẫn rõ ràng để bắt chước một số hành vi nhất định trong bộ dữ liệu.

SFT thường rẻ hơn so với phương pháp học củng cố quy mô lớn mà DeepSeek đã sử dụng để huấn luyện mô hình R1.

Google đang cung cấp quyền truy cập miễn phí vào Gemini 2.0 Flash Thinking Experimental, mặc dù có giới hạn tần suất hằng ngày, qua nền tảng Google AI Studio.

Tuy nhiên, các điều khoản của Google cấm việc giải mã ngược các mô hình của họ để phát triển các dịch vụ cạnh tranh với sản phẩm AI của công ty. 

S1 dựa trên một mô hình AI nhỏ có sẵn từ phòng thí nghiệm AI Qwen thuộc sở hữu của Alibaba, có thể tải xuống miễn phí. Để huấn luyện S1, các nhà nghiên cứu đã tạo ra một bộ dữ liệu gồm 1.000 câu hỏi được lựa chọn kỹ càng, đi kèm với câu trả lời và quá trình “suy nghĩ” đằng sau mỗi câu trả lời từ Gemini 2.0 Flash Thinking Experimental của Google.

Quá trình huấn luyện này chỉ mất chưa đầy 30 phút với 16 GPU Nvidia H100, nhưng vẫn cho kết quả mạnh mẽ trên một số chỉ số đánh giá AI. Niklas Muennighoff, một nhà nghiên cứu từ Stanford, cho biết chi phí thuê điện toán cần thiết chỉ rơi vào khoảng 20 USD.

Các nhà nghiên cứu đã sử dụng một mẹo để S1 kiểm tra lại công việc của nó và kéo dài “thời gian suy nghĩ”, chẳng hạn họ yêu cầu mô hình chờ đợi bằng việc thêm từ “chờ” vào quá trình lý luận, giúp mô hình đưa ra câu trả lời chính xác hơn.

Vào năm 2025, Meta, Google và Microsoft dự định đầu tư hàng trăm tỷ USD vào cơ sở hạ tầng AI, một phần trong đó sẽ được sử dụng để huấn luyện các mô hình AI thế hệ tiếp theo. Mức độ đầu tư này vẫn có thể cần thiết để thúc đẩy sự đổi mới trong AI.

Quá trình chưng cất đã chứng minh là một phương pháp tốt để tái tạo các khả năng của mô hình AI với chi phí thấp, nhưng nó không tạo ra các mô hình AI mới vượt trội so với những gì hiện có ngày nay.

(Theo TechCrunch)

Google chính thức phát hành Gemini 2.0 cạnh tranh AI Trung QuốcGoogle vừa chính thức phát hành chatbot thế hệ tiếp theo, Gemini 2.0 với nhiều phiên bản và cập nhật.