Gemini 3 Flash chiếm ngôi: mô hình mới của Google thách thức OpenAI với tốc độ, tiết kiệm và hiệu suất không thỏa hiệp

2026-01-12 08:28:33

Google chính thức ra mắt Gemini 3 Flash, định vị nó như mô hình mặc định trên toàn nền tảng Gemini toàn cầu. Ra mắt này đánh dấu một bước tăng tốc đáng kể trong cuộc đua công nghệ với OpenAI, khi công ty Mountain View đã xử lý hơn 1 nghìn tỷ token mỗi ngày qua API của mình.

Hiệu suất gây ấn tượng: các con số nói lên tất cả

Điều làm cho lần ra mắt này trở nên thú vị không chỉ là tốc độ—chủ đề sẽ được đề cập nhiều lần—mà còn là các benchmark chứng minh mọi sự do dự đều vô nghĩa. Trong bài kiểm tra Humanity’s Last Exam, Gemini 3 Flash đạt 33,7%, gần như ngang bằng GPT-5.2 (34,5%) và không xa Pro của Google (37,5%). Sự khác biệt? Flash có chi phí thấp hơn nhiều và nhanh hơn.

Nhưng cú đấm thực sự đến từ MMMU-Pro, benchmark về lý luận đa phương thức, nơi mô hình mới vượt trội so với đối thủ với tỷ lệ 81,2%, vượt xa tất cả các đối thủ cạnh tranh. Đây không chỉ là những con số trên giấy: chúng có nghĩa là bạn có thể tải lên video, âm thanh, bản vẽ và nhận được câu trả lời tinh vi mà không cần chờ đợi phút nào.

Tốc độ như vũ khí cạnh tranh: bộ chọn tốc độ phục vụ người dùng

Google đã cố ý nhấn mạnh một khía cạnh quan trọng: mô hình mới nhanh gấp ba lần Gemini 2.5 Pro. Không chỉ là một chỉ số kỹ thuật, mà còn là một trải nghiệm thực tế. Ứng dụng Gemini hiện cung cấp bộ chọn tốc độ ngầm định: bạn có thể dùng Flash cho hầu hết mọi thứ—phân tích video, trích xuất dữ liệu, lý luận hình ảnh—mà không giảm chất lượng, hoặc chọn mô hình Pro cho các câu hỏi lập trình nâng cao hoặc toán học phức tạp.

Tính linh hoạt này được thiết kế chiến lược. Đối với các nhiệm vụ lý luận, mô hình mới tiêu thụ ít hơn 30% token so với 2.5 Pro, điều này mang lại tiết kiệm thực tế cho các doanh nghiệp dù giá mỗi token đã tăng nhẹ.

Giá cả kể câu chuyện: hiệu quả kinh tế

Gemini 3 Flash có giá $0,50 cho 1 triệu token đầu vào và $3,00 cho 1 triệu token đầu ra, so với $0,30 và $2,50 của mô hình trước đó. Câu hỏi tất yếu: tại sao phải trả nhiều hơn?

Câu trả lời nằm ở tốc độ kết hợp với hiệu quả. Nếu mô hình nhanh gấp ba lần và sử dụng ít hơn 30% token cho một số nhiệm vụ, tổng chi phí cho mỗi giao dịch có thể giảm thực sự. Tulsee Doshi, Giám đốc cao cấp về Sản phẩm của Gemini, nhấn mạnh rằng “Flash là mô hình làm việc” cho các doanh nghiệp cần xử lý khối lượng lớn yêu cầu. Nó không phải là mô hình thông minh nhất, mà là mô hình thông minh về mặt kinh tế nhất.

Đã đi vào hoạt động: JetBrains, Figma, Harvey không chờ đợi

Google không nói về các khả năng trong tương lai, mà về thực tế hiện tại. Các công ty như JetBrains, Figma, Cursor, Harvey và Latitude đã bắt đầu khai thác Gemini 3 Flash qua Vertex AI và Gemini Enterprise. Đối với các nhà phát triển, mô hình đã có sẵn trong bản xem trước qua API và trong Antigravity, công cụ lập trình ra mắt tháng trước.

Trong benchmark SWE-bench verified cho lập trình, mô hình đạt 78%, chỉ sau GPT-5.2. Điều này có nghĩa là nó đủ tinh vi cho các nhiệm vụ mã hóa thực tế, mặc dù không phải là lựa chọn tốt nhất cho các thuật toán phức tạp và tối ưu hóa giới hạn.

Bối cảnh chiến tranh AI: chuyện gì đang thực sự xảy ra

Lần ra mắt này không đến từ hư không. Vài tuần trước, Sam Altman đã gửi một memo “Code Red” nội bộ vì lưu lượng ChatGPT giảm trong khi thị phần của Google trong người tiêu dùng tăng lên. OpenAI đã phản hồi bằng cách phát hành GPT-5.2 và các mô hình tạo hình ảnh mới, tự hào về việc tăng gấp 8 lần khối lượng tin nhắn từ tháng 11 năm 2024.

Google không trực tiếp tham gia vào cuộc tranh luận này. Doshi chọn thái độ ngoại giao: “Điều xảy ra là tất cả các mô hình này vẫn rất xuất sắc, chúng cạnh tranh lẫn nhau, đẩy giới hạn. Và tôi nghĩ thật tuyệt vời khi các công ty phát hành các mô hình này.”

Dịch: đúng vậy, có sự cạnh tranh khốc liệt, nhưng Google xem đó như một động lực tích cực cho đổi mới sáng tạo.

Sẵn sàng toàn cầu: mô hình mặc định từ hôm nay

Gemini 3 Flash thay thế Gemini 2.5 Flash làm mặc định trong ứng dụng Gemini và trong tìm kiếm AI. Người dùng toàn cầu không cần làm gì cả: họ sẽ thấy ngay mô hình mới. Đối với những ai thích mô hình Pro, vẫn có thể chọn từ menu.

Mô hình hiện đã có mặt tại Hoa Kỳ cho tìm kiếm, với kế hoạch mở rộng toàn cầu đang diễn ra. Ứng dụng hỗ trợ tải lên video, âm thanh, bản phác thảo, tài liệu—mô hình xử lý và tạo phân tích, quiz, lời khuyên, bảng biểu.

Gemini 3 Flash không phải là mô hình mạnh nhất mọi thời đại, nhưng là mô hình thông minh nhất về mặt kinh tế và tốc độ. Trong một cuộc thi mà tất cả các đối thủ đều đạt điểm kỹ thuật tương tự, người chiến thắng là người phục vụ kết quả nhanh nhất với mức giá cạnh tranh nhất. Đây chính là bộ chọn mà Google đã chọn để tạo sự khác biệt.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.