DeepSeek-R1 có văn phong tốt, GPT-4o có phong cách vẽ Ghibli, OpenAI o3 có khả năng suy luận vị trí địa lý từ hình ảnh...
Đây là sản phẩm AI hiện tượng đã gây sốt trong hai tháng qua, bạn có thể thấy rõ: học tăng cường cuối cùng cũng có thể tổng quát hóa, và các mô hình đa phương thức ngày càng khả dụng hơn. Điều này cũng có nghĩa là, năm 2025 thực sự đã bước vào thời điểm ứng dụng Agent có thể triển khai và tăng tốc.
Đội ngũ Manus, một AI Agent từng bùng nổ, đã tiết lộ rằng vào cuối năm ngoái, Claude 3.5 Sonnet đã đạt đến mức độ cần thiết cho việc làm Agent trong các nhiệm vụ lập kế hoạch dài hạn và khả năng giải quyết vấn đề từng bước.
Hiện nay, với sự trưởng thành hơn nữa của các mô hình suy nghĩ sâu sắc và các mô hình đa phương thức, chắc chắn sẽ có nhiều Agent hơn có khả năng xử lý các nhiệm vụ phức tạp.
Dựa trên phán đoán này, vào ngày 17 tháng 4, nền tảng dịch vụ đám mây và AI của ByteDance "Hỏa Sơn Dẫn" đã ra mắt một mô hình mạnh mẽ hơn cho thị trường doanh nghiệp - mô hình tư duy sâu Beanbag 1.5, đây cũng là lần đầu tiên mô hình suy luận đứng sau ứng dụng AI Beanbag của ByteDance xuất hiện. Cùng với đó, còn có mô hình văn bản thành hình ảnh Beanbag 3.0 và mô hình hiểu biết thị giác phiên bản nâng cấp.
Đối với mô hình được phát hành lần này, Tổng giám đốc của Volcano Engine, Tân Đãi cho rằng, "Mô hình tư duy sâu là nền tảng để xây dựng Agent, mô hình phải có khả năng tư duy, lập kế hoạch và tự phản ánh tốt, và nhất định phải hỗ trợ đa phương thức, giống như con người có khả năng nhìn và nghe, Agent mới có thể xử lý tốt hơn các nhiệm vụ phức tạp."
Khi AI phát triển khả năng ra quyết định và thực thi tự động từ đầu đến cuối và hướng tới quy trình sản xuất cốt lõi, Volcano Engine cũng đã chuẩn bị kiến trúc và công cụ cho các tác nhân vận hành thế giới kỹ thuật số và vật lý — giải pháp OS Agent và bộ suy luận gốc đám mây AI, để giúp doanh nghiệp xây dựng và triển khai các ứng dụng đại lý nhanh hơn và tiết kiệm chi phí hơn.
Theo quan điểm của Tan Dai, việc phát triển Agent giống như phát triển một trang web hoặc ứng dụng, chỉ có API mô hình không thể hoàn toàn giải quyết vấn đề, cần nhiều thành phần AI cloud-native trên đám mây. Trước đây, cloud-native có các định nghĩa cốt lõi như container, tính linh hoạt, v.v.; hiện nay, AI cloud-native cũng sẽ có những yếu tố quan trọng tương tự. Thông qua việc suy nghĩ, khám phá và hành động nhanh chóng liên quan đến AI cloud-native - chẳng hạn như xây dựng các middleware, đánh giá, giám sát, khả năng quan sát, xử lý dữ liệu, đảm bảo an ninh và các thành phần liên quan như Sandbox xung quanh mô hình, Volcano Engine cam kết trở thành giải pháp tối ưu cho cơ sở hạ tầng trong kỷ nguyên AI.
01 Mô hình suy nghĩ sâu sắc của Đậu Bịch, giống như con người vừa xem vừa nghĩ vừa tìm kiếm
Kể từ khi DeepSeek-R1 được phát hành vào đầu năm, nhiều ứng dụng ToC đã kết nối với mô hình suy luận R1, ngoại trừ ứng dụng Đậu Bao. Vào đầu tháng 3, chế độ "Suy nghĩ sâu" được ra mắt trên ứng dụng Đậu Bao, đằng sau là mô hình suy nghĩ sâu Đậu Bao do ByteDance tự phát triển.
Hiện tại, mô hình suy diễn này - Đậu bao 1.5 · Mô hình tư duy sâu chính thức được phát hành, có thể trải nghiệm và gọi trên nền tảng Volcano Ark.
Nhấn vào chế độ kết nối mạng, Đậu Bao có thể suy nghĩ như con người khi giải quyết vấn đề, nghĩ một chút, tìm kiếm một chút, rồi tiếp tục suy nghĩ... cuối cùng với mục đích là giải quyết vấn đề.
Đây là một ví dụ trong bối cảnh mua sắm, sau khi đưa ra ngân sách, kích thước và các điều kiện hạn chế khác, để Doubao đề xuất một bộ đồ cắm trại phù hợp.
Trong vấn đề này, Doubao trước tiên đã phân tích các lưu ý, lập kế hoạch cho thông tin cần thiết, sau đó xác định thông tin thiếu sót và tiến hành tìm kiếm trên mạng. Tại đây, nó đã tìm kiếm 3 vòng, đầu tiên là tìm kiếm giá cả và hiệu suất, đảm bảo phù hợp với ngân sách và nhu cầu; cũng đã xem xét nhu cầu riêng của trẻ em, cuối cùng xem xét thời tiết, tìm kiếm các đánh giá chi tiết liên quan. Vừa suy nghĩ vừa tìm kiếm, cho đến khi có được tất cả bối cảnh cần thiết để đưa ra quyết định, đã đưa ra câu trả lời suy luận.
Ngoài việc vừa tìm kiếm vừa suy nghĩ, mô hình suy nghĩ sâu của Đậu Bánh còn có khả năng suy luận thị giác, giống như con người, không chỉ có thể suy nghĩ dựa trên văn bản mà còn có thể suy nghĩ dựa trên hình ảnh nhìn thấy.
Chẳng hạn như trong tình huống gọi món, kỳ nghỉ vàng 1/5 sắp đến, những người bạn đi du lịch nước ngoài không cần phải chụp ảnh và tải lên phần mềm dịch để dịch thực đơn nữa, mô hình tư duy sâu của Doubao có thể giúp bạn gọi món trực tiếp dựa trên hình ảnh.
Trong ví dụ dưới đây, mô hình suy nghĩ sâu của Đậu Bảo đã thực hiện việc chuyển đổi tỷ giá để kiểm soát ngân sách, sau đó xem xét sở thích của người già và trẻ em, đồng thời cẩn thận tránh các món ăn mà họ bị dị ứng, và đưa ra kế hoạch thực đơn.
Kết nối, suy nghĩ, suy luận, đa mô hình, Đậu bao 1.5・Mô hình suy nghĩ sâu thể hiện khả năng suy luận tổng hợp, có thể giải quyết những vấn đề phức tạp hơn.
Theo báo cáo kỹ thuật, mô hình Đậu bao 1.5・Suy nghĩ sâu sắc có mức hoàn thành cao trong các nhiệm vụ suy luận trong lĩnh vực chuyên môn, chẳng hạn như điểm số trong bài kiểm tra suy luận toán học AIME 2024 đã đạt được ngang bằng với OpenAI o3-mini-high, thành tích trong các cuộc thi lập trình và bài kiểm tra suy luận khoa học cũng gần đạt o1. Trong các nhiệm vụ chung như viết sáng tạo, câu hỏi kiến thức nhân văn, mô hình cũng thể hiện khả năng tổng quát xuất sắc, có thể đảm nhận nhiều bối cảnh sử dụng rộng rãi hơn.
Mô hình tư duy sâu của Đậu Bao còn có đặc điểm độ trễ thấp, báo cáo kỹ thuật cho thấy mô hình này sử dụng kiến trúc MoE, tổng số tham số là 200B, tham số kích hoạt chỉ 20B, đạt hiệu quả tương đương với các mô hình hàng đầu với số lượng tham số nhỏ hơn. Dựa trên thuật toán hiệu quả và hệ thống suy diễn hiệu suất cao, dịch vụ API của mô hình Đậu Bao đảm bảo khả năng đồng thời cao trong khi độ trễ chỉ còn 20 mili giây.
Đồng thời, nó cũng có khả năng đa phương thức, có thể áp dụng mô hình suy nghĩ sâu vào nhiều tình huống khác nhau, chẳng hạn như nó có thể hiểu các biểu đồ quy trình quản lý dự án doanh nghiệp phức tạp, nhanh chóng xác định thông tin quan trọng, và với khả năng tuân theo chỉ dẫn mạnh mẽ, trả lời các câu hỏi của khách hàng một cách chính xác theo biểu đồ quy trình; khi phân tích hình ảnh từ trên không, nó có thể kết hợp các đặc điểm địa hình để đánh giá tính khả thi của việc phát triển khu vực.
Ngoài mô hình suy diễn, gia đình mô hình lớn Doubao lần này còn mang đến hai bản cập nhật mô hình. Về mô hình văn bản sinh hình, Doubao đã cho ra mắt phiên bản nâng cấp mới nhất 3.0, phiên bản này có khả năng thể hiện bố cục văn bản tốt hơn, hiệu ứng tạo hình ảnh đạt chất lượng thực, cũng như cách tạo ra hình ảnh HD 2K.
Mô hình mới không chỉ giải quyết tốt vấn đề phát sinh văn bản nhỏ và văn bản dài, mà còn cải thiện việc định dạng hình ảnh. Ví dụ, hai poster "Hiện hình" và "Kế hoạch thu hoạch" được tạo ở bên trái, chi tiết được tạo ra khá tinh xảo, định dạng cũng tự nhiên, có thể sử dụng ngay.
Một nâng cấp khác là mô hình hiểu biết thị giác đậu bao 1.5. Phiên bản mới có hai cập nhật quan trọng, định vị thị giác chính xác hơn và khả năng hiểu video thông minh hơn.
Về định vị hình ảnh, mô hình hiểu biết hình ảnh Đậu Bao 1.5 hỗ trợ định vị khung cho nhiều mục tiêu, mục tiêu nhỏ và mục tiêu chung, cũng như định vị điểm, và hỗ trợ đếm định vị, mô tả nội dung định vị, cũng như định vị 3D. Việc cải thiện khả năng định vị hình ảnh có thể cho phép mô hình mở rộng thêm các tình huống ứng dụng, chẳng hạn như cảnh kiểm tra tại cửa hàng offline, tác nhân GUI, đào tạo robot, đào tạo lái xe tự động, v.v.
Trong khả năng hiểu video, mô hình này cũng có sự cải thiện lớn, chẳng hạn như khả năng ghi nhớ, khả năng tóm tắt hiểu biết, khả năng nhận thức tốc độ, khả năng hiểu video dài, v.v. Các doanh nghiệp có thể dựa trên khả năng hiểu video để tạo ra những ứng dụng thương mại thú vị hơn, chẳng hạn như trong bối cảnh gia đình, chúng ta có thể dựa vào khả năng hiểu video, kết hợp với tìm kiếm vector, để thực hiện tìm kiếm ngữ nghĩa trong video giám sát tại nhà.
Ví dụ như trong trường hợp dưới đây, người nuôi mèo muốn tìm hiểu về hoạt động hàng ngày của mèo, giờ đây chỉ cần tìm kiếm "Hôm nay mèo con đã làm gì ở nhà?" là có thể nhanh chóng trả về các đoạn video có liên quan đến ngữ nghĩa để người dùng xem.
Nhờ vào các mô hình suy luận có khả năng hiểu trực quan và khả năng suy luận lớn hơn, nhiều việc trước đây không thể thực hiện giờ có thể được thực hiện, mở khóa nhiều cảnh hơn, chẳng hạn như camera có chức năng này chắc chắn sẽ được ưa chuộng hơn, kính AI, đồ chơi AI, camera thông minh, khóa cửa, v.v. cũng sẽ có không gian phát triển mới.
02 Đám mây, bước vào thời đại AI Agentic
Trong hai ngày qua, nhà nghiên cứu OpenAI Yao Shunyu (Deep Research, tác giả cốt lõi của Operator) đã chỉ ra trong bài viết "Nửa sau của AI" rằng khi học tăng cường cuối cùng cũng tìm ra một con đường có thể khái quát hóa, nó sẽ không chỉ hoạt động trong các lĩnh vực cụ thể, chẳng hạn như AlphaGo, đánh bại người chơi cờ của con người, mà có thể gần với mức độ cạnh tranh của con người trong kỹ thuật phần mềm, viết sáng tạo, toán học cấp IMO, thao tác chuột và bàn phím, v.v. Trong trường hợp này, sẽ dễ dàng hơn để cạnh tranh cho điểm số cao hơn trong một danh sách phức tạp hơn, nhưng nó đã lỗi thời.
Bây giờ đang cạnh tranh về khả năng định nghĩa vấn đề. Nói cách khác, AI cần phải giải quyết vấn đề gì trong cuộc sống thực?
Năm 2025, câu trả lời này là Agent năng suất. Hiện tại, các tình huống ứng dụng AI đang nhanh chóng bước vào thời đại AI Agentic, AI dần có khả năng hoàn thành những nhiệm vụ hoàn chỉnh có độ chuyên môn cao và tốn thời gian. Trong trường hợp này, Động cơ núi lửa cũng đã xây dựng một loạt cơ sở hạ tầng để cho phép doanh nghiệp "định nghĩa Agent tổng quát của riêng mình."
Điều quan trọng nhất là mô hình, có khả năng tự lập kế hoạch, suy ngẫm, quyết định và thực hiện một cách độc lập từ đầu đến cuối, hướng tới các khâu sản xuất cốt lõi. Đồng thời, cũng cần có khả năng suy luận đa mô hình, để nó có thể hoàn thành nhiệm vụ thông qua tai, miệng và mắt trong thế giới thực.
Ngoài mô hình, công nghệ Infra cũng cần phải liên tục tiến hóa. Chẳng hạn, với việc kiến trúc MoE cho thấy ưu điểm hiệu quả hơn, nó đang dần trở thành kiến trúc chính của các mô hình, kéo theo đó, việc lập lịch thích ứng với mô hình MoE cần một kiến trúc và công cụ điện toán đám mây phức tạp và linh hoạt hơn.
Hiện tại, trong bối cảnh Agent dùng chung cho doanh nghiệp, Volcano Engine đã ra mắt kiến trúc và công cụ tốt hơn - giải pháp OS Agent, hỗ trợ các mô hình lớn để điều khiển thế giới số và vật lý, chẳng hạn như để Agent điều khiển trình duyệt, tìm kiếm trang sản phẩm, thực hiện nhiệm vụ so sánh giá iPhone, thậm chí để Agent chỉnh sửa video và nhạc nền trên máy tính từ xa bằng Clipchamp, v.v.
Hiện tại, giải pháp OS Agent của Volcanic Engine bao gồm mô hình đậu UI-TARS, cũng như dịch vụ hàm veFaaS, máy chủ đám mây, điện thoại đám mây và các sản phẩm khác, thực hiện các thao tác trên mã, trình duyệt, máy tính, điện thoại và các Agent khác. Trong đó, mô hình đậu UI-TARS kết hợp hiểu biết thị giác màn hình, suy luận logic, định vị và thao tác các yếu tố giao diện, vượt qua những hạn chế của các công cụ tự động hóa truyền thống phụ thuộc vào các quy tắc đã định sẵn, cung cấp một nền tảng mô hình gần gũi hơn với thao tác của con người cho sự tương tác thông minh của Agent.
Trong bối cảnh Agent kiểu tổng quát, công cụ Vulkan Engine thông qua giải pháp OS Agent này cho phép các doanh nghiệp nội bộ, cá nhân hoặc lĩnh vực cụ thể, định nghĩa và khám phá Agent theo nhu cầu.
Trên các Agent theo chiều dọc, động cơ núi lửa sẽ khám phá dựa trên lĩnh vực ưu thế của mình, chẳng hạn như trước đây đã ra mắt "Trợ lý lập trình thông minh Trae" và sản phẩm dữ liệu "Data Agent", sản phẩm sau thông qua việc xây dựng vòng quay dữ liệu, tối ưu hóa khả năng xử lý dữ liệu.
Mặt khác, với sự thâm nhập của Agent, cũng sẽ mang lại mức tiêu thụ suy diễn mô hình lớn hơn. Đối mặt với nhu cầu suy diễn quy mô lớn, Engine Volcano đã đặc biệt tạo ra bộ công cụ suy diễn AI Cloud Native ServingKit, giúp việc triển khai mô hình nhanh hơn, chi phí suy diễn thấp hơn, và mức tiêu thụ GPU giảm 80% so với các phương pháp truyền thống.
Theo quan điểm của Tan Zhi, để đáp ứng nhu cầu của kỷ nguyên AI, Volcano Engine sẽ tiếp tục nỗ lực trên ba khía cạnh: tiếp tục tối ưu hóa mô hình và duy trì khả năng cạnh tranh; Liên tục giảm chi phí, bao gồm chi phí, chậm trễ và tăng thông lượng; Làm cho các sản phẩm dễ triển khai hơn, chẳng hạn như các nút, công cụ HiAgent dành cho nhà phát triển và các thành phần hoạt động trên đám mây OS Agent. Duy trì vị trí dẫn đầu về sản phẩm và công nghệ, và thị phần cũng sẽ dẫn đầu. Theo "Phân tích cấu trúc thị trường dịch vụ mô hình lớn đám mây công cộng của Trung Quốc, 1Q25" của IDC, Volcano Engine đứng đầu với thị phần 46,4%.
Vào tháng 12 năm ngoái, số lượng gọi tokens trung bình hàng ngày của mô hình lớn Doubao là 40 nghìn tỷ. Đến cuối tháng 3 năm nay, con số này đã vượt quá 12,7 triệu tỷ, so với thời điểm mô hình lớn Doubao vừa được phát hành, chỉ trong chưa đầy một năm, đã đạt được mức tăng trưởng nhanh chóng vượt quá 106 lần. Trong tương lai, với sự trưởng thành hơn nữa của mô hình suy nghĩ sâu sắc và suy luận hình ảnh cũng như việc tối ưu hóa hạ tầng đám mây AI, Agent sẽ thúc đẩy lượng gọi tokens lớn hơn nữa.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Nhấn phím tăng tốc AI Agent của Byte
Tác giả: Wan Chen
DeepSeek-R1 có văn phong tốt, GPT-4o có phong cách vẽ Ghibli, OpenAI o3 có khả năng suy luận vị trí địa lý từ hình ảnh...
Đây là sản phẩm AI hiện tượng đã gây sốt trong hai tháng qua, bạn có thể thấy rõ: học tăng cường cuối cùng cũng có thể tổng quát hóa, và các mô hình đa phương thức ngày càng khả dụng hơn. Điều này cũng có nghĩa là, năm 2025 thực sự đã bước vào thời điểm ứng dụng Agent có thể triển khai và tăng tốc.
Đội ngũ Manus, một AI Agent từng bùng nổ, đã tiết lộ rằng vào cuối năm ngoái, Claude 3.5 Sonnet đã đạt đến mức độ cần thiết cho việc làm Agent trong các nhiệm vụ lập kế hoạch dài hạn và khả năng giải quyết vấn đề từng bước.
Hiện nay, với sự trưởng thành hơn nữa của các mô hình suy nghĩ sâu sắc và các mô hình đa phương thức, chắc chắn sẽ có nhiều Agent hơn có khả năng xử lý các nhiệm vụ phức tạp.
Dựa trên phán đoán này, vào ngày 17 tháng 4, nền tảng dịch vụ đám mây và AI của ByteDance "Hỏa Sơn Dẫn" đã ra mắt một mô hình mạnh mẽ hơn cho thị trường doanh nghiệp - mô hình tư duy sâu Beanbag 1.5, đây cũng là lần đầu tiên mô hình suy luận đứng sau ứng dụng AI Beanbag của ByteDance xuất hiện. Cùng với đó, còn có mô hình văn bản thành hình ảnh Beanbag 3.0 và mô hình hiểu biết thị giác phiên bản nâng cấp.
Đối với mô hình được phát hành lần này, Tổng giám đốc của Volcano Engine, Tân Đãi cho rằng, "Mô hình tư duy sâu là nền tảng để xây dựng Agent, mô hình phải có khả năng tư duy, lập kế hoạch và tự phản ánh tốt, và nhất định phải hỗ trợ đa phương thức, giống như con người có khả năng nhìn và nghe, Agent mới có thể xử lý tốt hơn các nhiệm vụ phức tạp."
Khi AI phát triển khả năng ra quyết định và thực thi tự động từ đầu đến cuối và hướng tới quy trình sản xuất cốt lõi, Volcano Engine cũng đã chuẩn bị kiến trúc và công cụ cho các tác nhân vận hành thế giới kỹ thuật số và vật lý — giải pháp OS Agent và bộ suy luận gốc đám mây AI, để giúp doanh nghiệp xây dựng và triển khai các ứng dụng đại lý nhanh hơn và tiết kiệm chi phí hơn.
Theo quan điểm của Tan Dai, việc phát triển Agent giống như phát triển một trang web hoặc ứng dụng, chỉ có API mô hình không thể hoàn toàn giải quyết vấn đề, cần nhiều thành phần AI cloud-native trên đám mây. Trước đây, cloud-native có các định nghĩa cốt lõi như container, tính linh hoạt, v.v.; hiện nay, AI cloud-native cũng sẽ có những yếu tố quan trọng tương tự. Thông qua việc suy nghĩ, khám phá và hành động nhanh chóng liên quan đến AI cloud-native - chẳng hạn như xây dựng các middleware, đánh giá, giám sát, khả năng quan sát, xử lý dữ liệu, đảm bảo an ninh và các thành phần liên quan như Sandbox xung quanh mô hình, Volcano Engine cam kết trở thành giải pháp tối ưu cho cơ sở hạ tầng trong kỷ nguyên AI.
01 Mô hình suy nghĩ sâu sắc của Đậu Bịch, giống như con người vừa xem vừa nghĩ vừa tìm kiếm
Kể từ khi DeepSeek-R1 được phát hành vào đầu năm, nhiều ứng dụng ToC đã kết nối với mô hình suy luận R1, ngoại trừ ứng dụng Đậu Bao. Vào đầu tháng 3, chế độ "Suy nghĩ sâu" được ra mắt trên ứng dụng Đậu Bao, đằng sau là mô hình suy nghĩ sâu Đậu Bao do ByteDance tự phát triển.
Hiện tại, mô hình suy diễn này - Đậu bao 1.5 · Mô hình tư duy sâu chính thức được phát hành, có thể trải nghiệm và gọi trên nền tảng Volcano Ark.
Nhấn vào chế độ kết nối mạng, Đậu Bao có thể suy nghĩ như con người khi giải quyết vấn đề, nghĩ một chút, tìm kiếm một chút, rồi tiếp tục suy nghĩ... cuối cùng với mục đích là giải quyết vấn đề.
Đây là một ví dụ trong bối cảnh mua sắm, sau khi đưa ra ngân sách, kích thước và các điều kiện hạn chế khác, để Doubao đề xuất một bộ đồ cắm trại phù hợp.
Trong vấn đề này, Doubao trước tiên đã phân tích các lưu ý, lập kế hoạch cho thông tin cần thiết, sau đó xác định thông tin thiếu sót và tiến hành tìm kiếm trên mạng. Tại đây, nó đã tìm kiếm 3 vòng, đầu tiên là tìm kiếm giá cả và hiệu suất, đảm bảo phù hợp với ngân sách và nhu cầu; cũng đã xem xét nhu cầu riêng của trẻ em, cuối cùng xem xét thời tiết, tìm kiếm các đánh giá chi tiết liên quan. Vừa suy nghĩ vừa tìm kiếm, cho đến khi có được tất cả bối cảnh cần thiết để đưa ra quyết định, đã đưa ra câu trả lời suy luận.
Ngoài việc vừa tìm kiếm vừa suy nghĩ, mô hình suy nghĩ sâu của Đậu Bánh còn có khả năng suy luận thị giác, giống như con người, không chỉ có thể suy nghĩ dựa trên văn bản mà còn có thể suy nghĩ dựa trên hình ảnh nhìn thấy.
Chẳng hạn như trong tình huống gọi món, kỳ nghỉ vàng 1/5 sắp đến, những người bạn đi du lịch nước ngoài không cần phải chụp ảnh và tải lên phần mềm dịch để dịch thực đơn nữa, mô hình tư duy sâu của Doubao có thể giúp bạn gọi món trực tiếp dựa trên hình ảnh.
Trong ví dụ dưới đây, mô hình suy nghĩ sâu của Đậu Bảo đã thực hiện việc chuyển đổi tỷ giá để kiểm soát ngân sách, sau đó xem xét sở thích của người già và trẻ em, đồng thời cẩn thận tránh các món ăn mà họ bị dị ứng, và đưa ra kế hoạch thực đơn.
Kết nối, suy nghĩ, suy luận, đa mô hình, Đậu bao 1.5・Mô hình suy nghĩ sâu thể hiện khả năng suy luận tổng hợp, có thể giải quyết những vấn đề phức tạp hơn.
Theo báo cáo kỹ thuật, mô hình Đậu bao 1.5・Suy nghĩ sâu sắc có mức hoàn thành cao trong các nhiệm vụ suy luận trong lĩnh vực chuyên môn, chẳng hạn như điểm số trong bài kiểm tra suy luận toán học AIME 2024 đã đạt được ngang bằng với OpenAI o3-mini-high, thành tích trong các cuộc thi lập trình và bài kiểm tra suy luận khoa học cũng gần đạt o1. Trong các nhiệm vụ chung như viết sáng tạo, câu hỏi kiến thức nhân văn, mô hình cũng thể hiện khả năng tổng quát xuất sắc, có thể đảm nhận nhiều bối cảnh sử dụng rộng rãi hơn.
Mô hình tư duy sâu của Đậu Bao còn có đặc điểm độ trễ thấp, báo cáo kỹ thuật cho thấy mô hình này sử dụng kiến trúc MoE, tổng số tham số là 200B, tham số kích hoạt chỉ 20B, đạt hiệu quả tương đương với các mô hình hàng đầu với số lượng tham số nhỏ hơn. Dựa trên thuật toán hiệu quả và hệ thống suy diễn hiệu suất cao, dịch vụ API của mô hình Đậu Bao đảm bảo khả năng đồng thời cao trong khi độ trễ chỉ còn 20 mili giây.
Đồng thời, nó cũng có khả năng đa phương thức, có thể áp dụng mô hình suy nghĩ sâu vào nhiều tình huống khác nhau, chẳng hạn như nó có thể hiểu các biểu đồ quy trình quản lý dự án doanh nghiệp phức tạp, nhanh chóng xác định thông tin quan trọng, và với khả năng tuân theo chỉ dẫn mạnh mẽ, trả lời các câu hỏi của khách hàng một cách chính xác theo biểu đồ quy trình; khi phân tích hình ảnh từ trên không, nó có thể kết hợp các đặc điểm địa hình để đánh giá tính khả thi của việc phát triển khu vực.
Ngoài mô hình suy diễn, gia đình mô hình lớn Doubao lần này còn mang đến hai bản cập nhật mô hình. Về mô hình văn bản sinh hình, Doubao đã cho ra mắt phiên bản nâng cấp mới nhất 3.0, phiên bản này có khả năng thể hiện bố cục văn bản tốt hơn, hiệu ứng tạo hình ảnh đạt chất lượng thực, cũng như cách tạo ra hình ảnh HD 2K.
Mô hình mới không chỉ giải quyết tốt vấn đề phát sinh văn bản nhỏ và văn bản dài, mà còn cải thiện việc định dạng hình ảnh. Ví dụ, hai poster "Hiện hình" và "Kế hoạch thu hoạch" được tạo ở bên trái, chi tiết được tạo ra khá tinh xảo, định dạng cũng tự nhiên, có thể sử dụng ngay.
Một nâng cấp khác là mô hình hiểu biết thị giác đậu bao 1.5. Phiên bản mới có hai cập nhật quan trọng, định vị thị giác chính xác hơn và khả năng hiểu video thông minh hơn.
Về định vị hình ảnh, mô hình hiểu biết hình ảnh Đậu Bao 1.5 hỗ trợ định vị khung cho nhiều mục tiêu, mục tiêu nhỏ và mục tiêu chung, cũng như định vị điểm, và hỗ trợ đếm định vị, mô tả nội dung định vị, cũng như định vị 3D. Việc cải thiện khả năng định vị hình ảnh có thể cho phép mô hình mở rộng thêm các tình huống ứng dụng, chẳng hạn như cảnh kiểm tra tại cửa hàng offline, tác nhân GUI, đào tạo robot, đào tạo lái xe tự động, v.v.
Trong khả năng hiểu video, mô hình này cũng có sự cải thiện lớn, chẳng hạn như khả năng ghi nhớ, khả năng tóm tắt hiểu biết, khả năng nhận thức tốc độ, khả năng hiểu video dài, v.v. Các doanh nghiệp có thể dựa trên khả năng hiểu video để tạo ra những ứng dụng thương mại thú vị hơn, chẳng hạn như trong bối cảnh gia đình, chúng ta có thể dựa vào khả năng hiểu video, kết hợp với tìm kiếm vector, để thực hiện tìm kiếm ngữ nghĩa trong video giám sát tại nhà.
Ví dụ như trong trường hợp dưới đây, người nuôi mèo muốn tìm hiểu về hoạt động hàng ngày của mèo, giờ đây chỉ cần tìm kiếm "Hôm nay mèo con đã làm gì ở nhà?" là có thể nhanh chóng trả về các đoạn video có liên quan đến ngữ nghĩa để người dùng xem.
Nhờ vào các mô hình suy luận có khả năng hiểu trực quan và khả năng suy luận lớn hơn, nhiều việc trước đây không thể thực hiện giờ có thể được thực hiện, mở khóa nhiều cảnh hơn, chẳng hạn như camera có chức năng này chắc chắn sẽ được ưa chuộng hơn, kính AI, đồ chơi AI, camera thông minh, khóa cửa, v.v. cũng sẽ có không gian phát triển mới.
02 Đám mây, bước vào thời đại AI Agentic
Trong hai ngày qua, nhà nghiên cứu OpenAI Yao Shunyu (Deep Research, tác giả cốt lõi của Operator) đã chỉ ra trong bài viết "Nửa sau của AI" rằng khi học tăng cường cuối cùng cũng tìm ra một con đường có thể khái quát hóa, nó sẽ không chỉ hoạt động trong các lĩnh vực cụ thể, chẳng hạn như AlphaGo, đánh bại người chơi cờ của con người, mà có thể gần với mức độ cạnh tranh của con người trong kỹ thuật phần mềm, viết sáng tạo, toán học cấp IMO, thao tác chuột và bàn phím, v.v. Trong trường hợp này, sẽ dễ dàng hơn để cạnh tranh cho điểm số cao hơn trong một danh sách phức tạp hơn, nhưng nó đã lỗi thời.
Bây giờ đang cạnh tranh về khả năng định nghĩa vấn đề. Nói cách khác, AI cần phải giải quyết vấn đề gì trong cuộc sống thực?
Năm 2025, câu trả lời này là Agent năng suất. Hiện tại, các tình huống ứng dụng AI đang nhanh chóng bước vào thời đại AI Agentic, AI dần có khả năng hoàn thành những nhiệm vụ hoàn chỉnh có độ chuyên môn cao và tốn thời gian. Trong trường hợp này, Động cơ núi lửa cũng đã xây dựng một loạt cơ sở hạ tầng để cho phép doanh nghiệp "định nghĩa Agent tổng quát của riêng mình."
Điều quan trọng nhất là mô hình, có khả năng tự lập kế hoạch, suy ngẫm, quyết định và thực hiện một cách độc lập từ đầu đến cuối, hướng tới các khâu sản xuất cốt lõi. Đồng thời, cũng cần có khả năng suy luận đa mô hình, để nó có thể hoàn thành nhiệm vụ thông qua tai, miệng và mắt trong thế giới thực.
Ngoài mô hình, công nghệ Infra cũng cần phải liên tục tiến hóa. Chẳng hạn, với việc kiến trúc MoE cho thấy ưu điểm hiệu quả hơn, nó đang dần trở thành kiến trúc chính của các mô hình, kéo theo đó, việc lập lịch thích ứng với mô hình MoE cần một kiến trúc và công cụ điện toán đám mây phức tạp và linh hoạt hơn.
Hiện tại, trong bối cảnh Agent dùng chung cho doanh nghiệp, Volcano Engine đã ra mắt kiến trúc và công cụ tốt hơn - giải pháp OS Agent, hỗ trợ các mô hình lớn để điều khiển thế giới số và vật lý, chẳng hạn như để Agent điều khiển trình duyệt, tìm kiếm trang sản phẩm, thực hiện nhiệm vụ so sánh giá iPhone, thậm chí để Agent chỉnh sửa video và nhạc nền trên máy tính từ xa bằng Clipchamp, v.v.
Hiện tại, giải pháp OS Agent của Volcanic Engine bao gồm mô hình đậu UI-TARS, cũng như dịch vụ hàm veFaaS, máy chủ đám mây, điện thoại đám mây và các sản phẩm khác, thực hiện các thao tác trên mã, trình duyệt, máy tính, điện thoại và các Agent khác. Trong đó, mô hình đậu UI-TARS kết hợp hiểu biết thị giác màn hình, suy luận logic, định vị và thao tác các yếu tố giao diện, vượt qua những hạn chế của các công cụ tự động hóa truyền thống phụ thuộc vào các quy tắc đã định sẵn, cung cấp một nền tảng mô hình gần gũi hơn với thao tác của con người cho sự tương tác thông minh của Agent.
Trong bối cảnh Agent kiểu tổng quát, công cụ Vulkan Engine thông qua giải pháp OS Agent này cho phép các doanh nghiệp nội bộ, cá nhân hoặc lĩnh vực cụ thể, định nghĩa và khám phá Agent theo nhu cầu.
Trên các Agent theo chiều dọc, động cơ núi lửa sẽ khám phá dựa trên lĩnh vực ưu thế của mình, chẳng hạn như trước đây đã ra mắt "Trợ lý lập trình thông minh Trae" và sản phẩm dữ liệu "Data Agent", sản phẩm sau thông qua việc xây dựng vòng quay dữ liệu, tối ưu hóa khả năng xử lý dữ liệu.
Mặt khác, với sự thâm nhập của Agent, cũng sẽ mang lại mức tiêu thụ suy diễn mô hình lớn hơn. Đối mặt với nhu cầu suy diễn quy mô lớn, Engine Volcano đã đặc biệt tạo ra bộ công cụ suy diễn AI Cloud Native ServingKit, giúp việc triển khai mô hình nhanh hơn, chi phí suy diễn thấp hơn, và mức tiêu thụ GPU giảm 80% so với các phương pháp truyền thống.
Theo quan điểm của Tan Zhi, để đáp ứng nhu cầu của kỷ nguyên AI, Volcano Engine sẽ tiếp tục nỗ lực trên ba khía cạnh: tiếp tục tối ưu hóa mô hình và duy trì khả năng cạnh tranh; Liên tục giảm chi phí, bao gồm chi phí, chậm trễ và tăng thông lượng; Làm cho các sản phẩm dễ triển khai hơn, chẳng hạn như các nút, công cụ HiAgent dành cho nhà phát triển và các thành phần hoạt động trên đám mây OS Agent. Duy trì vị trí dẫn đầu về sản phẩm và công nghệ, và thị phần cũng sẽ dẫn đầu. Theo "Phân tích cấu trúc thị trường dịch vụ mô hình lớn đám mây công cộng của Trung Quốc, 1Q25" của IDC, Volcano Engine đứng đầu với thị phần 46,4%.
Vào tháng 12 năm ngoái, số lượng gọi tokens trung bình hàng ngày của mô hình lớn Doubao là 40 nghìn tỷ. Đến cuối tháng 3 năm nay, con số này đã vượt quá 12,7 triệu tỷ, so với thời điểm mô hình lớn Doubao vừa được phát hành, chỉ trong chưa đầy một năm, đã đạt được mức tăng trưởng nhanh chóng vượt quá 106 lần. Trong tương lai, với sự trưởng thành hơn nữa của mô hình suy nghĩ sâu sắc và suy luận hình ảnh cũng như việc tối ưu hóa hạ tầng đám mây AI, Agent sẽ thúc đẩy lượng gọi tokens lớn hơn nữa.