Tulisan yang bagus dari DeepSeek-R1, gaya Ghibli GPT-4o, dan lokasi geografis OpenAI o3......
Ini adalah produk AI fenomenal yang telah ramai dibicarakan dalam dua bulan terakhir, Anda dapat dengan jelas melihat: pembelajaran penguatan akhirnya dapat digeneralisasi, model multimodal juga semakin dapat digunakan. Ini juga berarti bahwa tahun 2025 benar-benar merupakan titik waktu untuk aplikasi Agent yang mulai diterapkan dan dipercepat.
Tim Manus, yang sebelumnya sangat populer dengan AI Agent-nya, pernah mengungkapkan bahwa Claude 3.5 Sonnet pada akhir tahun lalu telah mencapai tingkat kemampuan yang diperlukan untuk menjadi Agent dalam tugas perencanaan jangka panjang dan pemecahan masalah secara bertahap, ini adalah prasyarat untuk kelahiran Manus.
Sekarang, dengan kematangan lebih lanjut dari model pemikiran mendalam dan kemampuan model multimodal, pasti akan ada lebih banyak Agen yang dapat menangani tugas-tugas kompleks.
Berdasarkan penilaian ini, pada 17 April, platform layanan cloud dan AI ByteDance "Volcano Engine" merilis model yang lebih kuat untuk pasar perusahaan - Doubao 1.5 Deep Thinking Model, yang juga merupakan penampilan pertama dari model inferensi di balik aplikasi AI ByteDance, Doubao App. Seiring dengan peluncuran Bean Bag Bunsheng Diagram Model 3.0 dan versi upgrade dari Visual Comprehension Model.
Untuk model yang dirilis kali ini, Presiden Volcano Engine Tan Dai berpendapat, "Model pemikiran mendalam adalah dasar untuk membangun Agen, model harus memiliki kemampuan untuk berpikir, merencanakan, dan merenung dengan baik, dan harus mendukung multimodal, seperti manusia yang memiliki penglihatan dan pendengaran, sehingga Agen dapat menangani tugas kompleks dengan lebih baik."
Ketika AI berevolusi menjadi kemampuan pengambilan keputusan dan eksekusi yang otonom dari ujung ke ujung, memasuki tahap produksi inti, Volcanic Engine juga telah menyiapkan arsitektur dan alat untuk memungkinkan Agent beroperasi di dunia digital dan fisik—solusi OS Agent dan paket inferensi AI cloud-native, membantu perusahaan membangun dan menerapkan aplikasi Agent dengan lebih cepat dan lebih hemat.
Menurut Tan Dai, mengembangkan Agent mirip dengan mengembangkan sebuah situs web atau aplikasi, hanya memiliki model API tidak dapat sepenuhnya menyelesaikan masalah, dibutuhkan banyak komponen AI cloud native di cloud. Di masa lalu, cloud native memiliki definisi inti seperti kontainer, elastisitas, dan sebagainya; sekarang, AI cloud native juga akan memiliki elemen kunci yang serupa. Melalui pemikiran, eksplorasi, dan tindakan cepat yang berkelanjutan dalam aspek AI cloud native—seperti membuat berbagai middleware, evaluasi, pemantauan, observabilitas, pengolahan data, jaminan keamanan, serta komponen terkait seperti Sandbox—Volcano Engine berkomitmen untuk menjadi solusi optimal infrastruktur di era AI.
01 Model pemikiran mendalam Doubao, seperti manusia yang melihat, berpikir, dan mencari.
Sejak peluncuran DeepSeek-R1 di awal tahun, banyak aplikasi ToC yang telah mengintegrasikan model inferensi R1, kecuali aplikasi Doubao. Pada awal Maret, mode "Pemikiran Mendalam" diluncurkan di aplikasi Doubao, yang didukung oleh model pemikiran mendalam Doubao yang dikembangkan secara mandiri oleh ByteDance.
Sekarang, model inferensi ini - Doubao 1.5 · Model Pemikiran Mendalam secara resmi diluncurkan, dan dapat diakses serta digunakan di platform Vulkan Ark.
Klik mode jaringan, Doubao dapat berpikir seperti manusia ketika memecahkan masalah, berpikir sejenak, mencari, lalu berpikir lagi... sampai akhirnya bertujuan untuk menyelesaikan masalah.
Ini adalah contoh dalam skenario berbelanja, setelah mempertimbangkan anggaran, ukuran, dan batasan lainnya, biarkan Doubao merekomendasikan satu set peralatan berkemah yang sesuai.
Dalam masalah ini, Doubao pertama-tama membongkar hal-hal yang perlu diperhatikan, merencanakan informasi yang dibutuhkan, kemudian menentukan informasi yang hilang dan melakukan pencarian online. Di sini ia melakukan pencarian sebanyak 3 kali, pertama mencari harga dan kinerja, memastikan sesuai dengan anggaran dan kebutuhan; ia juga mempertimbangkan kebutuhan anak-anak secara terpisah, dan akhirnya mempertimbangkan cuaca, mencari ulasan rinci terkait. Sambil berpikir dan mencari, hingga mendapatkan semua konteks yang diperlukan untuk mengambil keputusan, ia memberikan jawaban yang logis.
Selain mencari dan berpikir, model pemikiran mendalam Doubao juga memiliki kemampuan penalaran visual, seperti manusia, tidak hanya dapat berpikir berdasarkan teks, tetapi juga dapat berpikir berdasarkan gambar yang terlihat.
Misalnya, dalam situasi memesan makanan, liburan emas May Day segera tiba, teman-teman yang berlibur ke luar negeri tidak perlu lagi memotret dan mengunggah untuk menerjemahkan menu menggunakan perangkat lunak penerjemah, model pemikiran mendalam Doubao dapat langsung membantu Anda memesan makanan berdasarkan gambar.
Dalam contoh di bawah ini, model pemikiran mendalam Doubao pertama-tama melakukan konversi nilai tukar untuk mengontrol anggaran, kemudian mempertimbangkan preferensi orang tua dan anak-anak, sambil dengan cermat menghindari hidangan yang mereka alergi, dan langsung memberikan rencana menu.
Koneksi, pemikiran, penalaran, multimodal, Doubao 1.5・model pemikiran mendalam menunjukkan kemampuan penalaran yang komprehensif, dapat menyelesaikan masalah yang lebih kompleks.
Menurut laporan teknis, model Doubao 1.5・Deep Thinking memiliki tingkat penyelesaian yang tinggi dalam tugas penalaran di bidang profesional, seperti dalam tes penalaran matematika AIME 2024 yang mencetak skor setara dengan OpenAI o3-mini-high, dan hasil tes kompetisi pemrograman serta penalaran ilmiah juga mendekati o1. Dalam tugas umum seperti penulisan kreatif dan pertanyaan pengetahuan humaniora, model ini juga menunjukkan kemampuan generalisasi yang luar biasa, mampu menangani berbagai skenario penggunaan yang lebih luas.
Model pemikiran mendalam Doubao juga memiliki karakteristik latensi rendah, laporan teknisnya menunjukkan bahwa model ini menggunakan arsitektur MoE, dengan total parameter sebesar 200B, dan parameter aktif hanya 20B, mencapai hasil yang sebanding dengan model-model terbaik dengan parameter yang lebih kecil. Berdasarkan algoritma yang efisien dan sistem inferensi berkinerja tinggi, layanan API model Doubao menjamin tinggi konversi sambil menjaga latensi serendah 20 milidetik.
Sementara itu, ia juga memiliki kemampuan multimodal, dapat menggunakan model pemikiran mendalam untuk berbagai macam skenario, misalnya ia dapat memahami diagram alur manajemen proyek perusahaan yang kompleks, dengan cepat menemukan informasi kunci, dan dengan kemampuan mengikuti instruksi yang kuat, menjawab pertanyaan pelanggan sesuai dengan diagram alur; saat menganalisis gambar udara, dapat menggabungkan karakteristik geomorfologi untuk menilai kelayakan pengembangan wilayah.
Selain model inferensi, keluarga model Daobao kali ini juga membawa pembaruan untuk dua model. Dalam hal model teks-ke-gambar, Daobao meluncurkan versi upgrade 3.0 terbaru, yang dapat memberikan kinerja tata letak teks yang lebih baik, efek generasi gambar setara dengan foto, serta cara generasi gambar HD 2K.
Model baru tidak hanya menyelesaikan masalah generasi teks kecil dan teks panjang dengan baik, tetapi juga memperbaiki tata letak gambar. Misalnya, dua poster "现形" dan "丰收计划" yang dihasilkan di sebelah kiri, detailnya dihasilkan dengan cukup halus, dan tata letaknya juga cukup alami, bisa langsung digunakan.
Pembaruan lainnya adalah model pemahaman visual Doubao 1.5. Versi baru ini memiliki dua pembaruan kunci, lokasi visual yang lebih akurat, dan pemahaman yang lebih cerdas terhadap video.
Dalam hal penentuan posisi visual, model pemahaman visual Doubao 1.5 mendukung pelacakan kotak untuk banyak target, target kecil, dan target umum serta pelacakan titik, dan mendukung penghitungan posisi, mendeskripsikan konten posisi, serta penentuan posisi 3D. Peningkatan kemampuan penentuan posisi visual dapat memungkinkan model memperluas skenario aplikasi lebih lanjut, seperti skenario inspeksi toko fisik, agen GUI, pelatihan robot, pelatihan mengemudi otomatis, dan lainnya.
Dalam kemampuan pemahaman video, model ini juga mengalami peningkatan yang signifikan, seperti kemampuan mengingat, kemampuan memahami ringkasan, kemampuan persepsi kecepatan, dan pemahaman video panjang. Perusahaan dapat membangun aplikasi komersial yang lebih menarik berdasarkan pemahaman video, misalnya dalam konteks rumah, kita dapat melakukan pencarian semantik pada video pengawasan di rumah dengan memanfaatkan kemampuan pemahaman video dan pencarian vektor.
Misalnya dalam contoh di bawah ini, pemilik kucing ingin mengetahui aktivitas harian kucing mereka, sekarang dengan langsung mencari "Apa yang dilakukan kucing hari ini di rumah?" bisa dengan cepat mengembalikan cuplikan video yang relevan dengan makna, untuk dilihat oleh pengguna.
Dengan bantuan model pemahaman visual dan cadangan kemampuan penalaran yang lebih besar, banyak hal yang sebelumnya tidak dapat dilakukan sekarang dapat terwujud, membuka lebih banyak skenario, seperti kamera dengan fungsi ini pasti akan lebih populer, dan kacamata AI, mainan AI, kamera pintar, kunci pintu, dll. juga akan memiliki ruang pengembangan baru.
02 Awan, memasuki era AI Agentic
Dalam beberapa hari terakhir, peneliti OpenAI Yao Shunyu (penulis inti Deep Research, Operator) dalam artikel "Paruh Kedua AI" menunjukkan bahwa dengan pembelajaran penguatan akhirnya menemukan jalur yang dapat digeneralisasi, tidak hanya efektif di bidang tertentu, seperti mengalahkan pemain catur manusia AlphaGo, tetapi juga dapat mencapai tingkat kompetisi manusia dalam rekayasa perangkat lunak, penulisan kreatif, matematika tingkat IMO, operasi mouse dan keyboard, dan sebagainya. Dalam situasi ini, bersaing untuk skor daftar, mendapatkan skor lebih tinggi di daftar yang lebih kompleks akan lebih mudah, tetapi cara penilaian ini sudah ketinggalan zaman.
Sekarang yang dipertandingkan adalah kemampuan untuk mendefinisikan masalah. Dengan kata lain, masalah apa yang harus diselesaikan AI dalam kehidupan nyata?
Pada tahun 2025, jawaban ini adalah Agensi Produktivitas. Saat ini, aplikasi AI sedang dengan cepat memasuki era AI Agensial, di mana AI secara bertahap dapat menyelesaikan tugas lengkap yang memiliki tingkat profesionalisme tinggi dan memakan waktu lama. Dalam situasi ini, Vulkan Engine juga membangun serangkaian infrastruktur untuk memungkinkan perusahaan "mendefinisikan Agensi Umum mereka sendiri."
Yang paling penting adalah model yang mampu merencanakan secara mandiri, merenungkan, serta memutuskan dan melaksanakan secara mandiri dari awal hingga akhir, menuju inti dari proses produksi. Selain itu, juga diperlukan kemampuan penalaran multimodal, sehingga dapat menyelesaikan tugas di dunia nyata dengan menggunakan telinga, mulut, dan mata secara bersama-sama.
Di luar model, tumpukan teknologi Infra juga perlu terus berevolusi. Misalnya, seiring dengan arsitektur MoE menunjukkan keunggulan yang lebih efisien, ia secara bertahap menjadi arsitektur utama model, dan dengan itu, penjadwalan yang disesuaikan untuk model MoE memerlukan arsitektur dan alat komputasi awan yang lebih kompleks dan fleksibel.
Sekarang dalam skenario Agent yang umum untuk perusahaan, Volcano Engine telah meluncurkan arsitektur dan alat yang lebih baik — solusi OS Agent, yang mendukung model besar untuk mengoperasikan dunia digital dan fisik, seperti Agent yang mengoperasikan browser, mencari halaman produk, melakukan tugas perbandingan harga iPhone, bahkan oleh Agent yang melakukan pengeditan video dan penambahan musik di komputer jarak jauh menggunakan Jianying.
Saat ini, solusi OS Agent dari Volcano Engine mencakup model Doubao UI-TARS, serta layanan fungsi veFaaS, server cloud, ponsel cloud, dan produk lainnya, untuk melakukan operasi pada kode, browser, komputer, ponsel, dan Agent lainnya. Di antara produk tersebut, model Doubao UI-TARS mengintegrasikan pemahaman visual layar, penalaran logis, penentuan elemen antarmuka, dan operasi, melampaui batasan alat otomatisasi tradisional yang bergantung pada aturan yang telah ditentukan, dan menyediakan dasar model yang lebih mendekati operasi manusia untuk interaksi cerdas dengan Agent.
Dalam skenario Agent umum, Vulcan Engine memungkinkan perusahaan, individu, atau bidang tertentu untuk mendefinisikan dan mengeksplorasi Agent sesuai kebutuhan melalui solusi OS Agent ini.
Pada kategori Agent vertikal, Volcano Engine akan melakukan eksplorasi berdasarkan keunggulan bidangnya sendiri, seperti sebelumnya meluncurkan "Asisten Pemrograman Cerdas Trae" dan produk data "Data Agent", yang terakhir ini memaksimalkan kemampuan pengolahan data dengan membangun roda data.
Di sisi lain, dengan penetrasi Agent, juga akan membawa konsumsi inferensi model yang lebih besar. Menghadapi permintaan inferensi skala besar, Volcano Engine secara khusus menciptakan paket inferensi AI Cloud Native ServingKit, yang membuat penyebaran model lebih cepat, biaya inferensi lebih rendah, dan konsumsi GPU dibandingkan dengan solusi tradisional berkurang 80%.
Menurut Tan Dai, untuk memenuhi kebutuhan era AI, Volcano Engine akan terus berfokus pada tiga aspek: terus mengoptimalkan model untuk menjaga daya saing; terus menurunkan biaya, termasuk biaya, latensi, dan meningkatkan throughput; membuat produk lebih mudah diimplementasikan, seperti alat yang ditujukan untuk pengembang seperti Kouzi, HiAgent, serta komponen cloud-native OS Agent, dll. Dengan mempertahankan keunggulan produk dan teknologi, pangsa pasar juga akan unggul. Sebelumnya, IDC merilis "Analisis Pola Pasar Layanan Model Besar Cloud Publik di Tiongkok, 1Q25" yang menunjukkan bahwa Volcano Engine menduduki peringkat pertama dengan pangsa pasar sebesar 46,4%.
Pada bulan Desember tahun lalu, jumlah pemanggilan token harian dari model besar Doubao adalah 40 triliun. Hingga akhir Maret tahun ini, angka ini telah melebihi 12,7 triliun, dibandingkan dengan saat model besar Doubao baru diluncurkan, dalam waktu kurang dari satu tahun, pertumbuhannya telah mencapai lebih dari 106 kali lipat. Di masa depan, seiring dengan kematangan lebih lanjut dari model pemikiran mendalam, penalaran visual, dan optimasi infrastruktur cloud AI, Agent juga akan mendorong jumlah pemanggilan token yang lebih besar.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Tekan tombol percepat AI Agent
Penulis: Wan Chen
Tulisan yang bagus dari DeepSeek-R1, gaya Ghibli GPT-4o, dan lokasi geografis OpenAI o3......
Ini adalah produk AI fenomenal yang telah ramai dibicarakan dalam dua bulan terakhir, Anda dapat dengan jelas melihat: pembelajaran penguatan akhirnya dapat digeneralisasi, model multimodal juga semakin dapat digunakan. Ini juga berarti bahwa tahun 2025 benar-benar merupakan titik waktu untuk aplikasi Agent yang mulai diterapkan dan dipercepat.
Tim Manus, yang sebelumnya sangat populer dengan AI Agent-nya, pernah mengungkapkan bahwa Claude 3.5 Sonnet pada akhir tahun lalu telah mencapai tingkat kemampuan yang diperlukan untuk menjadi Agent dalam tugas perencanaan jangka panjang dan pemecahan masalah secara bertahap, ini adalah prasyarat untuk kelahiran Manus.
Sekarang, dengan kematangan lebih lanjut dari model pemikiran mendalam dan kemampuan model multimodal, pasti akan ada lebih banyak Agen yang dapat menangani tugas-tugas kompleks.
Berdasarkan penilaian ini, pada 17 April, platform layanan cloud dan AI ByteDance "Volcano Engine" merilis model yang lebih kuat untuk pasar perusahaan - Doubao 1.5 Deep Thinking Model, yang juga merupakan penampilan pertama dari model inferensi di balik aplikasi AI ByteDance, Doubao App. Seiring dengan peluncuran Bean Bag Bunsheng Diagram Model 3.0 dan versi upgrade dari Visual Comprehension Model.
Untuk model yang dirilis kali ini, Presiden Volcano Engine Tan Dai berpendapat, "Model pemikiran mendalam adalah dasar untuk membangun Agen, model harus memiliki kemampuan untuk berpikir, merencanakan, dan merenung dengan baik, dan harus mendukung multimodal, seperti manusia yang memiliki penglihatan dan pendengaran, sehingga Agen dapat menangani tugas kompleks dengan lebih baik."
Ketika AI berevolusi menjadi kemampuan pengambilan keputusan dan eksekusi yang otonom dari ujung ke ujung, memasuki tahap produksi inti, Volcanic Engine juga telah menyiapkan arsitektur dan alat untuk memungkinkan Agent beroperasi di dunia digital dan fisik—solusi OS Agent dan paket inferensi AI cloud-native, membantu perusahaan membangun dan menerapkan aplikasi Agent dengan lebih cepat dan lebih hemat.
Menurut Tan Dai, mengembangkan Agent mirip dengan mengembangkan sebuah situs web atau aplikasi, hanya memiliki model API tidak dapat sepenuhnya menyelesaikan masalah, dibutuhkan banyak komponen AI cloud native di cloud. Di masa lalu, cloud native memiliki definisi inti seperti kontainer, elastisitas, dan sebagainya; sekarang, AI cloud native juga akan memiliki elemen kunci yang serupa. Melalui pemikiran, eksplorasi, dan tindakan cepat yang berkelanjutan dalam aspek AI cloud native—seperti membuat berbagai middleware, evaluasi, pemantauan, observabilitas, pengolahan data, jaminan keamanan, serta komponen terkait seperti Sandbox—Volcano Engine berkomitmen untuk menjadi solusi optimal infrastruktur di era AI.
01 Model pemikiran mendalam Doubao, seperti manusia yang melihat, berpikir, dan mencari.
Sejak peluncuran DeepSeek-R1 di awal tahun, banyak aplikasi ToC yang telah mengintegrasikan model inferensi R1, kecuali aplikasi Doubao. Pada awal Maret, mode "Pemikiran Mendalam" diluncurkan di aplikasi Doubao, yang didukung oleh model pemikiran mendalam Doubao yang dikembangkan secara mandiri oleh ByteDance.
Sekarang, model inferensi ini - Doubao 1.5 · Model Pemikiran Mendalam secara resmi diluncurkan, dan dapat diakses serta digunakan di platform Vulkan Ark.
Klik mode jaringan, Doubao dapat berpikir seperti manusia ketika memecahkan masalah, berpikir sejenak, mencari, lalu berpikir lagi... sampai akhirnya bertujuan untuk menyelesaikan masalah.
Ini adalah contoh dalam skenario berbelanja, setelah mempertimbangkan anggaran, ukuran, dan batasan lainnya, biarkan Doubao merekomendasikan satu set peralatan berkemah yang sesuai.
Dalam masalah ini, Doubao pertama-tama membongkar hal-hal yang perlu diperhatikan, merencanakan informasi yang dibutuhkan, kemudian menentukan informasi yang hilang dan melakukan pencarian online. Di sini ia melakukan pencarian sebanyak 3 kali, pertama mencari harga dan kinerja, memastikan sesuai dengan anggaran dan kebutuhan; ia juga mempertimbangkan kebutuhan anak-anak secara terpisah, dan akhirnya mempertimbangkan cuaca, mencari ulasan rinci terkait. Sambil berpikir dan mencari, hingga mendapatkan semua konteks yang diperlukan untuk mengambil keputusan, ia memberikan jawaban yang logis.
Selain mencari dan berpikir, model pemikiran mendalam Doubao juga memiliki kemampuan penalaran visual, seperti manusia, tidak hanya dapat berpikir berdasarkan teks, tetapi juga dapat berpikir berdasarkan gambar yang terlihat.
Misalnya, dalam situasi memesan makanan, liburan emas May Day segera tiba, teman-teman yang berlibur ke luar negeri tidak perlu lagi memotret dan mengunggah untuk menerjemahkan menu menggunakan perangkat lunak penerjemah, model pemikiran mendalam Doubao dapat langsung membantu Anda memesan makanan berdasarkan gambar.
Dalam contoh di bawah ini, model pemikiran mendalam Doubao pertama-tama melakukan konversi nilai tukar untuk mengontrol anggaran, kemudian mempertimbangkan preferensi orang tua dan anak-anak, sambil dengan cermat menghindari hidangan yang mereka alergi, dan langsung memberikan rencana menu.
Koneksi, pemikiran, penalaran, multimodal, Doubao 1.5・model pemikiran mendalam menunjukkan kemampuan penalaran yang komprehensif, dapat menyelesaikan masalah yang lebih kompleks.
Menurut laporan teknis, model Doubao 1.5・Deep Thinking memiliki tingkat penyelesaian yang tinggi dalam tugas penalaran di bidang profesional, seperti dalam tes penalaran matematika AIME 2024 yang mencetak skor setara dengan OpenAI o3-mini-high, dan hasil tes kompetisi pemrograman serta penalaran ilmiah juga mendekati o1. Dalam tugas umum seperti penulisan kreatif dan pertanyaan pengetahuan humaniora, model ini juga menunjukkan kemampuan generalisasi yang luar biasa, mampu menangani berbagai skenario penggunaan yang lebih luas.
Model pemikiran mendalam Doubao juga memiliki karakteristik latensi rendah, laporan teknisnya menunjukkan bahwa model ini menggunakan arsitektur MoE, dengan total parameter sebesar 200B, dan parameter aktif hanya 20B, mencapai hasil yang sebanding dengan model-model terbaik dengan parameter yang lebih kecil. Berdasarkan algoritma yang efisien dan sistem inferensi berkinerja tinggi, layanan API model Doubao menjamin tinggi konversi sambil menjaga latensi serendah 20 milidetik.
Sementara itu, ia juga memiliki kemampuan multimodal, dapat menggunakan model pemikiran mendalam untuk berbagai macam skenario, misalnya ia dapat memahami diagram alur manajemen proyek perusahaan yang kompleks, dengan cepat menemukan informasi kunci, dan dengan kemampuan mengikuti instruksi yang kuat, menjawab pertanyaan pelanggan sesuai dengan diagram alur; saat menganalisis gambar udara, dapat menggabungkan karakteristik geomorfologi untuk menilai kelayakan pengembangan wilayah.
Selain model inferensi, keluarga model Daobao kali ini juga membawa pembaruan untuk dua model. Dalam hal model teks-ke-gambar, Daobao meluncurkan versi upgrade 3.0 terbaru, yang dapat memberikan kinerja tata letak teks yang lebih baik, efek generasi gambar setara dengan foto, serta cara generasi gambar HD 2K.
Model baru tidak hanya menyelesaikan masalah generasi teks kecil dan teks panjang dengan baik, tetapi juga memperbaiki tata letak gambar. Misalnya, dua poster "现形" dan "丰收计划" yang dihasilkan di sebelah kiri, detailnya dihasilkan dengan cukup halus, dan tata letaknya juga cukup alami, bisa langsung digunakan.
Pembaruan lainnya adalah model pemahaman visual Doubao 1.5. Versi baru ini memiliki dua pembaruan kunci, lokasi visual yang lebih akurat, dan pemahaman yang lebih cerdas terhadap video.
Dalam hal penentuan posisi visual, model pemahaman visual Doubao 1.5 mendukung pelacakan kotak untuk banyak target, target kecil, dan target umum serta pelacakan titik, dan mendukung penghitungan posisi, mendeskripsikan konten posisi, serta penentuan posisi 3D. Peningkatan kemampuan penentuan posisi visual dapat memungkinkan model memperluas skenario aplikasi lebih lanjut, seperti skenario inspeksi toko fisik, agen GUI, pelatihan robot, pelatihan mengemudi otomatis, dan lainnya.
Dalam kemampuan pemahaman video, model ini juga mengalami peningkatan yang signifikan, seperti kemampuan mengingat, kemampuan memahami ringkasan, kemampuan persepsi kecepatan, dan pemahaman video panjang. Perusahaan dapat membangun aplikasi komersial yang lebih menarik berdasarkan pemahaman video, misalnya dalam konteks rumah, kita dapat melakukan pencarian semantik pada video pengawasan di rumah dengan memanfaatkan kemampuan pemahaman video dan pencarian vektor.
Misalnya dalam contoh di bawah ini, pemilik kucing ingin mengetahui aktivitas harian kucing mereka, sekarang dengan langsung mencari "Apa yang dilakukan kucing hari ini di rumah?" bisa dengan cepat mengembalikan cuplikan video yang relevan dengan makna, untuk dilihat oleh pengguna.
Dengan bantuan model pemahaman visual dan cadangan kemampuan penalaran yang lebih besar, banyak hal yang sebelumnya tidak dapat dilakukan sekarang dapat terwujud, membuka lebih banyak skenario, seperti kamera dengan fungsi ini pasti akan lebih populer, dan kacamata AI, mainan AI, kamera pintar, kunci pintu, dll. juga akan memiliki ruang pengembangan baru.
02 Awan, memasuki era AI Agentic
Dalam beberapa hari terakhir, peneliti OpenAI Yao Shunyu (penulis inti Deep Research, Operator) dalam artikel "Paruh Kedua AI" menunjukkan bahwa dengan pembelajaran penguatan akhirnya menemukan jalur yang dapat digeneralisasi, tidak hanya efektif di bidang tertentu, seperti mengalahkan pemain catur manusia AlphaGo, tetapi juga dapat mencapai tingkat kompetisi manusia dalam rekayasa perangkat lunak, penulisan kreatif, matematika tingkat IMO, operasi mouse dan keyboard, dan sebagainya. Dalam situasi ini, bersaing untuk skor daftar, mendapatkan skor lebih tinggi di daftar yang lebih kompleks akan lebih mudah, tetapi cara penilaian ini sudah ketinggalan zaman.
Sekarang yang dipertandingkan adalah kemampuan untuk mendefinisikan masalah. Dengan kata lain, masalah apa yang harus diselesaikan AI dalam kehidupan nyata?
Pada tahun 2025, jawaban ini adalah Agensi Produktivitas. Saat ini, aplikasi AI sedang dengan cepat memasuki era AI Agensial, di mana AI secara bertahap dapat menyelesaikan tugas lengkap yang memiliki tingkat profesionalisme tinggi dan memakan waktu lama. Dalam situasi ini, Vulkan Engine juga membangun serangkaian infrastruktur untuk memungkinkan perusahaan "mendefinisikan Agensi Umum mereka sendiri."
Yang paling penting adalah model yang mampu merencanakan secara mandiri, merenungkan, serta memutuskan dan melaksanakan secara mandiri dari awal hingga akhir, menuju inti dari proses produksi. Selain itu, juga diperlukan kemampuan penalaran multimodal, sehingga dapat menyelesaikan tugas di dunia nyata dengan menggunakan telinga, mulut, dan mata secara bersama-sama.
Di luar model, tumpukan teknologi Infra juga perlu terus berevolusi. Misalnya, seiring dengan arsitektur MoE menunjukkan keunggulan yang lebih efisien, ia secara bertahap menjadi arsitektur utama model, dan dengan itu, penjadwalan yang disesuaikan untuk model MoE memerlukan arsitektur dan alat komputasi awan yang lebih kompleks dan fleksibel.
Sekarang dalam skenario Agent yang umum untuk perusahaan, Volcano Engine telah meluncurkan arsitektur dan alat yang lebih baik — solusi OS Agent, yang mendukung model besar untuk mengoperasikan dunia digital dan fisik, seperti Agent yang mengoperasikan browser, mencari halaman produk, melakukan tugas perbandingan harga iPhone, bahkan oleh Agent yang melakukan pengeditan video dan penambahan musik di komputer jarak jauh menggunakan Jianying.
Saat ini, solusi OS Agent dari Volcano Engine mencakup model Doubao UI-TARS, serta layanan fungsi veFaaS, server cloud, ponsel cloud, dan produk lainnya, untuk melakukan operasi pada kode, browser, komputer, ponsel, dan Agent lainnya. Di antara produk tersebut, model Doubao UI-TARS mengintegrasikan pemahaman visual layar, penalaran logis, penentuan elemen antarmuka, dan operasi, melampaui batasan alat otomatisasi tradisional yang bergantung pada aturan yang telah ditentukan, dan menyediakan dasar model yang lebih mendekati operasi manusia untuk interaksi cerdas dengan Agent.
Dalam skenario Agent umum, Vulcan Engine memungkinkan perusahaan, individu, atau bidang tertentu untuk mendefinisikan dan mengeksplorasi Agent sesuai kebutuhan melalui solusi OS Agent ini.
Pada kategori Agent vertikal, Volcano Engine akan melakukan eksplorasi berdasarkan keunggulan bidangnya sendiri, seperti sebelumnya meluncurkan "Asisten Pemrograman Cerdas Trae" dan produk data "Data Agent", yang terakhir ini memaksimalkan kemampuan pengolahan data dengan membangun roda data.
Di sisi lain, dengan penetrasi Agent, juga akan membawa konsumsi inferensi model yang lebih besar. Menghadapi permintaan inferensi skala besar, Volcano Engine secara khusus menciptakan paket inferensi AI Cloud Native ServingKit, yang membuat penyebaran model lebih cepat, biaya inferensi lebih rendah, dan konsumsi GPU dibandingkan dengan solusi tradisional berkurang 80%.
Menurut Tan Dai, untuk memenuhi kebutuhan era AI, Volcano Engine akan terus berfokus pada tiga aspek: terus mengoptimalkan model untuk menjaga daya saing; terus menurunkan biaya, termasuk biaya, latensi, dan meningkatkan throughput; membuat produk lebih mudah diimplementasikan, seperti alat yang ditujukan untuk pengembang seperti Kouzi, HiAgent, serta komponen cloud-native OS Agent, dll. Dengan mempertahankan keunggulan produk dan teknologi, pangsa pasar juga akan unggul. Sebelumnya, IDC merilis "Analisis Pola Pasar Layanan Model Besar Cloud Publik di Tiongkok, 1Q25" yang menunjukkan bahwa Volcano Engine menduduki peringkat pertama dengan pangsa pasar sebesar 46,4%.
Pada bulan Desember tahun lalu, jumlah pemanggilan token harian dari model besar Doubao adalah 40 triliun. Hingga akhir Maret tahun ini, angka ini telah melebihi 12,7 triliun, dibandingkan dengan saat model besar Doubao baru diluncurkan, dalam waktu kurang dari satu tahun, pertumbuhannya telah mencapai lebih dari 106 kali lipat. Di masa depan, seiring dengan kematangan lebih lanjut dari model pemikiran mendalam, penalaran visual, dan optimasi infrastruktur cloud AI, Agent juga akan mendorong jumlah pemanggilan token yang lebih besar.