สำหรับโมเดลที่เปิดตัวในครั้งนี้ ประธานของ Volcano Engine คุณ Tan Dai เชื่อว่า "โมเดลการคิดเชิงลึกเป็นพื้นฐานของการสร้าง Agent โมเดลต้องมีความสามารถในการคิด วางแผน และสะท้อนผล และต้องรองรับหลายรูปแบบเหมือนกับที่มนุษย์มีการมองเห็นและการได้ยิน เพื่อให้ Agent สามารถจัดการกับงานที่ซับซ้อนได้ดีขึ้น."
เมื่อ AI พัฒนาความสามารถในการตัดสินใจและดําเนินการอัตโนมัติแบบ end-to-end และก้าวไปสู่กระบวนการผลิตหลัก Volcano Engine ยังได้เตรียมสถาปัตยกรรมและเครื่องมือสําหรับตัวแทนเพื่อใช้งานโลกดิจิทัลและโลกทางกายภาพ — โซลูชัน OS Agent และชุดการอนุมานแบบคลาวด์เนทีฟ AI เพื่อช่วยให้องค์กรสร้างและปรับใช้แอปพลิเคชันตัวแทนได้เร็วขึ้นและคุ้มค่ายิ่งขึ้น
ในมุมมองของ Tan Cheng การพัฒนาตัวแทนก็เหมือนกับการพัฒนาเว็บไซต์หรือแอพมีเพียง API โมเดลเท่านั้นที่ไม่สามารถแก้ปัญหาได้อย่างสมบูรณ์และจําเป็นต้องมีส่วนประกอบ AI cloud-native จํานวนมากบนคลาวด์ ในอดีตคลาวด์เนทีฟมีคําจํากัดความหลักเช่นคอนเทนเนอร์ความยืดหยุ่น ฯลฯ ตอนนี้ AI cloud-native จะมีองค์ประกอบหลักที่คล้ายกัน Volcano Engine มุ่งมั่นที่จะเป็นโซลูชันที่ดีที่สุดสําหรับโครงสร้างพื้นฐานในยุค AI ผ่านการคิดการสํารวจและการดําเนินการอย่างรวดเร็วอย่างต่อเนื่องบน AI cloud native เช่นมิดเดิลแวร์ต่างๆรอบโมเดลการประเมินการตรวจสอบความสามารถในการสังเกตการประมวลผลข้อมูลการประกันความปลอดภัยและส่วนประกอบที่เกี่ยวข้องเช่นแซนด์บ็อกซ์
ด้วยโมเดลการอนุมานที่มีการเข้าใจเชิงภาพและความสามารถในการอนุมานที่สูงขึ้น สิ่งที่เคยทำไม่ได้มากมายในอดีตตอนนี้สามารถทำได้ สามารถปลดล็อกสถานการณ์ใหม่ ๆ ได้มากมาย เช่น กล้องที่มีฟังก์ชันนี้จะต้องได้รับความนิยมมากขึ้น แว่นตา AI ของเล่น AI กล้องอัจฉริยะ ประตูล็อค และอื่น ๆ จะมีพื้นที่พัฒนาสใหม่.
02 เมฆ, สู่ยุค Agentic AI
ในช่วงสองวันที่ผ่านมานักวิจัย OpenAI Yao Shunyu (Deep Research ผู้เขียนหลักของ Operator) ชี้ให้เห็นในบทความ "The Second Half of AI" ว่าในที่สุดการเรียนรู้แบบเสริมกําลังก็พบเส้นทางที่สามารถสรุปได้มันจะไม่เพียง แต่ทํางานในสาขาเฉพาะเช่น AlphaGo ซึ่งเอาชนะผู้เล่นหมากรุกมนุษย์ แต่สามารถใกล้เคียงกับระดับการแข่งขันของมนุษย์ในด้านวิศวกรรมซอฟต์แวร์การเขียนเชิงสร้างสรรค์คณิตศาสตร์ระดับ IMO การทํางานของเมาส์และคีย์บอร์ดเป็นต้น ในกรณีนี้มันง่ายกว่าที่จะแข่งขันเพื่อคะแนนที่สูงขึ้นในรายการที่ซับซ้อนมากขึ้น แต่มันล้าสมัย
ตอนนี้สิ่งที่แข่งขันกันคือความสามารถในการกำหนดปัญหา กล่าวอีกนัยหนึ่ง AI ต้องแก้ไขปัญหาใดในชีวิตจริง?
ในปี 2025 คำตอบคือ Agent ของการผลิต ปัจจุบัน การใช้งาน AI กำลังเข้าสู่ยุค Agentic AI อย่างรวดเร็ว AI ค่อยๆ สามารถทำงานที่มีความเชี่ยวชาญสูงและใช้เวลานานขึ้นได้อย่างครบถ้วน ในกรณีนี้ Vulkan Engine ยังได้สร้างโครงสร้างพื้นฐานชุดหนึ่งเพื่อให้บริษัท "กำหนด Agent ทั่วไปของตนเอง".
กดปุ่มเร่งความเร็ว AI Agent ของ Byte
ผู้เขียน:หว่านเฉิน
DeepSeek-R1 การเขียนที่ดี, GPT-4o สไตล์การวาดภาพจิบลิ, OpenAI o3 การอนุมานตำแหน่งทางภูมิศาสตร์จากภาพ...
นี่คือผลิตภัณฑ์ AI ที่มีปรากฏการณ์ที่เกิดขึ้นอย่างต่อเนื่องในช่วงสองเดือนที่ผ่านมา คุณสามารถเห็นได้ชัดเจนว่า: การเรียนรู้แบบเสริมสร้างในที่สุดก็สามารถทั่วไปได้ โมเดลหลายโหมดก็เริ่มใช้งานได้มากขึ้น นี่หมายความว่า ในปี 2025 จะเข้าสู่จุดเวลาในการใช้งาน Agent และการเร่งการนำไปใช้จริงอย่างแท้จริง.
ทีม Manus ที่เคยโด่งดังจาก AI Agent ได้เปิดเผยว่า เมื่อปลายปีที่แล้ว Claude 3.5 Sonnet มีความสามารถในการวางแผนระยะยาวและการแก้ปัญหาอย่างเป็นขั้นตอนถึงระดับที่จำเป็นสำหรับการทำ Agent ซึ่งเป็นเงื่อนไขเบื้องต้นในการเกิดขึ้นของ Manus.
ตอนนี้ ด้วยการพัฒนาของโมเดลการคิดเชิงลึกและความสามารถของโมเดลหลายรูปแบบ จะมีเอเจนต์ที่สามารถจัดการกับงานที่ซับซ้อนได้มากขึ้นอย่างแน่นอน
จากการตัดสินใจนี้ ในวันที่ 17 เมษายน แพลตฟอร์มบริการคลาวด์และ AI ของ ByteDance "Huoshanyinjing" ได้เปิดตัวโมเดลที่แข็งแกร่งขึ้นสำหรับตลาดองค์กร - โมเดล Doubao 1.5 ・โมเดลการคิดเชิงลึก ซึ่งเป็นครั้งแรกที่โมเดลการอนุมานเบื้องหลังแอป Doubao ของ ByteDance ได้เปิดตัว นอกจากนี้ยังมีการเปิดตัวโมเดล Doubao ・โมเดลการสร้างภาพ 3.0 และโมเดลการเข้าใจภาพเวอร์ชันอัปเกรดอีกด้วย.
สำหรับโมเดลที่เปิดตัวในครั้งนี้ ประธานของ Volcano Engine คุณ Tan Dai เชื่อว่า "โมเดลการคิดเชิงลึกเป็นพื้นฐานของการสร้าง Agent โมเดลต้องมีความสามารถในการคิด วางแผน และสะท้อนผล และต้องรองรับหลายรูปแบบเหมือนกับที่มนุษย์มีการมองเห็นและการได้ยิน เพื่อให้ Agent สามารถจัดการกับงานที่ซับซ้อนได้ดีขึ้น."
เมื่อ AI พัฒนาความสามารถในการตัดสินใจและดําเนินการอัตโนมัติแบบ end-to-end และก้าวไปสู่กระบวนการผลิตหลัก Volcano Engine ยังได้เตรียมสถาปัตยกรรมและเครื่องมือสําหรับตัวแทนเพื่อใช้งานโลกดิจิทัลและโลกทางกายภาพ — โซลูชัน OS Agent และชุดการอนุมานแบบคลาวด์เนทีฟ AI เพื่อช่วยให้องค์กรสร้างและปรับใช้แอปพลิเคชันตัวแทนได้เร็วขึ้นและคุ้มค่ายิ่งขึ้น
ในมุมมองของ Tan Cheng การพัฒนาตัวแทนก็เหมือนกับการพัฒนาเว็บไซต์หรือแอพมีเพียง API โมเดลเท่านั้นที่ไม่สามารถแก้ปัญหาได้อย่างสมบูรณ์และจําเป็นต้องมีส่วนประกอบ AI cloud-native จํานวนมากบนคลาวด์ ในอดีตคลาวด์เนทีฟมีคําจํากัดความหลักเช่นคอนเทนเนอร์ความยืดหยุ่น ฯลฯ ตอนนี้ AI cloud-native จะมีองค์ประกอบหลักที่คล้ายกัน Volcano Engine มุ่งมั่นที่จะเป็นโซลูชันที่ดีที่สุดสําหรับโครงสร้างพื้นฐานในยุค AI ผ่านการคิดการสํารวจและการดําเนินการอย่างรวดเร็วอย่างต่อเนื่องบน AI cloud native เช่นมิดเดิลแวร์ต่างๆรอบโมเดลการประเมินการตรวจสอบความสามารถในการสังเกตการประมวลผลข้อมูลการประกันความปลอดภัยและส่วนประกอบที่เกี่ยวข้องเช่นแซนด์บ็อกซ์
01 โมเดลการคิดเชิงลึกของ豆包 เหมือนกับคนที่มอง คิด และค้นหาไปพร้อมกัน
ตั้งแต่การเปิดตัว DeepSeek-R1 ในต้นปีนี้ แอปพลิเคชัน ToC หลายตัวได้เชื่อมต่อกับโมเดลการอนุมาน R1 ยกเว้นแอป豆包 ในต้นเดือนมีนาคม โมดูล "การคิดเชิงลึก" ที่เปิดตัวบนแอป豆包 มีพื้นฐานมาจากโมเดลการคิดเชิงลึกที่พัฒนาโดย ByteDance.
ตอนนี้ โมเดลการอนุมานนี้ - Doubao 1.5 · โมเดลการคิดเชิงลึก ได้ถูกเปิดตัวอย่างเป็นทางการ สามารถทดลองและเรียกใช้งานได้ที่แพลตฟอร์ม Volcanic Ark.
คลิกโหมดเชื่อมต่อ อินเทอร์เน็ตจะทำให้豆包สามารถคิดได้เหมือนมนุษย์เมื่อเผชิญกับปัญหา คิด ค้นหา แล้วคิดต่อไป... โดยมีเป้าหมายในการแก้ปัญหาเป็นสิ่งสำคัญ.
นี่คือตัวอย่างในสถานการณ์การซื้อของ หลังจากที่ตั้งงบประมาณ ขนาด และเงื่อนไขอื่น ๆ ให้豆包แนะนำอุปกรณ์ตั้งแคมป์ที่เหมาะสมชุดหนึ่ง.
ในประเด็นนี้豆包ได้แยกข้อควรระวังออกมา วางแผนข้อมูลที่จำเป็น จากนั้นประเมินข้อมูลที่ขาดหายไปและทำการค้นหาออนไลน์ ที่นี่มันได้ค้นหา 3 รอบ ก่อนอื่นค้นหาราคาและประสิทธิภาพ เพื่อให้แน่ใจว่าสอดคล้องกับงบประมาณและความต้องการ ยังได้พิจารณาความต้องการเฉพาะของเด็กๆ สุดท้ายได้พิจารณาสภาพอากาศและค้นหาบทวิจารณ์ที่เกี่ยวข้องอย่างละเอียด คิดไปค้นหาจนกว่าจะได้ข้อมูลบริบททั้งหมดที่จำเป็นสำหรับการตัดสินใจ และให้คำตอบที่มีเหตุผลออกมา.
นอกจากการค้นหาไปพร้อมกับการคิดแล้ว โมเดลการคิดเชิงลึกของ豆包ยังมีความสามารถในการอนุมานทางสายตา เหมือนกับมนุษย์ ไม่เพียงแต่สามารถคิดจากข้อความเท่านั้น แต่ยังสามารถคิดจากภาพที่เห็นได้อีกด้วย.
ในสถานการณ์การสั่งอาหารนี้ ใกล้ถึงวันหยุดทองคำห้าวันแล้ว เพื่อนๆ ที่จะไปเที่ยวต่างประเทศไม่จำเป็นต้องถ่ายรูปแล้วอัปโหลดให้โปรแกรมแปลภาษาแปลเมนูอีกต่อไป โมเดลการคิดเชิงลึกของ Doubao สามารถช่วยให้คุณสั่งอาหารได้โดยตรงจากภาพ.
ในตัวอย่างด้านล่าง โมเดลการคิดเชิงลึกของ豆包ได้ทำการแปลงอัตราแลกเปลี่ยนเพื่อควบคุมงบประมาณ จากนั้นก็ได้พิจารณาความชอบของผู้สูงอายุและเด็ก ๆ พร้อมทั้งหลีกเลี่ยงจานอาหารที่พวกเขาแพ้ และเสนอแผนเมนูออกมาโดยตรง.
การเชื่อมต่อ, การคิด, การอนุมาน, หลายรูปแบบ, 豆包 1.5・โมเดลการคิดเชิงลึกแสดงให้เห็นถึงความสามารถในการอนุมานที่ครอบคลุม สามารถแก้ปัญหาที่ซับซ้อนยิ่งขึ้นได้.
ตามรายงานทางเทคนิคแบบจําลอง Doubao 1.5 Deep Thinking มีระดับสูงของความสําเร็จในงานอนุมานในสาขาวิชาชีพเช่นคะแนน o3-mini-high ของ OpenAI ในการทดสอบการให้เหตุผลทางคณิตศาสตร์ AIME 2024 และคะแนนในการแข่งขันการเขียนโปรแกรมและการทดสอบเหตุผลทางวิทยาศาสตร์ก็ใกล้เคียงกับ o1 เช่นกัน ในแง่ของงานทั่วไปเช่นการเขียนเชิงสร้างสรรค์และแบบทดสอบความรู้ด้านมนุษยศาสตร์แบบจําลองนี้ยังแสดงให้เห็นถึงความสามารถในการสรุปที่ยอดเยี่ยมและสามารถใช้ในสถานการณ์การใช้งานที่หลากหลายขึ้น
โมเดลการคิดลึกของ豆包ยังมีลักษณะการหน่วงเวลาต่ำ รายงานทางเทคนิคแสดงให้เห็นว่าโมเดลนี้ใช้สถาปัตยกรรม MoE โดยมีพารามิเตอร์ทั้งหมด 200B และพารามิเตอร์ที่เปิดใช้งานเพียง 20B ทำให้สามารถบรรลุผลลัพธ์ที่เทียบเท่ากับโมเดลชั้นนำด้วยพารามิเตอร์ที่น้อยลง จากอัลกอริธึมที่มีประสิทธิภาพและระบบการอนุมานที่มีประสิทธิภาพสูง บริการ API ของโมเดล豆包สามารถรับประกันการทำงานพร้อมกันในระดับสูงในขณะที่มีความหน่วงต่ำถึง 20 มิลลิวินาที.
ในขณะเดียวกันก็มีความสามารถหลายรูปแบบและสามารถใช้แบบจําลองการคิดอย่างลึกซึ้งในสถานการณ์ที่หลากหลายเช่นสามารถเข้าใจแผนภูมิกระบวนการจัดการโครงการขององค์กรที่ซับซ้อนค้นหาข้อมูลสําคัญได้อย่างรวดเร็วและตอบคําถามของลูกค้าด้วยคําแนะนําที่แข็งแกร่งตามความสามารถและปฏิบัติตามแผนภูมิการไหลอย่างเคร่งครัด เมื่อวิเคราะห์ภาพถ่ายทางอากาศความเป็นไปได้ของการพัฒนาภูมิภาคสามารถตัดสินได้ตามลักษณะทางธรณีสัณฐานวิทยา
นอกจากโมเดลการอนุมานแล้ว ครอบครัวโมเดล豆包ยังนำเสนอการอัปเดตของโมเดลสองตัวในครั้งนี้ ในด้านโมเดลการสร้างภาพจากข้อความ豆包ได้เปิดตัวเวอร์ชันอัปเกรดล่าสุด 3.0 ซึ่งเวอร์ชันนี้สามารถสร้างการจัดรูปแบบข้อความที่ดีกว่า ผลลัพธ์การสร้างภาพที่มีคุณภาพระดับถ่ายจริง และวิธีการสร้างภาพความละเอียด 2K ได้อย่างมีประสิทธิภาพ.
โมเดลรุ่นใหม่ไม่เพียงแต่แก้ปัญหาการสร้างตัวอักษรขนาดเล็กและข้อความยาวได้ดีขึ้น แต่ยังปรับปรุงการจัดรูปแบบภาพอีกด้วย ตัวอย่างเช่นโปสเตอร์สองใบที่สร้างขึ้นทางด้านซ้ายสุด "现形" และ "丰收计划" การสร้างรายละเอียดมีความประณีตมากขึ้น การจัดรูปแบบก็ดูธรรมชาติมากขึ้น สามารถนำไปใช้งานได้ทันที
การอัปเกรดอีกอย่างคือโมเดลการเข้าใจภาพ Bean Bag 1.5 เวอร์ชันใหม่มีการอัปเดตที่สำคัญสองประการ ได้แก่ ความแม่นยำในการระบุตำแหน่งภาพที่สูงขึ้นและความสามารถในการเข้าใจวิดีโอที่ชาญฉลาดขึ้น.
ในด้านการระบุตำแหน่งด้วยภาพ โมเดลการเข้าใจภาพ豆包 1.5 สนับสนุนการระบุตำแหน่งกรอบสำหรับหลายเป้าหมาย เป้าหมายขนาดเล็ก และเป้าหมายทั่วไป รวมถึงการนับตำแหน่ง การอธิบายเนื้อหาการระบุตำแหน่ง และการระบุตำแหน่ง 3D เป็นต้น ความสามารถในการระบุตำแหน่งด้วยภาพที่ได้รับการปรับปรุงจะช่วยให้โมเดลสามารถขยายขอบเขตการใช้งานได้มากขึ้น เช่น ฉากการตรวจสอบในร้านค้าออฟไลน์ ตัวแทน GUI การฝึกหุ่นยนต์ การฝึกขับขี่อัตโนมัติ เป็นต้น.
ในการเข้าใจวิดีโอ โมเดลนี้มีการพัฒนาขึ้นอย่างมาก เช่น ความสามารถในการจำ ความสามารถในการสรุปความเข้าใจ ความสามารถในการรับรู้ความเร็ว และการเข้าใจวิดีโอที่ยาวขึ้น บริษัทต่างๆ สามารถสร้างแอปพลิเคชันเชิงพาณิชย์ที่น่าสนใจมากขึ้นจากการเข้าใจวิดีโอ เช่น ในสถานการณ์ภายในบ้าน เราสามารถทำการค้นหาความหมายจากวิดีโอการเฝ้าระวังในบ้านโดยอิงจากความสามารถในการเข้าใจวิดีโอและการค้นหาด้วยเวกเตอร์.
ตัวอย่างเช่น ในกรณีด้านล่าง ผู้ที่เลี้ยงแมวต้องการทราบกิจกรรมประจำวันของแมว โดยการค้นหา "วันนี้ลูกแมวทำอะไรที่บ้านบ้าง?" จะสามารถคืนคลิปวิดีโอที่เกี่ยวข้องกับความหมายได้อย่างรวดเร็ว เพื่อให้ผู้ใช้ดู.
ด้วยโมเดลการอนุมานที่มีการเข้าใจเชิงภาพและความสามารถในการอนุมานที่สูงขึ้น สิ่งที่เคยทำไม่ได้มากมายในอดีตตอนนี้สามารถทำได้ สามารถปลดล็อกสถานการณ์ใหม่ ๆ ได้มากมาย เช่น กล้องที่มีฟังก์ชันนี้จะต้องได้รับความนิยมมากขึ้น แว่นตา AI ของเล่น AI กล้องอัจฉริยะ ประตูล็อค และอื่น ๆ จะมีพื้นที่พัฒนาสใหม่.
02 เมฆ, สู่ยุค Agentic AI
ในช่วงสองวันที่ผ่านมานักวิจัย OpenAI Yao Shunyu (Deep Research ผู้เขียนหลักของ Operator) ชี้ให้เห็นในบทความ "The Second Half of AI" ว่าในที่สุดการเรียนรู้แบบเสริมกําลังก็พบเส้นทางที่สามารถสรุปได้มันจะไม่เพียง แต่ทํางานในสาขาเฉพาะเช่น AlphaGo ซึ่งเอาชนะผู้เล่นหมากรุกมนุษย์ แต่สามารถใกล้เคียงกับระดับการแข่งขันของมนุษย์ในด้านวิศวกรรมซอฟต์แวร์การเขียนเชิงสร้างสรรค์คณิตศาสตร์ระดับ IMO การทํางานของเมาส์และคีย์บอร์ดเป็นต้น ในกรณีนี้มันง่ายกว่าที่จะแข่งขันเพื่อคะแนนที่สูงขึ้นในรายการที่ซับซ้อนมากขึ้น แต่มันล้าสมัย
ตอนนี้สิ่งที่แข่งขันกันคือความสามารถในการกำหนดปัญหา กล่าวอีกนัยหนึ่ง AI ต้องแก้ไขปัญหาใดในชีวิตจริง?
ในปี 2025 คำตอบคือ Agent ของการผลิต ปัจจุบัน การใช้งาน AI กำลังเข้าสู่ยุค Agentic AI อย่างรวดเร็ว AI ค่อยๆ สามารถทำงานที่มีความเชี่ยวชาญสูงและใช้เวลานานขึ้นได้อย่างครบถ้วน ในกรณีนี้ Vulkan Engine ยังได้สร้างโครงสร้างพื้นฐานชุดหนึ่งเพื่อให้บริษัท "กำหนด Agent ทั่วไปของตนเอง".
สิ่งที่สำคัญที่สุดคือโมเดล ที่สามารถวางแผนด้วยตนเอง, สะท้อนความคิด, ตัดสินใจและดำเนินการโดยอัตโนมัติแบบครบวงจร, และมุ่งสู่กระบวนการผลิตหลัก ในขณะเดียวกันก็ต้องมีความสามารถในการตีความหลายรูปแบบ เพื่อให้สามารถทำงานร่วมกันในโลกจริงผ่านหู, ปาก และตา.
นอกเหนือจากโมเดลแล้ว สแต็กเทคโนโลยี Infra ก็ต้องพัฒนาอย่างต่อเนื่อง เช่นเดียวกับที่สถาปัตยกรรม MoE แสดงให้เห็นถึงข้อได้เปรียบที่มีประสิทธิภาพมากขึ้นและเริ่มเป็นสถาปัตยกรรมหลักของโมเดล ดังนั้น การปรับแต่งการจัดสรรให้เหมาะสมกับโมเดล MoE จึงต้องการสถาปัตยกรรมและเครื่องมือคลาวด์คอมพิวติ้งที่ซับซ้อนและยืดหยุ่นมากขึ้น.
ตอนนี้ในสถานการณ์ของ Agent ที่ใช้ทั่วไปในองค์กร Volcano Engine ได้เปิดตัวสถาปัตยกรรมและเครื่องมือที่ดีกว่า - โซลูชัน OS Agent ซึ่งสนับสนุนโมเดลขนาดใหญ่ในการดำเนินการกับโลกดิจิทัลและทางกายภาพ เช่น การที่ Agent ทำการดำเนินการเบราว์เซอร์ ค้นหาหน้าสินค้า ทำภารกิจเปรียบเทียบราคา iPhone หรือแม้แต่การที่ Agent แก้ไขวิดีโอและทำเพลงประกอบด้วย Jianying บนคอมพิวเตอร์ระยะไกล และอื่นๆ.
ปัจจุบันโซลูชัน Volcano OS Agent ประกอบด้วยโมเดล Doubao UI-TARS รวมถึงบริการฟังก์ชัน veFaaS เซิร์ฟเวอร์คลาวด์โทรศัพท์คลาวด์และผลิตภัณฑ์อื่น ๆ เพื่อดําเนินการกับโค้ดเบราว์เซอร์คอมพิวเตอร์โทรศัพท์มือถือและตัวแทนอื่น ๆ ในหมู่พวกเขาโมเดล Doubao UI-TARS รวมความเข้าใจภาพหน้าจอการให้เหตุผลเชิงตรรกะการวางตําแหน่งองค์ประกอบอินเทอร์เฟซและการทํางานทําลายข้อ จํากัด ของเครื่องมืออัตโนมัติแบบดั้งเดิมที่อาศัยกฎที่กําหนดไว้ล่วงหน้าและเป็นรากฐานแบบจําลองที่ใกล้ชิดกับการดําเนินงานของมนุษย์สําหรับการโต้ตอบอัจฉริยะของตัวแทน
ในสถานการณ์ของ Agent แบบทั่วไป Volcano Engine ได้เสนอวิธีแก้ปัญหา OS Agent นี้ให้กับองค์กรภายใน บุคคล หรือเฉพาะด้าน เพื่อให้สามารถกำหนดและสำรวจ Agent ตามความต้องการได้
บนเอเจนต์ในแนวดิ่ง Vulkan Engine จะทำการสำรวจตามความได้เปรียบในด้านของตน เช่น การเปิดตัว "ผู้ช่วยโปรแกรมอัจฉริยะ Trae" และผลิตภัณฑ์ข้อมูล "Data Agent" ซึ่งตัวหลังจะใช้การสร้างฟลายลูปข้อมูลเพื่อให้การประมวลผลข้อมูลมีประสิทธิภาพสูงสุด.
ในอีกด้านหนึ่ง การซึมซับของ Agent จะนำมาซึ่งการใช้ทรัพยากรสำหรับการอนุมานโมเดลในปริมาณมากขึ้น เมื่อเผชิญกับความต้องการในการอนุมานในระดับใหญ่ ไฟลนก้นภูเขาจึงได้พัฒนา AI Cloud Native ServingKit เพื่อให้การปรับใช้โมเดลรวดเร็วยิ่งขึ้น ค่าใช้จ่ายในการอนุมานต่ำลง โดยการใช้ GPU ลดลงถึง 80% เมื่อเปรียบเทียบกับวิธีการแบบดั้งเดิม.
ในมุมมองของ Tan Zhi เพื่อตอบสนองความต้องการของยุค AI Volcano Engine จะยังคงใช้ความพยายามในสามด้าน: เพิ่มประสิทธิภาพโมเดลและรักษาความสามารถในการแข่งขันต่อไป ลดต้นทุนอย่างต่อเนื่อง รวมถึงค่าใช้จ่าย ความล่าช้า และปริมาณงานที่เพิ่มขึ้น ทําให้ผลิตภัณฑ์ใช้งานได้ง่ายขึ้น เช่น ปุ่ม เครื่องมือ HiAgent สําหรับนักพัฒนา และส่วนประกอบคลาวด์เนทีฟ OS Agent รักษาความเป็นผู้นําด้านผลิตภัณฑ์และเทคโนโลยีและส่วนแบ่งการตลาดก็จะเป็นผู้นําเช่นกัน ตาม "การวิเคราะห์โครงสร้างตลาดบริการโมเดลขนาดใหญ่ของ Public Cloud ของจีน 1Q25" Volcano Engine อยู่ในอันดับที่หนึ่งด้วยส่วนแบ่งการตลาด 46.4%
ในเดือนธันวาคมปีที่แล้ว ปริมาณการเรียกใช้ tokens ต่อวันของโมเดล Doubao คือ 40 ล้านล้าน จนถึงสิ้นเดือนมีนาคมปีนี้ ตัวเลขนี้ได้เกิน 12.7 ล้านล้านแล้ว ซึ่งเมื่อเปรียบเทียบกับช่วงที่โมเดล Doubao ถูกปล่อยออกมา ในเวลาไม่ถึงหนึ่งปี เราได้เห็นการเติบโตอย่างรวดเร็วมากกว่า 106 เท่า ในอนาคต เมื่อโมเดลการคิดเชิงลึกและการอนุมานภาพมีความก้าวหน้ามากขึ้น และโครงสร้างพื้นฐาน AI Cloud ได้รับการปรับปรุง Agent จะนำไปสู่ปริมาณการเรียกใช้ tokens ที่มากขึ้นกว่าเดิม.