أصدرت OpenAI أقوى نموذج استدلال ل o3 و o4-mini: يمكنه التفكير في الصور وتحديد الأدوات تلقائيا وتحقيق اختراقات في الرياضيات وأداء الترميز

أعلنت OpenAI اليوم رسميا عن نماذج الاستدلال o3 و o4-mini ، وتحقيق الاستدلال على الصور والتكامل متعدد الأدوات لأول مرة ، والمجتمع متفائل بشأن قدرتها على تعزيز "وكلاء الذكاء الاصطناعي". (ملخص: تبني OpenAI سرا منصتها الاجتماعية الخاصة ، مشيرة إلى Musk's X) (ملحق الخلفية: تم تأجيل GPT-5!) كشف سام ألتمان أن OpenAI يدفع أولا o3 و o4-mini: التكامل أصعب مما كان متوقعا) أصدرت شركة الذكاء الاصطناعي العملاقة OpenAI رسميا نموذجين من الجيل الجديد للاستدلال - o3 و o4-mini في الصباح الباكر من عام (17) ، مع التأكيد على "استدلال الصورة" والقدرة على استخدام جميع أدوات ChatGPT بشكل مستقل ، مما أدى إلى الذكاء الاصطناعي عالمي مجتمع المطورين صاخب ، يرمز إلى خطوة رئيسية أخرى نحو "الذكاء الاصطناعي بديل" للشركة. الرياضيات والترميز واختراقات الأداء الأخرى تم وضع o3 كأقوى نموذج استدلال من OpenAI حتى الآن ، وهو مصمم للرياضيات المعقدة والعلوم وكتابة التعليمات البرمجية ومهام المنطق الرسومي ، ويحقق أداء متطورا في SWE-bench Verified (معيار هندسة البرمجيات) ، بدرجة 69.1٪ ، متقدما على كلود 3.7 سونيت 62.3٪. يحتفظ O4-mini بقوة تفكير عالية مع مراعاة التكلفة والسرعة ، ليصبح الخيار الأول خفيف الوزن للمطورين. وفقا لبيانات اختبار OpenAI ، فإن أداء o4-mini في AIME (مسابقة الرياضيات الأمريكية) 2024 و 2025 هو 93.4٪ و 92.7٪ على التوالي ، متجاوزا الإصدار الكامل من o3 ويصبح النموذج الحالي بأعلى دقة ؛ سجل 2700 نقطة في مسابقات Codeforce وصنف من بين أفضل 200 مهندس في العالم. يواصل O3 و O4-mini طريقة التدريب الموجهة نحو الاستدلال التي أكدتها سلسلة O ، المصممة خصيصا كبنية نموذجية ل "التفكير لفترة أطول قبل الاستجابة" ، بحيث لا يمكن الذكاء الاصطناعي الاستجابة بسرعة فحسب ، بل أيضا حل المشكلات المعقدة والمتعددة الخطوات. يمثل هذا التصميم أيضا أن OpenAI يواصل السير في السياق التقني ل "المزيد من وقت الاستدلال = الأداء الأعلى" ويختبر هذه الفرضية في عملية التعلم المعزز. الاستدلال على الصور لأول مرة: يمكن الذكاء الاصطناعي "فهم المخططات والرسومات وملفات PDF" التحديث الأكثر لفتا للنظر هو أن كلا النموذجين يتمتعان بقدرات الاستدلال على الصور لأول مرة. يمكن ل O3 و O4-mini فهم الصور وتحليلها ، حتى في الجودة المنخفضة ، مثل السبورات البيضاء المكتوبة بخط اليد وملفات PDF الضبابية والرسومات والمخططات الإحصائية ، ودمج عمليات التفكير متعددة الخطوات. هذا يعني أن الذكاء الاصطناعي لا يستطيع فقط قراءة التعليمات النصية والاستجابة لها ، ولكن أيضا "التفكير" في المنطق والارتباط وراء الصورة ، والتحرك نحو نظام وكيل متعدد الوسائط حقيقي. بالإضافة إلى تحسين الفهم البصري ، يمكن أن تعمل النماذج أيضا على الصور ، مثل الدوران أو القياس أو معالجة التشوه ، مما يجعل الصور جزءا من سلسلة الاستدلال وفتح حلول جديدة للمشاكل عبر الوسائط. التكامل متعدد الأدوات: من "الدردشة" إلى "حل المهام" يمكن لكلا النموذجين الاتصال بشكل مستقل بالأدوات التي يوفرها ChatGPT ، بما في ذلك البحث وتنفيذ البرنامج و DALL · E توليد الصور وتحليلها لتحقيق العملية المتكاملة من تلقي التعليمات ، والتقاط المعلومات إلى التفكير البصري. يختلف عن التنفيذ السلبي السابق لمنطق استخدام الأداة ، يتمتع O3 و O4-mini بقدرات اتخاذ قرار مستقلة ، ويمكنهما تلقائيا اختيار ما إذا كان سيتم تمكين أدوات مثل البحث أو تنفيذ البرنامج أو إنشاء الصور وفقا لطبيعة المشكلة ، مما يعرض سير عمل قريب من سير عمل الخبراء البشريين. تسمح هذه الطريقة المرنة لتطبيق السياسات أيضا للنموذج بضبط ترتيب المعالجة والمحتوى ديناميكيا بناء على المدخلات ، وهو معلم مهم في التحرك نحو "الذكاء الاصطناعي البديل". أطلقت OpenAI أيضا أداة Codex CLI مفتوحة المصدر للمطورين لدمج الذكاء الاصطناعي في المحطة المحلية للمساعدة في كتابة التعليمات البرمجية وتصحيح الأخطاء. ومبادرة الدستور الغذائي مفتوحة المصدر الآن، وهناك برنامج لمنح التنمية بقيمة مليون دولار مفتوح. التسعير والتوافر: يتمتع o4-mini بميزة "CP العالي" سعر واجهة برمجة تطبيقات نموذج o3 هو 10 دولارات لكل مليون رمز إدخال و 40 دولارا لرموز الإخراج ؛ بالمقارنة ، يكلف O4-MINI 1.10 دولار و 4.40 دولار فقط ، وهو أدنى قليلا في الأداء ولكن لديه ميزة تكلفة ساحقة. يتوفر الآن مستخدمو ChatGPT Plus (20 دولارا في الشهر) و Pro (200 دولار شهريا) و Team ، وستتوفر الشركات والمؤسسات التعليمية في غضون أسبوع. يوضح OpenAI بوضوح اتجاه تطور "الاستدلال الذكاء الاصطناعي" من خلال o3 و o4-mini ، ليس فقط تحسين القدرات اللغوية ، ولكن أيضا دمج فهم الصور وتشغيل الأداة لأول مرة. هذان النموذجان ليسا مجرد نقطة تحديث واحدة ، ولكنهما أيضا انتقال مهم من ChatGPT إلى الذكاء الاصطناعي الوكيل. إن الإطلاق المستقبلي ل o3-pro (والذي سيكون متاحا لمستخدمي Pro في الأسابيع المقبلة) و GPT-5 ، إذا كان من الممكن دمج هذه الجولة من الاختراقات التكنولوجية ، ستتاح له الفرصة لتحديد الجيل التالي من معايير المنتجات الذكاء الاصطناعي. تقارير ذات صلة OpenAI يقوي GPT-4o للاندفاع إلى المركز الثاني في الترتيب! سام ألتمان: فهم أفضل للأشخاص وكتابة البرامج ، يزيد الإبداع تعلن OpenAI: يدعم Open Agents SDK MCP ، ويربط كل شيء في سلسلة لاتخاذ خطوة رئيسية أخرى OpenAI تطلق أقوى نموذج رسم بياني: رسومات معلومات دقيقة ، مدخلات متعددة الوسائط ، واقعية ويصعب تمييزها ، مدمجة في GPT-4o 〈OpenAI تطلق o3 و o4-mini أقوى نماذج الاستدلال: يمكن التفكير في الصور ، وتحديد الأدوات تلقائيا ، والرياضيات ، تم نشر هذه المقالة لأول مرة في BlockTempo "الاتجاه الديناميكي - وسائل الإعلام الإخبارية الأكثر تأثيرا".

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت
تداول العملات الرقمية في أي مكان وفي أي وقت
qrCode
امسح لتنزيل تطبيق Gate.io
المنتدى
بالعربية
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)