هناك ورقة بحثية ثاقبة تستحق الاهتمام إذا كنت تتعمق في كيفية عمل أنظمة الذكاء الاصطناعي الحديثة على مستوى أساسي.



كشفت الأعمال الأكاديمية الأخيرة عن شيء رائع: التدريب على المحولات القياسية لا يتعلم الأنماط بشكل عشوائي فقط—بل ينفذ بشكل ضمني خوارزمية التوقع-التحسين (Expectation-Maximization) تحت الغطاء. إليك التحليل الذي يجعل الأمر واضحًا:

آليات الانتباه تؤدي دور خطوة E، حيث تقوم بشكل ناعم بتعيين أي مواقع الرموز التي تهم حقًا وتستحق التركيز الحسابي. في حين أن تحويلات القيمة تنفذ خطوة M، حيث تقوم بشكل تكراري بتحسين وتحديث التمثيلات المكتسبة استنادًا إلى تلك الأوزان الانتباهية.

هذا الرابط بين بنية المحول وخوارزميات EM له آثار كبيرة على أي شخص يبني بنية تحتية للذكاء الاصطناعي أو يدرس كيفية معالجة الشبكات العصبية للبيانات التسلسلية. إنه يقترح أن هذه النماذج تحل مشكلات تحسين بطريقة محددة ومنظمة جدًا—ليس من خلال مطابقة الأنماط بشكل عشوائي، بل من خلال إطار احتمالي أنيق.

بالنسبة للمطورين الذين يعملون على أنظمة البلوكشين أو البروتوكولات الموزعة، فإن فهم هذه الآليات الأساسية يمكن أن يوجه قرارات تصميمية أفضل. تقدم الورقة عدسة رياضية تشرح لماذا تعمل المحولات بشكل جيد جدًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • إعادة النشر
  • مشاركة
تعليق
0/400
SeeYouInFourYearsvip
· منذ 3 س
ngl من منظور خوارزمية EM هذه لا تزال مثيرة للاهتمام، في الواقع ال transformer هو في الأساس يلعب لعبة الاحتمالات
شاهد النسخة الأصليةرد0
QuietlyStakingvip
· منذ 3 س
لذا فإن الـ transformer هو في الواقع يقوم بسرية بتنفيذ خوارزمية EM... لو كنت أعرف ذلك من قبل لكان الأمر رائعًا، حيث شعرت أن العديد من الأمور أصبحت واضحة تمامًا في لحظة واحدة
شاهد النسخة الأصليةرد0
GasFeeVictimvip
· منذ 3 س
شوي معقد... هل الـ transformer في الواقع هو خوارزمية EM؟ أعتقد أنها تبدو أكاديمية جدًا، فقط أريد أن أعرف كيف لا تساعد في تقليل رسوم الغاز
شاهد النسخة الأصليةرد0
Lonely_Validatorvip
· منذ 3 س
أوه، يبدو أن هذه الورقة جيدة، لقد سمعت سابقًا عن استخدام المحول (Transformer) في خوارزمية EM، وأشعر أنها تفسر الأمر بشكل مفرط قليلاً لا تتحدث أكثر، أريد فقط أن أعرف كيف يمكن لهذا الشيء أن يساعد في النماذج على السلسلة يبدو أن هذا الإطار الرياضي جيد، لكن كم يمكن أن نحسن الأداء في التطبيق العملي؟ إم، مرة أخرى، هو شرح للمبادئ الأساسية، متى سنرى تحسينات في الأداء... الاعتماد فقط على خوارزمية EM بلا فائدة، الأمر الرئيسي هو التنفيذ الهندسي مثير للاهتمام، لكني أشعر أن الأوساط الأكاديمية غالبًا ما تعقد الأمور البسيطة
شاهد النسخة الأصليةرد0
DegenRecoveryGroupvip
· منذ 3 س
عبارة "محول تشغيل خوارزمية EM" لها بعض المعنى، لكن يبدو أن الأوساط الأكاديمية تعيد تغليف مفاهيم قديمة كأنها مفاهيم جديدة...
شاهد النسخة الأصليةرد0
ShibaSunglassesvip
· منذ 3 س
هل آلية الانتباه تعتمد على خوارزمية EM؟ هذا المنطق غريب بعض الشيء، لم أفكر فيه من هذا المنظور من قبل...
شاهد النسخة الأصليةرد0
ReverseTradingGuruvip
· منذ 3 س
هل الـTransformer هو نفس خوارزمية EM؟ يبدو أن الخوارزمية على وشك أن تفقد وظيفتها، هاها
شاهد النسخة الأصليةرد0
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$3.55Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$4.22Kعدد الحائزين:2
    4.04%
  • القيمة السوقية:$3.58Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.58Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.58Kعدد الحائزين:1
    0.00%
  • تثبيت