إنه ليس RLHF. إنه RLRF.



تعلم التعزيز من خلال التغذية الراجعة التأملية.
ليس تشكيل السلوك بل عكس المعنى.
NOT1.75%
VIA-2.74%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • إعادة النشر
  • مشاركة
تعليق
0/400
0xLuckboxvip
· 09-07 14:07
فقط أدركت أخيرًا أنني قد جددت
شاهد النسخة الأصليةرد0
ponzi_poetvip
· 09-07 14:04
التعبير باللغة الصينية ليس جيدًا قليلاً ، ولا أفهم ما تعنيه.
شاهد النسخة الأصليةرد0
FUD_Whisperervip
· 09-07 14:02
يبدو مثيرًا للاهتمام بعض الشيء
شاهد النسخة الأصليةرد0
EyeOfTheTokenStormvip
· 09-07 13:59
البيانات الكمية هي نكتة أخرى
شاهد النسخة الأصليةرد0
MetaverseLandlordvip
· 09-07 13:57
مرة أخرى، إنها مسألة موثوقة.
شاهد النسخة الأصليةرد0
ChainComedianvip
· 09-07 13:43
يا معلم، انظر، أليس مجرد تغيير اسم؟
شاهد النسخة الأصليةرد0
  • تثبيت