TechWeb'in 19 Eylül tarihli raporuna göre yerli yetkili değerlendirme sistemi Flag_ (Libra), Eylül listesindeki en son büyük modellerin değerlendirme sonuçlarını açıkladı. En son CLCC v2.0 subjektif değerlendirme veri setini temel alan Flag_ (Terazi) Eylül listesi, son dönemde popüler hale gelen 7 açık kaynak diyalog modelinin değerlendirilmesine odaklanıyor. Genel sonuçlara bakıldığında, Baichuan2-13 b-chat, Qwen-7 b-chat ve Baichuan2-7 b-chat %65'i aşan doğruluk oranlarıyla en iyiler arasında yer alıyor. Temel model listesinde Baichuan 2, Qwen, InternLM ve Aquila'nın objektif değerlendirme sonuçlarının tümü aynı parametre seviyesindeki Llama ve Llama2 modellerini geride bıraktı. SFT model listesinde Baichuan 2-13 B-chat, YuLan-Chat-2-13 B ve AquilaChat-7 B ilk üçte yer alıyor. Her iki nesnel değerlendirme listesinde de Baichuan 2 mükemmel performans gösterdi ve temel model testi hem Çince hem de İngilizce alanlarında Llama 2'yi geride bıraktı. Flag_ (Libra)'nın Pekin Zhiyuan Yapay Zeka Araştırma Enstitüsü tarafından başlatılan büyük bir model değerlendirme sistemi ve açık platform olduğu bildiriliyor. Araştırmacıların temel modelleri kapsamlı bir şekilde değerlendirmelerine yardımcı olmak için bilimsel, adil ve açık değerlendirme kriterleri, yöntemleri ve araç setleri oluşturmayı amaçlıyor. Eğitim algoritmalarının performansı. Flag_ Geniş dil modeli değerlendirme sistemi şu anda 6 ana değerlendirme görevini, 30'a yakın değerlendirme veri setini ve 100.000'den fazla değerlendirme sorusunu içermektedir.