أعلنت NVIDIA NeMo ، وهي مجموعة أدوات الذكاء الاصطناعي محادثة مفتوحة المصدر ، عن عائلة طراز Parakeet ASR ، وهي سلسلة من أحدث نماذج التعرف التلقائي على الكلام (ASR) القادرة على نسخ اللغة الإنجليزية المنطوقة بدقة فائقة ، كما ذكرت Webmaster Home في 8 يناير.  أعلنت Nvidia عن أربعة نماذج Parakeet تعتمد على وحدة فك ترميز التصنيف الزمني RNN Transducer / Connectionist ولها 0.6-110 مليون معلمة. إنهم قادرون على التعامل مع مجموعة واسعة من البيئات الصوتية ، وبعد التدريب على 64000 ساعة فقط من مجموعات البيانات ، يحققون أداء ممتازا لمعدل خطأ الكلمات (WER) على مجموعة البيانات المعيارية ، متفوقين على النماذج السابقة.  وفقا للمطورين ، فإن النماذج قوية للقطاعات غير الكلامية مثل الموسيقى وكتم الصوت ، وتتفوق على Whisper v3 من OpenAI في الاختبار المعياري. كما أنها توفر تكاملا سهل الاستخدام في المشروع مع نقاط تحكم مدربة مسبقا.