OpenAI lance la surveillance CoT pour arrêter le comportement malveillant des grands modèles

DailyNews

Golden Finance a rapporté qu’OpenAI a publié les dernières recherches, en utilisant la surveillance CoT (chaîne de pensée), il peut prévenir les comportements malveillants tels que les grands modèles qui disent des bêtises et cachent les véritables intentions, et c’est également l’un des outils efficaces pour superviser les super modèles. OpenAI utilise le nouveau modèle de pointe o3-mini comme objet surveillé, et le modèle GPT-4o, plus faible, comme moniteur. L’environnement de test est une tâche de codage qui nécessite que l’IA implémente des fonctionnalités dans la base de code pour réussir les tests unitaires. Les résultats ont montré que le moniteur CoT a bien réussi à détecter les comportements systématiques de « piratage de récompense », avec un taux de rappel allant jusqu’à 95 %, dépassant de loin les 60 % de comportements qui ont été uniquement surveillés.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire