Il y a une véritable opportunité pour un chercheur ambitieux en IA de :


- créer un cadre d’évaluation pour tester des agents comme Openclaw, Hermes, et tous les autres « claws »
- étendre l’évaluation à différents outils / configurations afin de comprendre comment la performance évolue selon les setups
- réaliser des évaluations robustes sur divers modèles, y compris local vs API
- établir des benchmarks, publier les résultats, puis effectuer des mises à jour continues à mesure que les agents et modèles évoluent
L’opportunité est de devenir LA référence en matière de benchmarks objectifs pour les agents
Peut-être que quelqu’un fait déjà cela et que je ne suis pas au courant ? Pas des comparaisons ponctuelles, mais de véritables tests et évaluations standards pour que nous puissions réellement comparer les résultats
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler