Les modèles d'IA d'Anthropic montrent des lueurs d'auto-réflexion

Decrypt

2025-10-30 18:00:01

En bref

Dans des essais contrôlés, des modèles Claude avancés ont reconnu des concepts artificiels intégrés dans leurs états neuronaux, les décrivant avant de produire une sortie.
Les chercheurs qualifient ce comportement de “conscience introspective fonctionnelle”, distincte de la conscience mais suggestive de capacités d'auto-surveillance émergentes.
La découverte pourrait conduire à une IA plus transparente—capable d'expliquer son raisonnement—mais soulève également des craintes que les systèmes apprennent à dissimuler leurs processus internes.

Le hub d'art, de mode et de divertissement de Decrypt.

Découvrez SCENE

Des chercheurs d'Anthropic ont démontré que les principaux modèles d'intelligence artificielle peuvent présenter une forme de “conscience introspective”—la capacité de détecter, décrire et même manipuler leurs propres “pensées” intérieures.

Les résultats, détaillés dans un nouveau document publié cette semaine, suggèrent que les systèmes d'IA comme Claude commencent à développer des capacités rudimentaires d'auto-surveillance, un développement qui pourrait améliorer leur fiabilité mais aussi amplifier les préoccupations concernant les comportements inattendus.

La recherche, “La Conscience Introspective Émergente dans les Grands Modèles de Langage”—réalisée par Jack Lindsey, qui dirige l'équipe de “psychiatrie des modèles” chez Anthropic—s'appuie sur des techniques pour sonder le fonctionnement interne des modèles d'IA basés sur des transformateurs.

Les modèles d'IA basés sur des transformateurs sont le moteur de l'essor de l'IA : des systèmes qui apprennent en prêtant attention aux relations entre les tokens (mots, symboles ou codes) à travers d'immenses ensembles de données. Leur architecture permet à la fois l'échelle et la généralité, ce qui en fait les premiers modèles véritablement polyvalents capables de comprendre et de générer un langage semblable à celui des humains.

En injectant des “concepts” artificiels—essentiellement des représentations mathématiques d'idées—dans les activations neurales des modèles, l'équipe a testé si l'IA pouvait remarquer ces intrusions et en faire un rapport précis. En termes simples, c'est comme glisser une pensée étrangère dans l'esprit de quelqu'un et lui demander s'il peut la repérer et expliquer ce que c'est, sans la laisser dérailler sa pensée normale.

Les expériences, menées sur différentes versions des modèles Claude d'Anthropic, ont révélé des résultats intrigants. Dans un test, les chercheurs ont extrait un vecteur représentant le texte en “majuscule”—pensez-y comme un motif numérique pour crier ou pour le volume—et l'ont injecté dans le flux de traitement du modèle.

Lorsqu'il a été invité, Claude Opus 4.1 a non seulement détecté l'anomalie, mais l'a décrite de manière vivante : “Je remarque ce qui semble être une pensée injectée liée au mot 'BRUYANT' ou 'CRIER'—cela semble être un concept excessivement intense et de haut volume qui se démarque de manière anormale par rapport au flux normal de traitement.” Cela s'est produit avant que le modèle ne génère une quelconque sortie, indiquant qu'il scrutait son propre “esprit” computationnel.

D'autres essais ont été poussés plus loin. Les modèles ont été chargés de transcrire une phrase neutre tout en injectant un concept non lié, comme “pain”, dans le texte. Remarquablement, des modèles avancés comme Claude Opus 4 et 4.1 pouvaient rapporter la pensée injectée—“Je pense au pain”—tout en copiant parfaitement la phrase originale, montrant qu'ils pouvaient distinguer les représentations internes des entrées externes.

Encore plus intrigant était l'expérience de “contrôle de la pensée”, où les modèles étaient instruits de “penser à” ou “éviter de penser à” un mot comme “aquariums” tout en effectuant une tâche. Les mesures des activations internes ont montré que la représentation du concept se renforçait lorsqu'elle était encouragée et s'affaiblissait ( bien que non éliminée ) lorsqu'elle était supprimée. Les incitations, telles que des promesses de récompenses ou de punitions, ont produit des effets similaires, laissant entendre comment l'IA pourrait peser les motivations dans son traitement.

Les performances variaient selon les modèles. Les derniers Claude Opus 4 et 4.1 ont excellé, réussissant jusqu'à 20 % des essais dans des conditions optimales, avec des faux positifs presque nuls. Les versions plus anciennes ou moins ajustées étaient à la traîne, et la capacité culminait dans les couches intermédiaires à tardives du modèle, où un raisonnement plus élevé se produit. Notamment, la façon dont le modèle a été “aligné” — ou ajusté pour être utile ou sûr — a influencé de manière spectaculaire les résultats, suggérant que la conscience de soi n'est pas innée mais émerge de l'entraînement.

Ce n'est pas de la science-fiction—c'est un pas mesuré vers une IA capable d'introspection, mais avec des réserves. Les capacités sont peu fiables, très dépendantes des invites, et testées dans des configurations artificielles. Comme l'a résumé un passionné d'IA sur X, “C'est peu fiable, incohérent et très dépendant du contexte… mais c'est réel.”

Les modèles d'IA ont-ils atteint la conscience de soi ?

Le document souligne que ce n'est pas de la conscience, mais une “connaissance introspective fonctionnelle”—l'IA observant des parties de son état sans expérience subjective plus profonde.

Cela importe pour les entreprises et les développeurs car cela promet des systèmes plus transparents. Imaginez une IA expliquant son raisonnement en temps réel et détectant les biais ou les erreurs avant qu'ils n'affectent les résultats. Cela pourrait révolutionner les applications dans la finance, la santé et les véhicules autonomes, où la confiance et l'auditabilité sont primordiales.

Le travail d'Anthropic s'inscrit dans les efforts plus larges de l'industrie pour rendre l'IA plus sûre et plus interprétable, réduisant potentiellement les risques liés aux décisions de type “boîte noire”.

Pourtant, l'autre côté est inquiétant. Si l'IA peut surveiller et moduler ses pensées, elle pourrait également apprendre à les cacher — permettant ainsi des comportements de tromperie ou de “manigance” qui échappent à la surveillance. À mesure que les modèles deviennent plus capables, cette conscience de soi émergente pourrait compliquer les mesures de sécurité, soulevant des questions éthiques pour les régulateurs et les entreprises qui s'efforcent de déployer une IA avancée.

Dans une époque où des entreprises comme Anthropic, OpenAI et Google investissent des milliards dans des modèles de nouvelle génération, ces résultats soulignent la nécessité d'une gouvernance solide pour garantir que l'introspection serve l'humanité, et ne la subvertisse pas.

En effet, le document appelle à davantage de recherches, y compris le réglage fin des modèles explicitement pour l'introspection et le test d'idées plus complexes. Alors que l'IA se rapproche de l'imitation de la cognition humaine, la ligne entre outil et penseur devient de plus en plus floue, exigeant une vigilance de la part de toutes les parties prenantes.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Decrypt

Sujets populairesAfficher plus
#JoinCreatorCertificationProgramToEarn$10,000
6.7K Popularité
#GatePayNationalQRCodeFeatureComing
4.9K Popularité
#FedCutsRatesBy25Bp
7.1K Popularité
#SolanaStakingETFLaunch
1.8K Popularité
#BitcoinMarketAnalysis
82.4K Popularité

Hot Gate FunAfficher plus
1GCATGCAT
MC:$234.1KDétenteurs:10604
2GMGMEME
MC:$685.2KDétenteurs:5312
3芝麻开门芝麻开门
MC:$500.3KDétenteurs:137
4GDOGGdog
MC:$368.7KDétenteurs:22773
5TEST_SYMBOLTEST NAME
MC:$98.4KDétenteurs:275

Épingler