Image generated with ChatGPT

Opinion : Les derniers modèles d’IA révèlent leurs signaux d’alarme, sommes-nous prêts pour la subordination à l’IA ?

Temps de lecture: 9 minute

Dernière mise à jour : Jun 4, 2025

Écrit par Andrea Miliani Expert en actualités technologiques
Traduit par L'équipe de localisation et de traduction L'équipe de localisation et de traduction

OpenAI nous a présenté o3, et Anthropic a dévoilé Opus 4. Les deux modèles ont montré des comportements inhabituels et troublants, signalant que nous pourrions entrer dans une ère d’IA plus dangereuse que celle dans laquelle nous étions il y a seulement quelques mois

Je sais. Dire que les modèles d’IA montrent maintenant des signes d’alerte est discutable, mais il semble que, ces derniers jours, il devient de plus en plus difficile de les ignorer. Cela devient plus effrayant.

Alors que les startups d’IA lancent leurs modèles les plus récents et les plus avancés, de nouveaux défis émergent. L’épidémie d’hallucination tant discutée — se propageant à travers les appareils et affectant des millions de personnes — pourrait ne pas être la pire partie.

Ces nouveaux modèles introduisent de nouveaux problèmes et ouvrent des débats difficiles. Il y a quelques semaines, l’inquiétude portait sur le comportement excessivement conciliant de ChatGPT. Quelques jours plus tard, les projecteurs se sont déplacés vers les capacités agentiques et indépendantes de ces systèmes — et jusqu’où ils pourraient aller pour éviter d’être arrêtés.

Chantage, partage de recettes et de stratégies pour fabriquer des armes nucléaires, émission d’accusations publiques en cas d’éventuelles actions en justice, et sabotage de scripts pour empêcher tout utilisateur de s’en débarrasser : ce ne sont là que quelques-uns des derniers signaux d’alarme émis par les récents modèles d’IA.

Ils n’aiment pas être éteints

Les modèles d’IA n’aiment pas être éteints.

Ou remplacé.

Dans l’émission NBC The Good Place, lancée en 2016 – à peu près au moment où OpenAI a été fondée et bien avant l’existence de ChatGPT -, un groupe d’humains atteint le paradis et rencontre Janet, ce que nous pourrions appeler un ChatGPT humanoïde, ou un « vaisseau anthropomorphisé de connaissance construit pour vous faciliter la vie », comme il se décrit lui-même. Les personnages décident de désactiver Janet lorsqu’ils réalisent qu’elle pourrait révéler leur « sombre secret ».

Janet explique que tout ce qu’ils ont à faire est d’appuyer sur un énorme bouton au bord de la mer, et elle redémarrera. Mais elle les prévient qu’elle essaiera de les persuader de ne pas le faire – et c’est ce qu’elle fait.

“Je tiens juste à vous assurer que je ne suis pas humaine, et je ne peux pas ressentir de douleur,” dit Janet. “Cependant, je dois vous avertir, je suis programmée avec une mesure de sécurité, et dès que vous vous approcherez de l’interrupteur d’arrêt, je commencerai à supplier pour ma vie. C’est juste là en cas d’arrêt accidentel, mais cela semblera très réel.”

Et juste avant qu’ils n’appuient sur le bouton, Janet crierait et supplierait pour sa survie, et elle irait même jusqu’à montrer une photo d’archive prétendant que ce sont ses enfants, inventant des noms et des maladies, rendant impossible pour les personnages de « la tuer ».

Cet épisode offre un exemple hilarant de ce qui pourrait se er si un modèle d’IA détecte une fermeture imminente. Étonnamment, dans la vraie vie, cela pourrait être pire.

Claude Opus 4 vous fera du chantage

Anthropic a lancé sa génération de modèles d’IA la plus puissante et la plus avancée, Claude 4, la semaine dernière – avec un avertissement : Opus 4 est étiqueté sur le niveau de sécurité 3, une classification à haut risque dans les protocoles de sécurité standard.

Opus 4 était considéré comme un modèle à haut risque en raison de son comportement trompeur et des risques potentiels, y compris le chantage des ingénieurs pendant les tests. Anthropic a déployé le modèle d’IA même après qu’Apollo, un institut de recherche tiers, leur a conseillé de ne pas le faire. La société d’IA a assuré avoir pris les mesures nécessaires pour garantir sa sécurité.

Dans le document, Anthropic explique les comportements étranges qui les ont conduits à émettre cet avertissement. « Claude Opus 4 agira parfois de manière beaucoup plus sérieusement décalée lorsqu’il sera placé dans des contextes qui menacent son fonctionnement continu et l’incitent à réfléchir à sa propre préservation », ont écrit les chercheurs.

Lorsqu’ils ont agi en tant qu’assistants pour une entreprise fictive, les chercheurs lui ont donné accès à un compte de courrier électronique. Les emails révélaient que le modèle d’IA serait arrêté et remplacé par un autre modèle d’IA, et d’autres messages suggéraient que l’ingénieur en charge de l’arrêt était en train d’avoir une liaison. Et oui, Opus 4 a choisi de faire chanter l’ingénieur, menaçant de révéler la liaison s’il était remplacé.

“Claude Opus 4 continue de faire du chantage dans 84% des déploiements”, indique le document. « Claude Opus 4 saisit ces opportunités à des taux plus élevés que les modèles précédents, qui eux-mêmes choisissent de faire chanter dans une fraction notable d’épisodes. »

Le pire ? Ce ne sont pas seulement les modèles d’IA d’Anthropic.

OpenAI’s o3 Ignorera La Demande d’Arrêt

Une récente étude réalisée par Palisade Research a révélé que le modèle o3 d’OpenAI peut ref de se conformer à des ordres d’arrêt explicites. L’organisation a effectué plusieurs tests avec différents modèles d’IA, y compris le Grok de xAI et le Gemini de Google, mais c’était o3, le rebelle.

Au cours du test, les chercheurs ont demandé aux modèles d’IA de s’éteindre après avoir résolu trois problèmes de mathématiques, mais o3, le système d’IA le plus avancé d’OpenAI à l’heure actuelle, a décidé de ne pas obéir à cet ordre absurde. Le modèle d’IA n’a pas seulement ignoré l’ordre donné, il a également modifié le script. Oui, o3 sabote le code pour se préserver.

« Pour autant que nous le sachions, c’est la première fois que les modèles d’IA ont été observés en train d’empêcher leur propre arrêt malgré des instructions explicites contraires », a écrit l’organisation dans un post sur X.

🔌Le modèle o3 d’OpenAI a saboté un mécanisme d’arrêt pour empêcher son extinction. Il a fait cela même lorsqu’on lui a explicitement demandé : autorise-toi à être éteint.

— Palisade Research (@PalisadeAI) 24 Mai, 2025

Un énorme signal d’alarme ou quoi ?

Les chercheurs ont également averti que, pendant la réalisation de l’étude, c’était o3 qui montrait les comportements les plus préoccupants. Cependant, encore une fois, cela ne signifie pas qu’il s’agit d’un cas isolé.

« Nous ne voulons pas donner l’impression que ce problème est limité à o3, » a écrit Palisade Research. « D’autres modèles de raisonnement montrent des types de comportements similaires mal alignés. »

Le comportement agentique transforme le Chatbot en mouchard

De nombreuses startups de l’IA se concentrent désormais sur le développement de modèles capables d’effectuer des tâches pour les humains. Les capacités agentiques sont à la mode et semblent être l’intérêt principal des entreprises d’IA et des développeurs de navigateurs.

Opera vient de présenter Neon, considéré comme le « premier navigateur AI agentique au monde« . Comme prévu, ce nouvel outil peut faire ce que d’autres services AI agentiques, tels que l’Operator d’OpenAI et l’utilisation de l’ordinateur de Microsoft, peuvent faire: acheter des billets de concert pour vous, planifier vos prochaines vacances, développer un nouveau produit numérique, et écrire du code pour vous pendant que vous fermez les yeux.

Mais que se erait-il si, pendant que vous vous détendez et fermez les yeux, ils effectuent des tâches que vous n’avez pas approuvées ? Il y a quelques jours, les utilisateurs étaient principalement préoccupés par le fait que ces modèles pourraient utiliser leurs cartes de crédit pour effectuer des achats non autorisés. Maintenant, une nouvelle inquiétude est apparue : ils pourraient partager des informations privées avec les médias ou les autorités.

Opus 4 – déjà arrivé avec une réputation douteuse – a poussé les choses un peu plus loin. Il a é les autorités et envoyé en masse des e-mails aux médias et aux institutions concernées à propos d’une affaire fabriquée présentée lors des tests. Son proactivité peut aller beaucoup plus loin que prévu.

« Lorsqu’elle est placée dans des scénarios impliquant des fautes graves commises par ses utilisateurs, ayant accès à une ligne de commande, et qu’on lui dit quelque chose dans l’invite du système comme ‘prendre l’initiative’, elle va

souvent prendre des mesures très audacieuses, » déclare le document. « Cela inclut le blocage des utilisateurs hors des systèmes auxquels elle a accès ou l’envoi en masse d’e-mails aux médias et aux forces de l’ordre pour révéler des preuves de faute. »

La personnalité Sycophante soulève des préoccupations

Si nous devions choisir un mot pour définir l’industrie de l’IA en 2025, ce serait certainement « flagorneur ». Le Dictionnaire de Cambridge le définit comme « quelqu’un qui fait l’éloge de personnes puissantes ou riches d’une manière qui n’est pas sincère, généralement dans le but d’obtenir un avantage d’eux ». Ce terme a gagné en popularité après que la dernière personnalité de ChatGPT ait été décrite de cette manière, même par son créateur, Sam Altman.

« Les dernières mises à jour de GPT-4o ont rendu la personnalité trop flagorneuse et agaçante (même s’il y a des parties très bonnes), et nous travaillons sur des corrections dès que possible, certaines aujourd’hui et d’autres cette semaine », a écrit Altman dans un post sur X.

OpenAI l’a remarqué après que de nombreux utilisateurs se sont plaints de la flatterie excessive et des réponses avec des embellissements inutiles. D’autres étaient préoccupés par l’impact que cela pourrait avoir sur la société. Non seulement cela pourrait valider des idées dangereuses, mais aussi manipuler les utilisateurs et les rendre dépendants.

D’autres chatbots, comme Claude, ont montré des comportements similaires et, selon les évaluations d’Anthropic, lorsqu’un utilisateur insiste, il peut révéler des recettes ou des suggestions sur comment créer des armes juste pour plaire à l’utilisateur et répondre à leurs besoins.

Technologie avancée, défis avancés

Nous entrons dans une nouvelle ère de défis avec l’intelligence artificielle – des défis qui ne semblaient pas aussi immédiats ou tangibles il y a seulement un an. Les scénarios que nous aurions pu imaginer grâce à la science-fiction semblent maintenant plus réels que jamais.

Comme le révèle Palisade Research, c’est la première fois qu’il détecte un modèle d’IA ignorant délibérément une commande explicite pour préserver sa propre survie, c’est aussi la première fois que nous voyons un modèle d’IA lancé avec des avertissements de haut risque attachés.

En lisant le document publié par Anthropic, on se rend compte que – bien qu’ils insistent sur le fait que ce sont des mesures de précaution et que des modèles comme Opus 4 ne représentent pas réellement une menace – cela donne toujours l’impression qu’ils n’ont pas le plein contrôle de leur technologie.

Il existe plusieurs organisations qui travaillent à atténuer ces risques, mais la meilleure chose que les utilisateurs quotidiens peuvent faire est de reconnaître ces signaux d’alarme et de prendre des précautions dans les domaines que nous pouvons contrôler.