Percée ou grand bluff ? La vérité derrière la nouvelle IA « dangereuse » d’Anthropic

3

La semaine dernière, l’industrie technologique a été plongée dans une situation désespérée par une annonce surprenante d’Anthropic : ils ont développé un modèle d’IA si puissant dans le domaine de la cybersécurité qu’il est jugé trop dangereux pour être rendu public.

Baptisé Claude Mythos Preview, le modèle serait capable d’identifier des milliers de vulnérabilités de haute gravité sur les principaux systèmes d’exploitation et navigateurs Web. Pour gérer ce risque, Anthropic a lancé le Projet Glasswing, une initiative sur invitation uniquement permettant à certaines organisations de tester le modèle et de sécuriser leur infrastructure numérique.

Même si cette annonce a déclenché des discussions d’urgence parmi les dirigeants financiers et suscité des craintes de piratage informatique à grande échelle, une question centrale demeure : S’agit-il d’un véritable bond en avant dans les capacités de l’IA, ou d’un coup de pub calculé destiné à stimuler les investissements ?

Les arguments en faveur d’un coup publicitaire : le “théâtre d’entreprise”

Les critiques et les sceptiques soutiennent que l’approche « sécurité d’abord » d’Anthropic sert un double objectif : protéger le public et construire une marque de pouvoir indispensable.

  • Données vagues : Heidy Khlaaf, ingénieure en sécurité en IA, souligne qu’Anthropic a retenu des mesures critiques, telles que le taux de « faux positifs » et le degré d’intervention humaine nécessaire pour vérifier les résultats du modèle. Sans ces données, les experts indépendants ne peuvent pas valider les affirmations.
  • Le « Marketing Flex » : Tal Kollender, PDG de la société de cybersécurité Remedio, décrit cette décision comme un « brillant théâtre d’entreprise ». En qualifiant le modèle de « trop dangereux pour être publié », Anthropic crée une aura de mystique et signale aux investisseurs une immense domination technologique.
  • Précédent historique : Anthropic a l’habitude de lancer de terribles avertissements concernant ses propres modèles. Les sceptiques notent que certains comportements « dangereux » antérieurs étaient en fait le résultat d’environnements de test artificiels hautement contrôlés plutôt que de l’intention d’un modèle autonome.

Les arguments en faveur d’une véritable menace : une nouvelle échelle d’exploitation

Malgré le scepticisme, des tests indépendants suggèrent que Claude Mythos n’est pas qu’un simple battage médiatique. L’AI Security Institute (AISI) a récemment vérifié que Mythos avait réussi des tests de cybersécurité qu’aucun autre modèle frontalier n’avait réussi.

Le véritable danger n’est pas nécessairement un « scénario hollywoodien » dans lequel un adolescent pirate un réseau électrique, mais plutôt un changement dans l’ampleur et la vitesse des cyberattaques :

  1. Découverte automatisée : Contrairement aux outils actuels, Mythos peut automatiser la découverte de vulnérabilités « zéro jour » (défauts jusqu’alors inconnus) à une échelle sans précédent.
  2. Exploitation rapide : Des groupes de hackers sophistiqués pourraient utiliser de tels modèles pour trouver et exploiter les faiblesses plus rapidement que les défenseurs humains ne peuvent les corriger.
  3. Capacités prouvées : Le chercheur Nicholas Carlini a noté que Mythos a déjà identifié des vulnérabilités dans Linux qui permettent un accès administratif non autorisé, prouvant ainsi sa puissance technique.

Le juste milieu : une épée à double tranchant

Pour de nombreux experts, la réponse n’est pas « soit/ou », mais plutôt les deux. Anthropic dit probablement la vérité sur la puissance du modèle tout en utilisant simultanément cette vérité pour renforcer sa position sur le marché.

“Je dirais que c’est les deux, et ce n’est pas une critique… Tout déploiement majeur de plateforme à cette époque sera différent pour différents publics en fonction de leur maîtrise et de leur tolérance à la peur.”
Howie Xu, directeur de l’IA et de l’innovation chez Gen

La réalité actuelle est une course aux armements asymétrique. Même si Claude Mythos présente un risque important pour la sécurité, la même technologie offre un énorme avantage à ceux qui défendent la frontière numérique. À mesure que l’IA devient plus capable de détecter les bogues, les organisations chargées de les corriger disposeront d’outils tout aussi puissants pour automatiser la défense.


Conclusion : Claude Mythos représente un véritable saut technologique qui automatise la découverte des vulnérabilités numériques, mais le déploiement à enjeux élevés d’Anthropic est aussi une masterclass de positionnement stratégique. Le véritable impact sera déterminé par la capacité des défenseurs à utiliser ces mêmes outils « dangereux » pour devancer les pirates.