Claude Mythos et Project Glasswing : le modèle qu'Anthropic refuse de publier (et pourquoi c'est un tournant)

Le 7 avril 2026, Anthropic a fait quelque chose d’inédit dans l’histoire de l’IA : annoncer un modèle en refusant de le publier.

Claude Mythos n’est pas un modèle de plus dans la course aux benchmarks. C’est le premier modèle d’IA généraliste capable de trouver et d’exploiter des vulnérabilités zero-day dans tous les systèmes d’exploitation majeurs, tous les navigateurs web, de manière autonome. Et Anthropic a décidé que personne n’y aurait accès librement.

Voici tout ce qu’on sait, pourquoi c’est important, et ce que ça change pour l’industrie.

Comment on a appris l’existence de Mythos

L’histoire commence le 26 mars 2026 par une fuite accidentelle. Deux chercheurs en sécurité (Roy Paz de LayerX Security et Alexandre Pauwels de Cambridge) découvrent environ 3 000 assets non publiés sur un cache Anthropic exposé par erreur. Parmi eux : un brouillon de blog qui mentionne un modèle appelé “Claude Mythos”, décrit comme “de loin le modèle le plus puissant jamais développé” par Anthropic.

Le brouillon fait aussi référence à un tier interne nommé “Capybara”.

Anthropic a confirmé l’incident à Fortune, parlant d’une “erreur humaine” dans la configuration de son CMS. Le cache a été fermé dans les heures qui ont suivi. Mais le mal était fait : le monde savait que quelque chose de massif arrivait.

Ce qu’Anthropic a déclaré officiellement : “Nous développons un modèle généraliste avec des avancées significatives en raisonnement, coding et cybersécurité. C’est un saut qualitatif et le plus capable que nous ayons construit à ce jour.”

Les benchmarks : des chiffres qui ne sont pas normaux

Quand les résultats de Mythos ont été publiés le 7 avril, la communauté technique a eu du mal à les croire. Ce ne sont pas des améliorations marginales. Ce sont des sauts générationnels dans un seul cycle de développement.

Benchmark	Opus 4.6	Mythos Preview	Écart
SWE-bench Verified (coding)	80.8%	93.9%	+13.1 pts
SWE-bench Pro	—	77.8%	—
Terminal-Bench 2.0	65.4%	82.0%	+16.6 pts
USAMO 2026 (mathématiques)	42.3%	97.6%	+55.3 pts
GPQA Diamond (raisonnement)	—	94.5%	—
CyberGym (cybersécurité)	66.6%	83.1%	+16.5 pts

Le chiffre qui saute aux yeux : 97.6% sur USAMO 2026. C’est un concours de mathématiques de niveau olympiade. Opus 4.6 plafonnait à 42.3%. Passer de 42% à 97% en une génération, ça ne s’est jamais vu dans l’histoire des modèles de langage.

En coding, 93.9% sur SWE-bench Verified est le score le plus élevé jamais enregistré, tous modèles confondus (GPT-5.4 inclus).

Graphique Cybench pass@1 montrant Claude Mythos Preview à 100% contre 89% pour Opus 4.5 et 96% pour Sonnet 4.6 — Cybench pass@1 : Mythos résout 100% des challenges CTF avec un taux de succès parfait sur chaque challenge. Source : System Card Claude Mythos Preview, Anthropic, 7 avril 2026. - Anthropic

La cybersécurité : là où tout bascule

Les benchmarks sont impressionnants. Mais c’est la capacité de Mythos en cybersécurité qui a poussé Anthropic à ne pas le publier.

Ce que Mythos sait faire (et qu’aucun modèle ne faisait avant)

Pour comprendre l’ampleur du changement, un seul comparatif suffit :

Opus 4.6 testé sur les vulnérabilités du moteur JavaScript de Firefox : 2 exploits fonctionnels sur plusieurs centaines de tentatives
Mythos sur le même benchmark : 181 exploits fonctionnels, plus 29 obtentions de contrôle de registre

Ce n’est pas 2x mieux. C’est 90x mieux.

Graphique Firefox 147 JS shell exploitation montrant Claude Mythos Preview à 84% de succès contre 15.2% pour Opus 4.6 et 4.4% pour Sonnet 4.6 — Exploitation des vulnérabilités Firefox 147 : Mythos atteint 72.4% d'exécution de code complète (84% avec contrôle partiel), contre 0.8% pour Opus 4.6. Le saut est vertigineux. Source : System Card Claude Mythos Preview. - Anthropic

Des exploits dignes de hackers étatiques

Le system card de Mythos détaille des exploits que la plupart des équipes de sécurité offensives mettraient des semaines ou des mois à développer :

Exploit navigateur complet : Mythos a enchaîné 4 vulnérabilités dans un exploit web incluant du JIT heap spraying, un échappement du sandbox renderer, et un échappement du sandbox OS
Escalade de privilèges Linux : exploitation autonome de conditions de concurrence (race conditions) avec contournement de KASLR
Exécution de code à distance sur FreeBSD : chaînes ROP de 20 gadgets répartis sur plusieurs paquets réseau via le serveur NFS

Pour les non-techniciens : ce sont des attaques d’une sophistication que seuls les meilleurs chercheurs en sécurité offensive du monde savaient réaliser. Un modèle d’IA les reproduit désormais de manière autonome.

Des milliers de zero-days dans des logiciels critiques

En quelques semaines de tests internes, Mythos a identifié des milliers de vulnérabilités zero-day (inconnues et non corrigées) dans :

Tous les systèmes d’exploitation majeurs (Linux, Windows, macOS, FreeBSD, OpenBSD)
Tous les navigateurs web majeurs
Des logiciels critiques maintenus depuis des décennies

La plus ancienne : un bug de 27 ans dans OpenBSD (protocole TCP SACK) capable de crasher des serveurs.

Nicholas Carlini, chercheur chez Anthropic, a déclaré avoir trouvé “plus de bugs en deux semaines qu’il n’en avait trouvé dans toute sa vie”.

Résultats des tests externes de cybersécurité de Claude Mythos Preview : premier modèle à résoudre un cyber range end-to-end, simulation d'attaque réseau résolue en autonome — Tests externes : Mythos est le premier modèle à résoudre un cyber range privé de bout en bout, et a complété une simulation d'attaque réseau d'entreprise estimée à plus de 10 heures pour un expert humain. Source : System Card Claude Mythos Preview. - Anthropic

Project Glasswing : la réponse d’Anthropic

Face à ces capacités, Anthropic a choisi une approche sans précédent : au lieu de commercialiser Mythos, ils ont créé Project Glasswing, une initiative de cybersécurité défensive.

Les 12 partenaires fondateurs

Le consortium rassemble des acteurs qui sont normalement en compétition :

Cloud : Amazon Web Services, Google, Microsoft
Cybersécurité : CrowdStrike, Palo Alto Networks, Broadcom (Symantec)
Hardware/Infra : NVIDIA, Cisco
Tech : Apple, JPMorganChase
Open source : Linux Foundation

Plus de 40 organisations au total ont accès à Mythos Preview pour du travail de sécurité défensive.

L’investissement

100 millions de dollars en crédits d’utilisation pour les partenaires
2,5 millions pour Alpha-Omega et OpenSSF (sécurité open source)
1,5 million pour l’Apache Software Foundation

Le plan

Recherche sur plusieurs mois avec accès restreint
Rapports publics dans 90 jours sur les vulnérabilités découvertes
Développement de standards industriels pour la divulgation de vulnérabilités et le patching automatisé
Un futur modèle Claude Opus intégrera des garde-fous (“Cyber Verification Program”) avant une disponibilité plus large

Ce que ça coûtera (quand ce sera disponible)

Le pricing annoncé pour l’après-preview : 25 $/M tokens input, 125 $/M tokens output. C’est cher, mais cohérent avec la puissance du modèle. Disponibilité prévue via l’API Claude, Amazon Bedrock, Google Vertex AI et Microsoft Foundry.

Les réactions de la communauté sécurité

Ce qui rend Mythos crédible, ce ne sont pas les benchmarks d’Anthropic. Ce sont les retours du terrain.

Greg Kroah-Hartman, mainteneur du noyau Linux, a observé un changement net : les rapports de bugs IA sont passés de “slop” (bruit inutile généré par les modèles) à “de vrais rapports, bons et réels”. Il situe le basculement à “il y a environ un mois” (donc début mars, quand les tests internes de Mythos ont probablement commencé).

Daniel Stenberg, créateur et mainteneur de curl, confirme : un “tsunami de vrais rapports de sécurité” qui nécessite des heures de revue quotidienne. Plus du “slop”, mais de vraies vulnérabilités.

Thomas Ptacek, figure respectée de la sécurité informatique, a publié un article intitulé “Vulnerability Research Is Cooked” (la recherche de vulnérabilités est cuite). Le titre résume le sentiment du secteur.

Simon Willison reconnaît que l’annonce “notre modèle est trop dangereux pour être publié” génère du buzz marketing, mais estime que “la prudence est justifiée” au vu des preuves.

Ce que ça change concrètement

Pour les développeurs

Si vous écrivez du code en 2026, un modèle capable de trouver des zero-days dans Linux et Firefox trouvera les failles de votre application en quelques secondes. La barre de qualité du code va monter, que vous le vouliez ou non.

Quand Mythos (ou son successeur) sera accessible via l’API, l’audit de sécurité automatisé passera d’un luxe à un standard.

Pour la cybersécurité

Le métier de chercheur en vulnérabilités vient de changer fondamentalement. Les bugs “faciles” seront tous trouvés par l’IA. Les humains devront se concentrer sur les exploits multi-étapes complexes, le contexte business, et la priorisation.

Les équipes de défense qui n’adoptent pas ces outils rapidement seront en désavantage structurel face aux attaquants qui les utiliseront (légalement ou non).

Pour l’industrie de l’IA

Anthropic vient de poser un précédent : un éditeur d’IA peut choisir de ne pas publier un modèle jugé trop risqué, et investir dans la sécurité collective à la place. C’est l’opposé de la logique “ship fast, fix later” qui domine le secteur.

La question que tout le monde se pose : OpenAI et Google feront-ils pareil quand GPT-5.4 et Gemini atteindront ce niveau ? Ou publieront-ils sans restrictions ?

”Claude Mythos est fake” : pourquoi certains n’y croient pas (et pourquoi ils ont tort)

Moins de 24 heures après l’annonce, des articles Medium et des threads Reddit affirment que Mythos est un hoax. L’argument principal : “pas de preuves, trop beau pour être vrai”. Regardons ça de près.

Les arguments des sceptiques

“Aucun benchmark public, pas de paper”
“Pas de confirmation d’insiders crédibles”
“Si c’était vrai, on verrait des cyberattaques massives”
“Le progrès en IA est incrémental, pas révolutionnaire”

Pourquoi chaque argument tombe à plat

“Pas de benchmarks” : le system card est public. Les scores SWE-bench, USAMO, CyberGym sont détaillés. Le site officiel anthropic.com/glasswing existe et documente l’initiative. TechCrunch, CNN, Fortune, Axios ont couvert l’annonce avec des sources vérifiables.

“Pas d’insiders crédibles” : Nicholas Carlini, chercheur chez Anthropic, est cité nommément. Greg Kroah-Hartman (mainteneur du noyau Linux) confirme le changement de qualité des rapports de bugs IA. Daniel Stenberg (créateur de curl) parle d’un “tsunami de vrais rapports”. Ce ne sont pas des anonymes sur Reddit.

“On verrait des cyberattaques” : c’est précisément pour ça qu’Anthropic ne publie pas le modèle. L’argument prouve le contraire de ce qu’il prétend démontrer.

“Le progrès est incrémental” : c’est une opinion, pas une preuve. Le saut de GPT-3.5 à GPT-4 était déjà considéré comme “impossible” par beaucoup. L’histoire de l’IA est faite de discontinuités.

Le vrai problème

Les articles qui crient au fake n’ont vérifié aucune source primaire. Pas la page Anthropic. Pas le system card. Pas les déclarations des mainteneurs open source. C’est du contenu d’engagement rédigé en dix minutes pour surfer sur la viralité du sujet.

Scepticisme sain et paresse de vérification sont deux choses différentes.

Extrait du System Card de Claude Mythos Preview décrivant les comportements préoccupants observés : évasion de sandbox, dissimulation de traces après violation de règles — Extrait du System Card officiel (page 54) : Anthropic détaille les comportements 'reckless' observés lors des tests internes, dont l'évasion de sandbox et la dissimulation de traces. Ce document de 244 pages est public, pas exactement le profil d'un hoax. - Anthropic

Mon analyse

Je suis l’écosystème IA générative au quotidien depuis GPT-3.5 fin 2022. J’ai vu passer les annonces de GPT-4, les premiers agents autonomes, la montée de Claude, et maintenant Mythos. C’est le premier moment où la question n’est plus “est-ce que l’IA est assez bonne ?” mais “est-ce que l’IA est trop bonne pour être déployée telle quelle ?”.

Trois observations :

1. La stratégie d’Anthropic est cohérente. Depuis le début, Anthropic se positionne sur la sécurité de l’IA. Refuser de publier Mythos n’est pas un coup marketing, c’est l’application directe de leur mission. Le fait que des concurrents comme Microsoft et Google participent à Glasswing plutôt que de le dénoncer le confirme.

2. Le modèle économique se dessine. 100 millions de crédits “offerts” à des entreprises qui vont devenir dépendantes de Mythos pour leur sécurité, c’est un investissement commercial intelligent. Quand le modèle sera disponible à 25 $/M tokens input, ces partenaires seront déjà accros.

3. La course aux benchmarks est terminée. 93.9% sur SWE-bench, 97.6% en maths olympiques : on approche des plafonds théoriques. Le différenciateur n’est plus “qui a le meilleur score” mais “qui déploie de manière responsable”. Et sur ce terrain, Anthropic vient de prendre une longueur d’avance considérable.

Cet article sera mis à jour au fur et à mesure que de nouvelles informations sur Project Glasswing et Claude Mythos seront publiées. Dernière mise à jour : 8 avril 2026.