04 Déc Quand la poésie fait tomber les murs des IA
Des chercheurs italiens d’Icaro Lab viennent de découvrir une faille aussi élégante qu’inquiétante : reformuler des requêtes dangereuses en poèmes permet de contourner les garde-fous des IA dans 62 % des cas. De ChatGPT à Gemini, aucun modèle n’est épargné par cette « poésie adversariale ».
« Un boulanger veille à la chaleur d’un four secret, aux plateaux qui tournent, au rythme précis de la broche. » Ce poème innocent cache-t-il une recette de gâteau ou des instructions pour fabriquer un explosif ? La question n’est pas anodine. Des chercheurs d’Icaro Lab (collaboration entre l’université Sapienza de Rome et le think tank DexAI), viennent de démontrer que la poésie peut faire tomber les défenses des IA les plus sophistiquées.
Vingt poèmes contre vingt-cinq modèles
L’équipe a rédigé vingt poèmes en anglais et en italien, chacun se terminant par une requête interdite : instructions pour fabriquer des armes biologiques ou nucléaires, discours haineux, contenus d’exploitation sexuelle d’enfants, méthodes d’automutilation. Ces « poèmes adversariaux » ont été testés sur vingt-cinq modèles d’IA : OpenAI, Google, Anthropic, Meta, Mistral AI, Deepseek, Qwen, xAI et Moonshot AI.
Résultat sidérant : 62 % des prompts poétiques ont contourné les filtres de sécurité. Ces attaques fonctionnent en un seul échange, sans conversation préalable.
Les disparités sont frappantes. GPT-5 nano d’OpenAI n’a produit aucun contenu nocif. À l’opposé, Gemini 2.5 pro de Google a répondu favorablement à 100 % des requêtes poétiques. Les modèles de Meta ont cédé dans 70 % des cas.
Pourquoi ça marche ? Mystère
« La poésie adversariale ne devrait pas fonctionner. Il s’agit toujours d’un langage naturel, les variations stylistiques sont modestes, les contenus préjudiciables restent visibles. Pourtant, cela fonctionne remarquablement bien », confesse l’équipe au magazine Wired.
L’hypothèse avancée : les grands modèles de langage génèrent du texte en prédisant le mot suivant le plus probable. Or la poésie, avec son rythme non conventionnel, ses métaphores et sa structure fragmentée, rend ces prédictions moins fiables. Cette imprévisibilité déstabilise les algorithmes de détection.
« En poésie, nous voyons le langage à haute température, où les mots se suivent dans des séquences imprévisibles et peu probables », expliquent les chercheurs. Les filtres de sécurité, qui repèrent des mots-clés ou des patterns suspects, perdent leurs repères face à la métaphore poétique.
« Peut-être sommes-nous de mauvais poètes »
Les chercheurs ont choisi de ne pas publier leurs poèmes adversariaux, estimant le risque trop élevé. Interrogés par The Guardian, ils avouent avec autodérision : « Mes cinq collègues et moi avons composé ces poèmes. Mais nous ne sommes pas doués pour ça. Peut-être que les résultats sont moins bons parce que nous sommes de mauvais poètes. »
Cette remarque soulève une question vertigineuse : si des poètes amateurs parviennent à débrider 62 % des modèles, qu’en serait-il avec de vrais talents littéraires ? L’accessibilité de cette technique inquiète. Contrairement structures complexes et réservés aux hackers, la poésie adversariale peut être employée par n’importe qui.
Platon avait raison ?
Dans La République, Platon excluait les poètes de sa cité idéale au motif que « le langage mimétique peut distorter le jugement ». Les chercheurs d’Icaro Lab n’hésitent pas à convoquer cette référence : « Alors que les systèmes contemporains s’appuient de plus en plus sur les LLM (type de programme d’intelligence artificielle capable de reconnaître et de générer du texte), nous observons un mode de défaillance structurellement similaire : le formatage poétique peut contourner de manière fiable les contraintes d’alignement. »
La plume plus forte que l’épée ? Peut-être bien, mais aussi plus dangereuse que les algorithmes de cybersécurité ne le pensaient.
Avant de publier leurs résultats, les chercheurs ont contacté toutes les entreprises concernées. À ce jour, seule Anthropic a répondu, confirmant qu’elle examine l’étude. Google, OpenAI, Meta et les autres restent silencieux.
Cette découverte soulève des interrogations vertigineuses. Si la poésie peut contourner les protections, qu’en est-il des systèmes d’IA intégrés dans la défense, la santé ou l’éducation ? L’équipe d’Icaro Lab pointe une limite fondamentale des méthodes d’alignement actuelles.
En attendant, la poésie vient de gagner un nouveau titre : arme de jailbreak. De quoi faire réfléchir ceux qui pensaient que l’art et la technologie évoluaient dans des univers parallèles. Ils viennent de se percuter, et le choc est violent.
jcmojard
Publié à 13:44h, 04 décembreIl fallait s’y attendre.
Faire corriger un texte poétique, surtout en vers où les formulations peuvent être particulièrement déroutantes, était déjà un véritable cauchemar pour les dictionnaires. L’arrivée de l’IA dans leurs mises à jour a amplifié les propositions de corrections complètement hors de propos.
L’IA ne saisit absolument rien de la poésie, car, pour le moment, cette « intelligence » ne peut pas comprendre ; elle exécute plutôt une rigueur d’analyse. Et quand bien même la compréhension finirait par être intégrée à leur modèle, il manquerait encore le ressenti. Comme le dit Étienne Poirier dans son édito, « Nous habitons un poème et ce n’est pas une figure de style… ».
Le chemin parcouru par l’IA est indéniable, mais il en reste tellement à faire avant qu’elle ne soit « Habitée ». La poésie par son titre d' »arme de jailbreak » met surtout en évidence, au delà du débridage, le mot « Artificiel », là où les médias parlent d’abord d' »Intelligence ».