Détecter un texte généré par IA : les indices qui ne trompent pas

Ils sont devenus la bête noire des écrivains, traducteurs, scénaristes, correcteurs et autres professeurs en charge de relire les dissertations de leurs étudiants. Tous sont désormais à la recherche du moindre signe qui prouverait qu’un texte a été généré à l’aide d’un prompt glissé dans une intelligence artificielle.

Des outils de détection peu fiables

Pour s’aider dans leur quête, certains se dotent d’outils spécialisés dans la détection de tels textes. Ari Kouts, consultant en innovation et spécialiste de l’intelligence artificielle, prévient pourtant : « La plupart de ces outils ne fonctionnent pas, pour une raison très simple : les textes en question sont, de près ou de loin, basés sur des textes humains, puisque c’est ce sur quoi le modèle est entraîné. » Pour illustrer son propos, le spécialiste précise que « lors de tests, certains détecteurs ont identifié des passages de la Bible comme des textes générés par une IA ».

« Pour un enseignant par exemple, on peut plutôt conseiller de comparer le travail rendu avec les précédents résultats, mais aussi avec le style utilisé dans de précédentes copies, de vérifier d’éventuels changements de manière de faire », ajoute-t-il. Pour s’en sortir, mieux vaut donc connaître les signes qui ne trompent pas.

—

Bannière large Pickt — app de listes de courses collaboratives pour Telegram

Des indices stylistiques qui sautent aux yeux

L’un d’entre eux est devenu le stéréotype de l’écriture générée à l’IA. Le tiret cadratin (à ne pas confondre avec le trait d’union ou le demi-cadratin, plus courts), dont nombre de grands modèles de langage (LLM) raffolent, pullule dans les textes qu’ils génèrent. Déjà parce que ces modèles ont été entraînés sur des textes anglophones, où le cadratin (que l’on appelle « em dash ») est très fréquent. Aussi, parce que ceux-ci cherchent à produire un texte fluide et rythmé, et que le tiret peut donner cette impression de précision ajoutée sans casser la phrase.

Tant et si bien que ce signe de ponctuation, désormais catégorisé comme un tic de l’IA, est désormais évité par nombre d’entre nous : « Beaucoup de gens ont arrêté de l’utiliser, par peur de faire passer leur message pour celui d’une IA », souligne Ari Kouts.

D’autres indices stylistiques peuvent indiquer qu’un texte a été généré par une intelligence artificielle. C’est notamment le cas d’une omniprésence de majuscules. L’expert en IA le souligne : « Des capitales partout, dans chacune des lettres des mots d’un titre par exemple, ou après deux points, peuvent être un signe. » Même chose pour des éléments de ponctuation empruntés au monde anglo-saxon, comme l’absence d’espace entre le dernier mot d’une phrase et un point d’exclamation, ou un point d’interrogation : « En français, ce n’est pas quelque chose d’habituel du tout. »

Une structure très scolaire

Les IA utilisent aussi beaucoup de rythmes ternaires dans leurs formulations : « Cela peut être au sein même d’une phrase, avec trois adjectifs les uns à la suite des autres, ou sous la forme de trois petites phrases, ou de trois exemples pour illustrer un propos. Les modèles d’IA en abusent énormément », explique Ari Kouts. Autre variante : les structures du type « Ce n’est pas cela, mais ceci », permettant de créer artificiellement du contraste.

De manière générale, les intelligences artificielles préféreront toujours des textes très équilibrés, avec une structure et une architecture générale très scolaire : « C’est toujours très construit, on va d’un point A à un point B avec un plan aux sous-sections précises, et des paragraphes qui font la même taille », détaille encore Ari Kouts. Cela donne, souligne l’expert, « ce côté un peu robotique à la construction ».

Dans cette même logique, les IA usent et abusent de connecteurs logiques rendant leurs transitions très lisses, comme « cependant », « par ailleurs », « en outre », ou encore « comme nous l’avons vu ». Le tout donne un effet « un peu lourd », souligne Ari Kouts. L’IA glisse aussi souvent des mots très forts, du type « plongée », « crucial » ou encore « complexe »… « Pour broder, en donnant l’impression de pousser des sujets peu puissants », ajoute le spécialiste de l’intelligence artificielle.

Bannière post-article Pickt — app de listes de courses collaboratives avec illustration familiale

De l’importance de ne pas diaboliser l’IA

Pour autant, le spécialiste exhorte à ne pas diaboliser toute production de l’IA. S’il reconnaît l’importance de pouvoir différencier un texte écrit par un humain et un écrit par une machine, il rappelle la polémique autour de l’autrice japonaise Rie Kudan. Quand elle a remporté le prestigieux prix Akutagawa – l’équivalent du prix Goncourt au Japon – pour son roman La Tour de la compassion de Tokyo, elle a précisé qu’environ 5 % du livre contenait des phrases générées par ChatGPT, parfois reprises mot pour mot, mais intégrées puis retravaillées dans son écriture.

Il s’agit donc, pour lui, de s’interroger sur notre rapport au texte que nous lisons. « Car si un grand nombre de lecteurs plébiscite un roman où l’auteur s’est aidé d’une IA, en quoi cela pose-t-il problème ? Il faut s’interroger sur notre volonté, en tant qu’humain, de continuer à penser que notre créativité est unique, et sur notre rapport au mainstream », argumente Ari Kouts. Il rappelle aussi : « Auparavant, tous les sites aujourd’hui générés par IA étaient écrits par des gens à Madagascar ou à l’autre bout du monde, souvent sous-payés… »