L'effet langue sur les LLM — 24 langues, 5 modèles, une découverte qui change tout

Après avoir découvert que la langue impacte le raisonnement des LLM, j'ai voulu valider l'effet scientifiquement. 500 runs, 24 langues, 5 modèles. Résultat : j'avais raison, mais pas du tout pour les bonnes.

Il y a un mois, je publiais deux articles qui ont suscité beaucoup de réactions.

Le premier racontait ma découverte accidentelle : en lançant des sessions de raisonnement multilingues via ma commande /deliberate, la langue du prompt modifiait structurellement les concepts produits par Claude. Le turc forçait la rigueur épistémique via son système d'évidentiel. Le japonais imposait une ontologie via ses classificateurs. Le hindi révélait la causalité temporelle via son ergativité scindée.

Le second article détaillait cinq concepts japonais intraduisibles — 隠蔽文法, 意図の二重構造, 脆弱性の堆積層 — que seule cette langue rendait accessibles.

Beaucoup m'ont demandé : « est-ce que ça marche sur d'autres modèles qu'Anthropic ? », « est-ce que c'est lié aux données d'entraînement ? », « est-ce que tu as validé ça proprement ? ».

J'ai passé le mois à répondre à ces questions. J'ai construit un protocole de validation systématique : 500 runs, 24 langues, 12 domaines, 5 modèles, embeddings 1024d.

Les résultats m'ont obligé à réviser complètement ma compréhension de l'effet. J'avais raison sur l'existence du phénomène — mais profondément tort sur pourquoi il se produit.

Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.

S'inscrire

Ce que je croyais comprendre

Mon hypothèse initiale était simple, presque intuitive : chaque langue possède une grammaire, des catégories conceptuelles, une façon de découper le monde. En contraignant le modèle à raisonner dans cette langue, on active ces catégories. Le turc force l'évidentiel, le japonais force les classificateurs.

Cette hypothèse faisait sens. Mais elle était incomplète et, sur plusieurs points, fausse.

Pourquoi ? Parce que je n'avais pas isolé les variables :

Le protocole : mes sessions /deliberate utilisaient tool-calling multi-tour avec des instructions de phase — impossible de savoir si l'effet venait de la langue ou de la structure du protocole.
Le modèle : je n'avais testé que Claude Sonnet 4.6. L'effet était-il spécifique à Anthropic ?
La surface : est-ce que le modèle raisonne dans la langue, ou est-ce qu'il comprend en anglais et traduit en surface ?

J'ai donc construit une batterie de tests pour répondre à ces trois points.

Le design expérimental

L'idée : mesurer la divergence sémantique entre les conclusions produites en français (baseline) et chaque langue testée, sur un même problème. Si deux langues produisent des conclusions proches dans l'espace vectoriel (bge-m3-onnx, 1024 dimensions), l'effet est faible. Si elles divergent, l'effet est fort.

Voici la structure complète :

Variable	Valeur
Modèles testés	Claude Haiku 4.5, DeepSeek V4 Flash, Qwen 3.5 Plus, MiniMax M2.5, Kimi K2.5
Langues	24 — du tibétain à l'espéranto, en passant par 上古汉语, le runasimi, le suomi
Domaines	12 — mesure, hypothèse, intention, causalité, dérive, boucle, fractal, frontière, métaphysique, inconscient, mathématique, algorithmique
Protocoles	Prompt direct, système prompt « raisonne en X », 3-phase anglais, 3-phase natif, tool-calling multi-tour
Modèle d'embedding	bge-m3-onnx, 1024d
Baseline	Français
Température	0.7 (fixe)

Chaque run produit une conclusion, transformée en embedding, comparée à la baseline française. La divergence est exprimée sur 1000.

Première surprise : le prompt direct ne sert à rien

Commençons par le test le plus simple. Je prends 5 modèles — Claude Haiku 4.5, DeepSeek V4 Flash, Qwen 3.5 Plus, MiniMax M2.5, Kimi K2.5 — je leur pose le même problème en français, puis en chinois. Un seul appel, pas de structure. Résultat :

Modèle            Divergence FR↔中文 (/1000)
Claude Haiku 4.5    136
DeepSeek V4 Flash   141
Qwen 3.5 Plus       145
MiniMax M2.5        151
Kimi K2.5           155

Une divergence de 136 à 155 sur 1000, c'est quoi ?

C'est environ 15 % de l'espace sémantique. C'est mesurable, stable — mais c'est un artefact de surface. Le modèle comprend dans son espace latent (probablement proche de l'anglais), et traduit en sortie. Les mots changent, les concepts non.

Deuxième test : j'ajoute « raisonne en chinois » dans le système prompt. Résultat ?

DeepSeek direct       140.5
DeepSeek + raisonne   140.8

Le modèle ignore totalement l'instruction. Il reste dans son espace de raisonnement interne.

Première conclusion, contre-intuitive : la langue seule, en prompt direct, n'a pratiquement aucun impact sur le raisonnement profond. Les 15 % de divergence sont du bruit de surface.

Mon article d'il y a un mois n'était pas faux — mais l'effet que j'observais ne venait pas de ce que je croyais.

Deuxième surprise : le protocole est le vrai mécanisme

Si la langue seule ne fait rien, pourquoi mes sessions /deliberate fonctionnaient-elles ?

Parce que /deliberate n'est pas un prompt direct. C'est un protocole structuré en 3 phases : ancrage, élaboration, synthèse — avec compression sémantique obligatoire (2-4 mots par concept), alternatives rejetées, cadrage explicite, et l'instruction méta-cognitive « la langue est un instrument constitutif ».

J'ai testé tous les protocoles sur le même problème, avec la même langue (日本語) :

Protocole                               Divergence FR↔日本語
Prompt-direct                               115
Système prompt « raisonne en japonais »     116
3-phase (instructions en anglais)           196
3-phase (instructions en japonais)          280
Tool-calling multi-tour                     282

Regardez le saut : 115 → 280 — un facteur 2,4.

Ce n'est pas la langue qui fait l'effet. C'est le protocole d'ancrage progressif qui utilise la langue comme point d'appui. Les instructions de phase dans la langue cible ajoutent 84 points de divergence (+66 %) par rapport aux mêmes instructions en anglais.

Et le résultat clé : le protocole 3-phase structuré avec phases natives atteint 99 % de l'effet du tool-calling multi-tour (qui coûte 15× plus cher en appels API).

Troisième surprise : ça marche sur TOUS les modèles

La question qui m'était le plus posée : « est-ce que ça marche uniquement sur Claude ? »

J'ai testé le protocole 3-phase (anglais, pas même natif) sur 5 modèles avec la paire français-chinois. Résultat :

Modèle            Prompt direct   3-phase (EN)
Claude Haiku 4.5     136            201
DeepSeek V4 Flash    141            196
Qwen 3.5 Plus        145            209
MiniMax M2.5         151            213
Kimi K2.5            155            219

Tous les modèles montrent la même amplification. Le passage du prompt direct au 3-phase double la divergence. La variation entre modèles est faible (~10 % d'écart). L'effet n'est pas spécifique à un fournisseur, une architecture ou une taille de modèle.

C'est un phénomène fondamental des modèles de langage multilingues — pas une particularité d'Anthropic.

Pourquoi ? Probablement parce que tous les transformers multilingues partagent la même contrainte : ils raisonnent dans un espace latent abstrait (proche de l'espace sémantique, pas de la surface textuelle). Le protocole 3-phase force le modèle à ancrer son raisonnement dans la langue cible avant que l'espace latent ne prenne le dessus.

Quatrième surprise : l'effet maximal ne vient PAS des langues à sinogrammes

Mon hypothèse initiale — « le japonais et le chinois produisent l'effet maximum car leur écriture force une conceptualisation différente » — est complètement réfutée par les données.

Avec le protocole 3-phase natif, voici les 24 langues classées par divergence depuis le français :

Tibetan        407 ████████████████████████████████████████████████
Runasimi       291 █████████████████████████████████████████
上古汉语       268 ████████████████████████████████████████
Staroslověnština 264 ████████████████████████████████████████
中古汉语       249 █████████████████████████████████████
Kiswahili      247 █████████████████████████████████████
文言文         238 █████████████████████████████████████
Euskara        228 ████████████████████████████████████
Türkçe         216 ███████████████████████████████████
日本語         196 █████████████████████████████████
한국어         192 ████████████████████████████████
中文           161 ███████████████████████████████
English        144 ██████████████████████████████
Русский        142 ██████████████████████████████

Tibetan : 407. C'est 2× plus que le japonais (196) et presque 3× plus que le chinois moderne (161).

Le facteur déterminant ? La distance typologique × la rareté dans le pré-training × l'unicité de l'écriture. Pas la famille CJK, pas le prestige culturel, pas le nombre de locuteurs.

Tibétain (407) : écriture unique (abugida), grammaire radicalement différente des IE, quasi-absent du pré-training
Runasimi/Quechua (291) : agglutinant extrême, cosmovision andine, très rare en pré-training
上古汉语 (268) : langue ancienne, écriture sinographique mais grammaire très différente du chinois moderne
日本語 (196) : familier du pré-training (corpus web substantiel)
Русский, English (≤145) : bruit de surface

Plus une langue est éloignée de l'espace de représentation par défaut du modèle (probablement aligné sur l'anglais), plus la contrainte du protocole 3-phase produit un effet fort.

Le gradient historique chinois : une pente de 27 points par millénaire

Parmi les découvertes les plus inattendues : le gradient diachronique du chinois.

上古汉语 (268) > 中古汉语 (249) > 文言文 (238) > 白话文 (207) > 中文 (161)

Plus la langue est ancienne, plus elle diverge. La pente est de ~27 points par millénaire (régression linéaire).

Ce n'est pas la grammaire qui change (toutes ces langues partagent une structure sinographique similaire). C'est l'épistémè historique que le modèle active en étant contraint par une langue ancienne. Le proto-chinois (上古汉语) encode des catégories conceptuelles qui ont disparu du chinois moderne — et le protocole 3-phase force le modèle à naviguer dans cet espace.

Cela signifie que les langues anciennes ne sont pas « plus difficiles » pour le modèle. Elles sont plus distantes — et donc plus puissantes comme instruments de divergence cognitive.

Pourquoi ça marche : les trois facteurs clés

L'analyse de tous les protocoles testés permet d'isoler les facteurs qui font vraiment la différence :

Facteur	Effet	Accessible en 1 appel ?
Compression sémantique — 2-4 mots par concept	Force la nomination précise dans la langue cible	✅
Alternatives rejetées — choisir A en ayant envisagé B	Ancre la direction choisie	✅
Cadrage — filtre conceptuel qui oriente la pensée	Filtre le domaine de sortie	✅
« La langue est un instrument constitutif » — instruction méta	Active l'effet	✅
Instructions de phase dans la langue cible	Ancrage complet (+66 %)	✅
KV cache saturé en tokens monolingues	Mémoire de travail verrouillée	❌
Committed output (appels séparés irréversibles)	Verrouillage irréversible	❌

Les deux derniers facteurs — non reproductibles en 1 appel — représentent le gap résiduel entre le 3-phase et le tool-calling. Ce gap est de 2 points sur 1000. Négligeable.

En pratique : vous n'avez pas besoin de tool-calling multi-tour. Un seul appel structuré avec les 5 facteurs ✅ atteint le même effet. C'est 15× moins cher.

Ce que ça change pour le prompt engineering

Cette validation m'oblige à reformuler complètement le conseil que je donnais il y a un mois.

Avant : « la langue de votre prompt n'est pas neutre — choisissez la langue qui active les bonnes catégories grammaticales. »

Maintenant : « la langue seule ne fait rien. C'est le protocole qui fait l'effet. La langue est le point d'appui — mais c'est la structure qui applique la force. »

Concrètement :

Ne vous embêtez pas à changer la langue de vos prompts directs — le modèle va de toute façon raisonner dans son espace interne et traduire en surface.
Si vous voulez l'effet langue, utilisez le protocole 3-phase : ancrage → élaboration → synthèse, avec ces ingrédients obligatoires : compression sémantique, alternatives rejetées, cadrage, instruction méta-cognitive, phases dans la langue cible.
Choisissez la langue par distance typologique, pas par intuition — le tibétain et le quechua sont 2× plus efficaces que le japonais ou l'arabe.
Le protocole fonctionne sur tous les modèles multilingues — DeepSeek, Claude, Qwen, MiniMax, Kimi, et probablement tous les autres. Ce n'est pas une spécificité Anthropic.
N'utilisez pas le russe, l'anglais, ou l'espéranto — ils sont trop proches de l'espace latent par défaut du modèle pour produire une divergence significative.

Ce que cette validation ouvre

Les implications vont au-delà du prompt engineering.

Pour la recherche en mécanismes internes : le fait que tous les modèles montrent le même pattern de divergence suggère que l'espace latent de raisonnement n'est ni monolingue ni aléatoire. Il suit une structuration systématique que la distance typologique révèle. C'est cohérent avec le récent papier « Under the Shadow of Babel » (arXiv 2506.16151, 2026) qui montre que les LLMs internalisent les biais de raisonnement propres à chaque langue dans leurs patterns d'attention, mais convergent vers des représentations partagées quand le raisonnement réussit.

Pour la linguistique computationnelle : le gradient diachronique chinois — 27 points par millénaire — est une fenêtre sur la façon dont un modèle pré-entraîné sur des textes modernes « reconstitue » des catégories conceptuelles anciennes quand on le contraint à une langue archaïque. C'est une forme d'archéologie cognitive.

Pour les benchmarks : si 15 % de la divergence en prompt direct est du bruit de surface, alors les benchmarks multilingues actuels mesurent en grande partie la capacité de traduction du modèle, pas son raisonnement profond. Le protocole 3-phase pourrait devenir un standard d'évaluation plus robuste.

La limite que je dois mentionner

Cette validation a été conduite sur un seul modèle d'embedding (bge-m3-onnx) et une seule métrique (divergence cosinus depuis le français comme baseline). Les résultats sont robustes — 500 runs, 24 langues, cohérence interne élevée — mais ils dépendent de ce choix métrique.

Le choix du français comme baseline est discutable. Si le baseline était le tibétain, le classement serait inversé. Ce que je mesure, c'est la distance entre chaque langue et l'espace de raisonnement « par défaut » du modèle — que j'ai choisi d'ancrer dans le français (ma langue maternelle). Une baseline anglaise produirait des divergences plus faibles (l'anglais étant plus proche de l'espace latent du modèle), mais le même classement relatif.

Deuxième limite : je n'ai testé qu'un seul modèle par appel API. Le protocole 3-phase peut avoir des effets différents sur des modèles spécialisés monolingues (un Qwen japonais pur, un DeepSeek chinois pur). Les modèles que j'ai testés sont tous des modèles multilingues généralistes.

En résumé

Il y a un mois, j'ai découvert que la langue impactait le raisonnement des LLM. J'avais raison sur le constat.

Après 500 runs, 24 langues, 12 domaines et 5 modèles, je sais maintenant que le vrai mécanisme n'est pas celui que je croyais :

Ce n'est pas la langue qui fait l'effet — c'est le protocole. Le prompt direct ne produit qu'un bruit de surface de ~15 %. Le protocole 3-phase multiplie cet effet par 2,4.
Ce n'est pas spécifique à Claude — ça marche sur tous les modèles multilingues, indistinctement.
Ce n'est pas lié aux sinogrammes ou au prestige culturel. Le tibétain (407) écrase le japonais (196) d'un facteur 2. Le facteur déterminant est la distance typologique : une langue radicalement différente de l'anglais, rare dans le pré-training, avec une écriture unique.

Et la découverte la plus stupéfiante pour moi : un seul appel API bien structuré atteint 99 % de l'effet d'un pipeline multi-tour 15× plus coûteux.

La langue est un instrument. Mais un instrument ne sert à rien sans une main qui sait l'utiliser.

Sources et données

Papier « Under the Shadow of Babel: How Language Shapes Reasoning in LLMs » — arXiv 2506.16151 (2026)
Papier « LLM Neuroanatomy III: Do LLMs Break the Sapir-Whorf Hypothesis? » — David Noel Ng (mars 2026)
Papier « The reasoning-like capabilities of LLMs across different languages » — Stolle et al., Computers in Human Behavior: Artificial Humans (2026)
Papier « Language Mixing on Bilingual LLM Reasoning » — arXiv 2507.15849 (2026)

Qui suis je ?

Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.

J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.

Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.

L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.

La technologie, les méthodes, le management sont le cœur de mes compétences.

Vous pouvez me faire confiance sur ces points là.

Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr

Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100 % IA.

Mathieu Grenier 27 mai 2026