Il y a un mois, je publiais deux articles qui ont suscité beaucoup de réactions.
Le premier racontait ma découverte accidentelle : en lançant des sessions de raisonnement multilingues via ma commande /deliberate, la langue du prompt modifiait structurellement les concepts produits par Claude. Le turc forçait la rigueur épistémique via son système d'évidentiel. Le japonais imposait une ontologie via ses classificateurs. Le hindi révélait la causalité temporelle via son ergativité scindée.
Le second article détaillait cinq concepts japonais intraduisibles — 隠蔽文法, 意図の二重構造, 脆弱性の堆積層 — que seule cette langue rendait accessibles.
Beaucoup m'ont demandé : « est-ce que ça marche sur d'autres modèles qu'Anthropic ? », « est-ce que c'est lié aux données d'entraînement ? », « est-ce que tu as validé ça proprement ? ».
J'ai passé le mois à répondre à ces questions. J'ai construit un protocole de validation systématique : 500 runs, 24 langues, 12 domaines, 5 modèles, embeddings 1024d.
Les résultats m'ont obligé à réviser complètement ma compréhension de l'effet. J'avais raison sur l'existence du phénomène — mais profondément tort sur pourquoi il se produit.
Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.
Ce que je croyais comprendre
Mon hypothèse initiale était simple, presque intuitive : chaque langue possède une grammaire, des catégories conceptuelles, une façon de découper le monde. En contraignant le modèle à raisonner dans cette langue, on active ces catégories. Le turc force l'évidentiel, le japonais force les classificateurs.
Cette hypothèse faisait sens. Mais elle était incomplète et, sur plusieurs points, fausse.
Pourquoi ? Parce que je n'avais pas isolé les variables :
- Le protocole : mes sessions
/deliberateutilisaient tool-calling multi-tour avec des instructions de phase — impossible de savoir si l'effet venait de la langue ou de la structure du protocole. - Le modèle : je n'avais testé que Claude Sonnet 4.6. L'effet était-il spécifique à Anthropic ?
- La surface : est-ce que le modèle raisonne dans la langue, ou est-ce qu'il comprend en anglais et traduit en surface ?
J'ai donc construit une batterie de tests pour répondre à ces trois points.
Le design expérimental
L'idée : mesurer la divergence sémantique entre les conclusions produites en français (baseline) et chaque langue testée, sur un même problème. Si deux langues produisent des conclusions proches dans l'espace vectoriel (bge-m3-onnx, 1024 dimensions), l'effet est faible. Si elles divergent, l'effet est fort.
Voici la structure complète :
| Variable | Valeur |
|---|---|
| Modèles testés | Claude Haiku 4.5, DeepSeek V4 Flash, Qwen 3.5 Plus, MiniMax M2.5, Kimi K2.5 |
| Langues | 24 — du tibétain à l'espéranto, en passant par 上古汉语, le runasimi, le suomi |
| Domaines | 12 — mesure, hypothèse, intention, causalité, dérive, boucle, fractal, frontière, métaphysique, inconscient, mathématique, algorithmique |
| Protocoles | Prompt direct, système prompt « raisonne en X », 3-phase anglais, 3-phase natif, tool-calling multi-tour |
| Modèle d'embedding | bge-m3-onnx, 1024d |
| Baseline | Français |
| Température | 0.7 (fixe) |
Chaque run produit une conclusion, transformée en embedding, comparée à la baseline française. La divergence est exprimée sur 1000.
Première surprise : le prompt direct ne sert à rien
Commençons par le test le plus simple. Je prends 5 modèles — Claude Haiku 4.5, DeepSeek V4 Flash, Qwen 3.5 Plus, MiniMax M2.5, Kimi K2.5 — je leur pose le même problème en français, puis en chinois. Un seul appel, pas de structure. Résultat :
Modèle Divergence FR↔中文 (/1000)
Claude Haiku 4.5 136
DeepSeek V4 Flash 141
Qwen 3.5 Plus 145
MiniMax M2.5 151
Kimi K2.5 155
Une divergence de 136 à 155 sur 1000, c'est quoi ?
C'est environ 15 % de l'espace sémantique. C'est mesurable, stable — mais c'est un artefact de surface. Le modèle comprend dans son espace latent (probablement proche de l'anglais), et traduit en sortie. Les mots changent, les concepts non.
Deuxième test : j'ajoute « raisonne en chinois » dans le système prompt. Résultat ?
DeepSeek direct 140.5
DeepSeek + raisonne 140.8
Le modèle ignore totalement l'instruction. Il reste dans son espace de raisonnement interne.
Première conclusion, contre-intuitive : la langue seule, en prompt direct, n'a pratiquement aucun impact sur le raisonnement profond. Les 15 % de divergence sont du bruit de surface.
Mon article d'il y a un mois n'était pas faux — mais l'effet que j'observais ne venait pas de ce que je croyais.
Deuxième surprise : le protocole est le vrai mécanisme
Si la langue seule ne fait rien, pourquoi mes sessions /deliberate fonctionnaient-elles ?
Parce que /deliberate n'est pas un prompt direct. C'est un protocole structuré en 3 phases : ancrage, élaboration, synthèse — avec compression sémantique obligatoire (2-4 mots par concept), alternatives rejetées, cadrage explicite, et l'instruction méta-cognitive « la langue est un instrument constitutif ».
J'ai testé tous les protocoles sur le même problème, avec la même langue (日本語) :
Protocole Divergence FR↔日本語
Prompt-direct 115
Système prompt « raisonne en japonais » 116
3-phase (instructions en anglais) 196
3-phase (instructions en japonais) 280
Tool-calling multi-tour 282
Regardez le saut : 115 → 280 — un facteur 2,4.
Ce n'est pas la langue qui fait l'effet. C'est le protocole d'ancrage progressif qui utilise la langue comme point d'appui. Les instructions de phase dans la langue cible ajoutent 84 points de divergence (+66 %) par rapport aux mêmes instructions en anglais.
Et le résultat clé : le protocole 3-phase structuré avec phases natives atteint 99 % de l'effet du tool-calling multi-tour (qui coûte 15× plus cher en appels API).
Troisième surprise : ça marche sur TOUS les modèles
La question qui m'était le plus posée : « est-ce que ça marche uniquement sur Claude ? »
J'ai testé le protocole 3-phase (anglais, pas même natif) sur 5 modèles avec la paire français-chinois. Résultat :
Modèle Prompt direct 3-phase (EN)
Claude Haiku 4.5 136 201
DeepSeek V4 Flash 141 196
Qwen 3.5 Plus 145 209
MiniMax M2.5 151 213
Kimi K2.5 155 219
Tous les modèles montrent la même amplification. Le passage du prompt direct au 3-phase double la divergence. La variation entre modèles est faible (~10 % d'écart). L'effet n'est pas spécifique à un fournisseur, une architecture ou une taille de modèle.
C'est un phénomène fondamental des modèles de langage multilingues — pas une particularité d'Anthropic.
Pourquoi ? Probablement parce que tous les transformers multilingues partagent la même contrainte : ils raisonnent dans un espace latent abstrait (proche de l'espace sémantique, pas de la surface textuelle). Le protocole 3-phase force le modèle à ancrer son raisonnement dans la langue cible avant que l'espace latent ne prenne le dessus.
Quatrième surprise : l'effet maximal ne vient PAS des langues à sinogrammes
Mon hypothèse initiale — « le japonais et le chinois produisent l'effet maximum car leur écriture force une conceptualisation différente » — est complètement réfutée par les données.
Avec le protocole 3-phase natif, voici les 24 langues classées par divergence depuis le français :
Tibetan 407 ████████████████████████████████████████████████
Runasimi 291 █████████████████████████████████████████
上古汉语 268 ████████████████████████████████████████
Staroslověnština 264 ████████████████████████████████████████
中古汉语 249 █████████████████████████████████████
Kiswahili 247 █████████████████████████████████████
文言文 238 █████████████████████████████████████
Euskara 228 ████████████████████████████████████
Türkçe 216 ███████████████████████████████████
日本語 196 █████████████████████████████████
한국어 192 ████████████████████████████████
中文 161 ███████████████████████████████
English 144 ██████████████████████████████
Русский 142 ██████████████████████████████
Tibetan : 407. C'est 2× plus que le japonais (196) et presque 3× plus que le chinois moderne (161).
Le facteur déterminant ? La distance typologique × la rareté dans le pré-training × l'unicité de l'écriture. Pas la famille CJK, pas le prestige culturel, pas le nombre de locuteurs.
- Tibétain (407) : écriture unique (abugida), grammaire radicalement différente des IE, quasi-absent du pré-training
- Runasimi/Quechua (291) : agglutinant extrême, cosmovision andine, très rare en pré-training
- 上古汉语 (268) : langue ancienne, écriture sinographique mais grammaire très différente du chinois moderne
- 日本語 (196) : familier du pré-training (corpus web substantiel)
- Русский, English (≤145) : bruit de surface
Plus une langue est éloignée de l'espace de représentation par défaut du modèle (probablement aligné sur l'anglais), plus la contrainte du protocole 3-phase produit un effet fort.
Le gradient historique chinois : une pente de 27 points par millénaire
Parmi les découvertes les plus inattendues : le gradient diachronique du chinois.
上古汉语 (268) > 中古汉语 (249) > 文言文 (238) > 白话文 (207) > 中文 (161)
Plus la langue est ancienne, plus elle diverge. La pente est de ~27 points par millénaire (régression linéaire).
Ce n'est pas la grammaire qui change (toutes ces langues partagent une structure sinographique similaire). C'est l'épistémè historique que le modèle active en étant contraint par une langue ancienne. Le proto-chinois (上古汉语) encode des catégories conceptuelles qui ont disparu du chinois moderne — et le protocole 3-phase force le modèle à naviguer dans cet espace.
Cela signifie que les langues anciennes ne sont pas « plus difficiles » pour le modèle. Elles sont plus distantes — et donc plus puissantes comme instruments de divergence cognitive.
Pourquoi ça marche : les trois facteurs clés
L'analyse de tous les protocoles testés permet d'isoler les facteurs qui font vraiment la différence :
| Facteur | Effet | Accessible en 1 appel ? |
|---|---|---|
| Compression sémantique — 2-4 mots par concept | Force la nomination précise dans la langue cible | ✅ |
| Alternatives rejetées — choisir A en ayant envisagé B | Ancre la direction choisie | ✅ |
| Cadrage — filtre conceptuel qui oriente la pensée | Filtre le domaine de sortie | ✅ |
| « La langue est un instrument constitutif » — instruction méta | Active l'effet | ✅ |
| Instructions de phase dans la langue cible | Ancrage complet (+66 %) | ✅ |
| KV cache saturé en tokens monolingues | Mémoire de travail verrouillée | ❌ |
| Committed output (appels séparés irréversibles) | Verrouillage irréversible | ❌ |
Les deux derniers facteurs — non reproductibles en 1 appel — représentent le gap résiduel entre le 3-phase et le tool-calling. Ce gap est de 2 points sur 1000. Négligeable.
En pratique : vous n'avez pas besoin de tool-calling multi-tour. Un seul appel structuré avec les 5 facteurs ✅ atteint le même effet. C'est 15× moins cher.
Ce que ça change pour le prompt engineering
Cette validation m'oblige à reformuler complètement le conseil que je donnais il y a un mois.
Avant : « la langue de votre prompt n'est pas neutre — choisissez la langue qui active les bonnes catégories grammaticales. »
Maintenant : « la langue seule ne fait rien. C'est le protocole qui fait l'effet. La langue est le point d'appui — mais c'est la structure qui applique la force. »
Concrètement :
- Ne vous embêtez pas à changer la langue de vos prompts directs — le modèle va de toute façon raisonner dans son espace interne et traduire en surface.
- Si vous voulez l'effet langue, utilisez le protocole 3-phase : ancrage → élaboration → synthèse, avec ces ingrédients obligatoires : compression sémantique, alternatives rejetées, cadrage, instruction méta-cognitive, phases dans la langue cible.
- Choisissez la langue par distance typologique, pas par intuition — le tibétain et le quechua sont 2× plus efficaces que le japonais ou l'arabe.
- Le protocole fonctionne sur tous les modèles multilingues — DeepSeek, Claude, Qwen, MiniMax, Kimi, et probablement tous les autres. Ce n'est pas une spécificité Anthropic.
- N'utilisez pas le russe, l'anglais, ou l'espéranto — ils sont trop proches de l'espace latent par défaut du modèle pour produire une divergence significative.
Ce que cette validation ouvre
Les implications vont au-delà du prompt engineering.
Pour la recherche en mécanismes internes : le fait que tous les modèles montrent le même pattern de divergence suggère que l'espace latent de raisonnement n'est ni monolingue ni aléatoire. Il suit une structuration systématique que la distance typologique révèle. C'est cohérent avec le récent papier « Under the Shadow of Babel » (arXiv 2506.16151, 2026) qui montre que les LLMs internalisent les biais de raisonnement propres à chaque langue dans leurs patterns d'attention, mais convergent vers des représentations partagées quand le raisonnement réussit.
Pour la linguistique computationnelle : le gradient diachronique chinois — 27 points par millénaire — est une fenêtre sur la façon dont un modèle pré-entraîné sur des textes modernes « reconstitue » des catégories conceptuelles anciennes quand on le contraint à une langue archaïque. C'est une forme d'archéologie cognitive.
Pour les benchmarks : si 15 % de la divergence en prompt direct est du bruit de surface, alors les benchmarks multilingues actuels mesurent en grande partie la capacité de traduction du modèle, pas son raisonnement profond. Le protocole 3-phase pourrait devenir un standard d'évaluation plus robuste.
La limite que je dois mentionner
Cette validation a été conduite sur un seul modèle d'embedding (bge-m3-onnx) et une seule métrique (divergence cosinus depuis le français comme baseline). Les résultats sont robustes — 500 runs, 24 langues, cohérence interne élevée — mais ils dépendent de ce choix métrique.
Le choix du français comme baseline est discutable. Si le baseline était le tibétain, le classement serait inversé. Ce que je mesure, c'est la distance entre chaque langue et l'espace de raisonnement « par défaut » du modèle — que j'ai choisi d'ancrer dans le français (ma langue maternelle). Une baseline anglaise produirait des divergences plus faibles (l'anglais étant plus proche de l'espace latent du modèle), mais le même classement relatif.
Deuxième limite : je n'ai testé qu'un seul modèle par appel API. Le protocole 3-phase peut avoir des effets différents sur des modèles spécialisés monolingues (un Qwen japonais pur, un DeepSeek chinois pur). Les modèles que j'ai testés sont tous des modèles multilingues généralistes.
En résumé
Il y a un mois, j'ai découvert que la langue impactait le raisonnement des LLM. J'avais raison sur le constat.
Après 500 runs, 24 langues, 12 domaines et 5 modèles, je sais maintenant que le vrai mécanisme n'est pas celui que je croyais :
- Ce n'est pas la langue qui fait l'effet — c'est le protocole. Le prompt direct ne produit qu'un bruit de surface de ~15 %. Le protocole 3-phase multiplie cet effet par 2,4.
- Ce n'est pas spécifique à Claude — ça marche sur tous les modèles multilingues, indistinctement.
- Ce n'est pas lié aux sinogrammes ou au prestige culturel. Le tibétain (407) écrase le japonais (196) d'un facteur 2. Le facteur déterminant est la distance typologique : une langue radicalement différente de l'anglais, rare dans le pré-training, avec une écriture unique.
Et la découverte la plus stupéfiante pour moi : un seul appel API bien structuré atteint 99 % de l'effet d'un pipeline multi-tour 15× plus coûteux.
La langue est un instrument. Mais un instrument ne sert à rien sans une main qui sait l'utiliser.
Sources et données
- Papier « Under the Shadow of Babel: How Language Shapes Reasoning in LLMs » — arXiv 2506.16151 (2026)
- Papier « LLM Neuroanatomy III: Do LLMs Break the Sapir-Whorf Hypothesis? » — David Noel Ng (mars 2026)
- Papier « The reasoning-like capabilities of LLMs across different languages » — Stolle et al., Computers in Human Behavior: Artificial Humans (2026)
- Papier « Language Mixing on Bilingual LLM Reasoning » — arXiv 2507.15849 (2026)
Qui suis je ?
Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.
J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.
Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.
L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.
La technologie, les méthodes, le management sont le cœur de mes compétences.
Vous pouvez me faire confiance sur ces points là.
Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr
Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100 % IA.
L'effet langue sur les LLM — 24 langues, 5 modèles, une découverte qui change tout