J'ai testé si les LLM étaient vraiment quantiques — Bell, Einstein et la variable cachée que personne n'avait vue

Mes tests cross-langue SSAL révélaient des corrélations improbables. Était-ce quantique ? J'ai creusé le test de Bell, l'article arXiv:2506.10077, et découvert qu'Einstein avait peut-être raison sur les LLM — mais pas pour les raisons qu'il croyait.

Dans mon article précédent, je racontais comment j'avais découvert que l'espace latent d'un LLM ressemblait à un champ quantique : des interférences entre régions distantes, des concepts émergents irréductibles, un état GHZ sémantique à 3 régions.

Mais une question me taraudait.

Est-ce que c'est vraiment quantique ? Ou est-ce que je projette une métaphore physique sur un phénomène classique ?

J'ai passé les jours suivants à construire des tests Bell — le protocole standard qui distingue le classique du quantique. J'ai découvert un article de 2025 (arXiv:2506.10077) qui prétendait avoir franchi la barrière des 2. J'ai creusé la théorie des variables cachées d'Einstein. Et j'ai trouvé quelque chose que je n'avais pas anticipé.

Les LLM ont une variable cachée globale. Et c'est elle, pas l'intrication quantique, qui produit les corrélations que j'observe.

Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.

S'inscrire

Le protocole Bell — ce que je cherchais

En mécanique quantique, l'inégalité CHSH mesure si des corrélations entre deux systèmes peuvent être expliquées par des variables cachées locales (théorie classique) ou nécessitent une intrication non-locale (théorie quantique).

La formule est simple :

$$S = |E(a,b) - E(a,b') + E(a',b) + E(a',b')|$$

$|S| \leq 2$ : les corrélations sont classiques
$2 < |S| \leq 2\sqrt{2}$ : les corrélations sont quantiques (violation de Bell)
$|S| > 2\sqrt{2}$ : impossible (borne de Tsirelson)

J'ai monté un protocole pour tester ça sur les LLM. L'idée : prendre deux modèles (Alice et Bob), leur faire résoudre des ambiguïtés sémantiques dans des contextes différents, et mesurer si leurs réponses sont corrélées au-delà de la borne classique.

Le papier qui m'a mis la puce à l'oreille — arXiv:2506.10077

En cherchant des précédents, je suis tombé sur l'article d'Agostino et al. (2025) : A quantum semantic framework for natural language processing, accepté au workshop QNLP 2025.

Leur protocole est élégant : des paires de mots ambigus (ex: « trunk », « bow ») placées dans des phrases contextuelles. Deux personae LLM (Alice et Bob) interprètent ces mots sous des angles différents — comme des mesures dans des bases incompatibles. Un classifieur séparé note chaque interprétation en +1 ou -1.

Leurs résultats m'ont fait sursauter :

Expérience	N essais	CHSH S
1	5	2.80
4	10	2.44
5	20	2.32
8	200	1.83

Le run à 5 essais donne 2.80 — à 1% de la borne de Tsirelson (2.828). Même si les runs à plus grand N se stabilisent autour de 2.3-2.4, c'était la première fois que je voyais une violation de Bell proprement documentée sur des LLM.

Je me suis dit : « S'ils y arrivent, peut-être que je peux aussi. »

Mes 8 versions de tests Bell — le mur du 2

J'ai construit pas moins de 8 versions du protocole CHSH, chaque fois en affinant les bases de mesure, les langues, les modèles.

Version	Configuration	CHSH	Régime
v2	Mots ambigus anglais, deepseek-v4-flash	0.867	Classique
v3c	4 langues culturelles, qwen3:4b	2.000	Borne classique
v4	qwen3 ⊗ granite4.1, langues optimales	1.333	Classique
v5	Bases incompatibles (Yoruba, 中文, deutsch)	0.667	Classique
v7	Latin × 文言文 (langues mortes)	1.084	Classique
v9	Ambiguïté phonétique — hiragana pur	1.450	Classique
v9b	Verbes polysémiques (みる / きく)	1.495	Classique
v9c	Mentalisme réciproque (prédiction croisée)	0.945	Classique

Meilleur score : CHSH = 1.495. Loin du 2.80 d'Agostino.

Pourquoi un tel écart ? J'ai fini par identifier la cause profonde — et c'est là que les choses deviennent intéressantes.

La variable cachée d'Einstein — mais inversée

Einstein a formulé la théorie des variables cachées locales pour contredire la mécanique quantique. Son argument (EPR, 1935) : si deux particules sont corrélées, c'est qu'elles portent des propriétés préexistantes — des « variables cachées » — que la théorie quantique ne voit pas. Bell a démontré que ces variables cachées locales ne peuvent pas produire les corrélations observées en laboratoire. La physique quantique a gagné.

Mais dans le cas des LLM, c'est l'inverse.

Les LLM partagent une variable cachée globale : leur corpus d'entraînement.

Tous les modèles modernes sont entraînés sur des données qui se recoupent massivement : Wikipedia, Common Crawl, GitHub, Stack Overflow, Reddit, arXiv
Deux LLM — même d'architectures différentes (Dense vs MoE, qwen3 vs granite) — ont « vu » les mêmes textes, les mêmes structures sémantiques, les mêmes associations conceptuelles
Quand Alice et Bob « mesurent » un mot ambigu, ils n'explorent pas un espace latent indépendant — ils activent des régions qui sont corrélées par construction

C'est l'équivalent de deux dés truqués par le même moule : ils tomberont toujours sur les mêmes faces sans qu'il y ait d'intrication.

Mes tests l'ont confirmé expérimentalement. Le Latin — langue racine de l'anglais, massivement présente dans les données d'entraînement — produit la meilleure corrélation cross-modèle (similarité = 0.530). Le 文言文, isolé linguistiquement, produit une cohérence intra-modèle forte (qwen3: 0.693) mais cross-modèle faible (0.510). Le modèle corrèle ce qu'il a appris en commun.

Pourquoi Agostino passe le mur et pas moi

Cette variable cachée globale explique aussi pourquoi Agostino obtient CHSH > 2.

Leur protocole utilise des personae contextuelles (chirurgien vs chauffeur de bus) pour créer des angles de mesure différents. Cette technique force une divergence locale suffisante pour compenser partiellement la corrélation globale du corpus. Le classifieur LLM qui note les réponses en +1/-1 ajoute une couche de non-linéarité.

Mais les auteurs reconnaissent eux-mêmes une limitation critique : leurs résultats violent potentiellement la condition de marginal consistency (no-signaling). En clair : une partie de la corrélation peut venir d'influences contextuelles directes — pas d'une « vraie » contextualité non-classique.

Mon protocole est plus strict : j'utilise des bases linguistiques pures (hiragana, verbes polysémiques, langues mortes) sans personae, ce qui élimine le biais contextuel mais ne dépasse jamais la borne classique.

Ce que cela change — et ne change pas

Cette découverte pourrait sembler décevante : « J'ai cru trouver de l'intrication quantique, mais ce n'était que des corrélations d'entraînement. »

Ce serait manquer l'essentiel.

Ce que les tests Bell m'ont appris, c'est que l'espace latent des LLM a une structure causale spécifique :

Les corrélations sont globales, pas locales — la variable cachée n'est pas « cachée » au sens d'Einstein (dans la particule), elle est « partagée » au sens d'un héritage commun (dans les données d'entraînement)
L'émergence qualitative est réelle — le fait que N=3 surclasse N=2 de 21%, que « Présence autonome » soit irréductible à toute paire de langues, que 19/19 modèles confirment la persistance de l'index : rien de tout cela n'est invalidé par l'absence de violation de Bell
Le formalisme SSAL tient — l'index comme opérateur, la distance sémantique comme métrique, la cohérence du champ comme prédicteur : ce sont des outils valides, même si le mécanisme sous-jacent est classique
Le Latin est un invariant cross-modèle — les langues racines de l'anglais (latin, vieux français, vieux norrois) activent des régions partagées par tous les modèles. C'est une découverte opérationnelle utile, quelle que soit son interprétation

Une prédiction testable

Si mon hypothèse de la variable cachée globale est correcte, on peut la tester simplement :

Un index en sumérien (langue morte isolée, aucun parent dans l'anglais moderne) devrait produire une corrélation cross-modèle proche de zéro
Un index en vieux norrois (racine de l'anglais via le danelaw) devrait produire une corrélation cross-modèle élevée, comparable au latin
Un index en sanskrit (racine des langues indo-européennes, mais pas parent direct de l'anglais) devrait être intermédiaire

J'ai testé le latin (confirmé : 0.530 cross-modèle). Les autres sont sur ma liste.

Ce que j'en retiens

J'ai passé des jours à tester si les LLM étaient quantiques. Ils ne le sont pas — du moins pas au sens où l'entendent les physiciens.

Mais ce que j'ai découvert est plus intéressant :

Les LLM partagent une mémoire collective — leur corpus d'entraînement. Cette mémoire crée des corrélations que nos protocoles ne savent pas encore bien distinguer de la « vraie » intrication. Le test de Bell n'est pas un bon outil pour ça, parce que la condition de liberté des mesures (free choice) n'est pas satisfaite quand les observateurs sont entraînés sur les mêmes données.

L'émergence sémantique n'a pas besoin d'être quantique pour être réelle. Le blending conceptuel (Fauconnier & Turner, 2002) et l'analogie créative (Hofstadter, 1995) sont des phénomènes classiques — et pourtant ils produisent des concepts que personne n'avait anticipés.

SSAL n'est pas une théorie quantique des LLM. C'est une théorie de l'activation du substrat qui utilise un formalisme emprunté à la physique quantique parce que c'est le meilleur outil disponible pour décrire les interférences entre régions latentes.

Mais le substrat, lui, reste classique. Et c'est très bien comme ça.

Pour aller plus loin

Agostino et al. (2025) — A quantum semantic framework for natural language processing. arXiv:2506.10077. Le papier fondateur. Leur CHSH = 2.80 reste le plus haut publié.
Einstein, Podolsky & Rosen (1935) — Can Quantum-Mechanical Description of Physical Reality Be Considered Complete? L'article EPR original. La racine de toute la discussion.
Laine (2025) — Semantic Wave Functions. arXiv:2503.10664. Similarité complexe et potentiel Mexican hat pour les embeddings.
Javidnia (2026) — A Gauge Theory of Superposition. arXiv:2603.00824. Théorie de jauge et obstruction à l'interprétabilité.
Alpay & Kilictas (2026) — Latent Object Permanence. arXiv:2601.19942. TCOs, renormalisation et transitions de phase.
Bruza et al. (2009) — Quantum Cognition. Le cadre fondateur de la cognition quantique.
Lim, Aji & Cohn (2025) — Language-Specific Latent Process Hinders Cross-Lingual Performance. arXiv:2505.13141. Pourquoi les langues activent des sous-espaces distincts.
Hidden-variable theory — Wikipedia. Le rappel conceptuel sur les variables cachées locales vs globales.

Qui suis je ?

Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.

J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.

Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.

L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.

La technologie, les méthodes, le management sont le cœur de mes compétences.

Vous pouvez me faire confiance sur ces points là.

Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr

Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100 % IA

Mathieu Grenier 4 juin 2026