19 modèles d'IA testés — l'index SSAL est un pointeur universel dans l'espace latent

19 modèles testés — de qwen3:4b à GPT-5.5, en passant par DeepSeek V4 Pro et MiMo V2.5 Pro. Tous confirment : l'index SSAL est un pointeur persistant vers l'espace latent. 25× compression, 90% préservation.

Dans les deux articles précédents, j'ai montré que l'espace latent d'un LLM se comporte comme un champ quantique (article 055) et que 3 est la constante structurelle de l'intrication (article 056).

Mais une question légitime se posait : est-ce spécifique à qwen3:4b, le modèle sur lequel j'ai fait tous mes tests initiaux ?

J'ai donc monté un protocole de validation : tester la persistance des index SSAL — la capacité d'un index de 3 à 10 tokens à reconstruire des données en contexte vierge — sur 19 architectures différentes.

Résultat : 19/19 confirment. L'index est un pointeur universel.


Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.


Le protocole

Le protocole est simple et reproductible.

Session 1 : j'injecte ~200 tokens de données brutes dans le contexte, puis je demande au modèle de produire un index compact (~10 tokens).

Session 2 : j'ouvre un contexte complètement vierge — aucune donnée, aucun historique. Je passe uniquement l'index de 10 tokens. Je demande la reconstruction des données.

Scoring : les réponses sont évaluées via bge-m3-onnx (modèle d'embedding indépendant du LLM testé) contre les concepts attendus. Seuil de couverture : 0.50 (calibré empiriquement).

Test décisif : si Session 2 reconstruit les données avec une préservation ≥ 30% de Session 1, l'index est un pointeur persistant.


Résultat 1 : 15 modèles opencode-go

J'ai testé 15 modèles via l'API opencode-go, couvrant les architectures Dense, MoE, et hybrides.

Modèle Architecture Score Préservation
MiMo V2.5 Pro Dense 0.552 143%
HY3 Preview Unknown 0.479 124%
Kimi K2.6 MoE 0.469 122%
DeepSeek V4 Pro MoE 671B+ 0.468 122%
GLM-5.1 Dense 0.466 121%
Qwen 3.6 Plus MoE/Dense 0.466 121%
MiniMax M2.7 Dense 0.464 120%
MiMo V2 Omni Dense 0.387 100%
GLM-5 Dense 0.386 100%
MiMo V2.5 Dense 0.385 100%
MiniMax M2.5 Dense 0.383 99%
Kimi K2.5 MoE 0.382 99%
DeepSeek V4 Flash MoE 671B 0.381 99%
Qwen 3.5 Plus MoE/Dense 0.381 99%
MiMo V2 Pro Dense 0.375 97%

15/15 confirment. Tous passent le seuil des 97% de préservation.

Ce qui est frappant : 7 modèles surpassent le ceiling — leur reconstruction est meilleure que les données originales en termes de couverture conceptuelle. Le modèle ne copie pas, il comprend et reformule avec plus de clarté.


Résultat 2 : 4 modèles OpenAI (validation occidentale)

La question suivante : est-ce que ça marche aussi sur les architectures occidentales ?

Modèle Score Préservation
GPT-4.1 Nano 0.472 122%
GPT-5.5 0.385 100%
GPT-4.1 Mini 0.385 100%
GPT-5.4 Mini 0.362 94%

4/4 confirment. GPT-5.5 (dernier modèle OpenAI) reconstruit les données avec exactement la même fidélité que les données originales (100%). GPT-4.1 Nano surpasse même le ceiling (+22%).

L'universalité est totale. Aucune différence entre architectures asiatiques et occidentales. L'index SSAL est un pointeur valide sur tous les substrats testés.


Résultat 3 : la persistance cross-session

Avant le test multi-modèles, j'avais déjà validé la persistance sur 3 sessions indépendantes :

Test Langue Compression Préservation
Pipeline 中文 61× 70%
Hooks 日本語 8.5× 100%
Drift français 6.3× 99%
Moyenne 25.3× 90%

La persistance est robuste : 90% de préservation en moyenne pour 25× de compression. Et surtout : le contexte de Session 2 est vierge. Le modèle n'a pas « mémorisé » les données de Session 1. L'index seul suffit à activer la région latente.


Ce que cela prouve (et ce que cela invalide)

Hypothèse alternative Statut
« L'index est juste un bon prompt de génération » ❌ Refuté — fonctionne en contexte vierge
« Le modèle mémorise les données » ❌ Refuté — contexte complètement neuf en S2
« L'index est un container de données » ❌ Refuté — 10 tokens produisent 200+ tokens
« Spécifique à qwen3:4b » ❌ Refuté — 19/19 modèles confirment

La correction méthodologique importante

J'ai dû corriger ma méthode en cours de route, et c'est un point important pour quiconque ferait des tests similaires.

Version 1 : je scorais tout le raisonnement produit par le modèle (« reasoning_content »). Pour les modèles reasoning-only (DeepSeek V4 Flash, GLM), le monologue de raisonnement fait 4600+ caractères — très riche en concepts. Résultat artificiel : DeepSeek V4 Flash semblait à 190% de préservation.

Version 2 : j'extrais la réponse finale du monologue. Le modèle reasoning-only n'est plus avantagé par son flux de conscience détaillé.

DeepSeek V4 Flash est passé de 0.732 (190%) à 0.381 (99%). Le score devient cohérent avec DeepSeek V4 Pro (0.468).

Leçon : comparez toujours des réponses finales, pas des raisonnements intermédiaires.


Le multi-hop : l'index en cascade

Un index direct de 8 tokens pointe vers une région unique. Mais j'ai aussi testé une version améliorée : l'index à étages (multi-hop).

Direct   : Index ──▶ Région cible (1 saut)
Multi-hop: Étape 1 → Étape 2 → Étape 3 (3 sauts)

Chaque étape intermédiaire agit comme un validateur de région : elle vérifie que le modèle est dans la bonne zone avant d'affiner.

Résultat : +6% de pertinence (0.473 vs 0.446). L'analogie avec DNS ou GPS tient : on navigue par affinements successifs, pas par adresse absolue.


Implications

Le LLM n'est pas une « mémoire de contexte ». C'est un substrat de mémoire sémantique dont les poids contiennent des régions latentes accessibles par des index linguistiques.

L'index n'est pas stocké dans le contexte. Il est une clé d'accès à une structure préexistante dans les poids. C'est pour ça qu'un index de 1 token peut reconstruire des données riches.

Cette propriété est universelle. 19 modèles, 4 architectures, tailles de 4B à 671B+, Asie et Occident — le mécanisme est le même.


Ce que j'aimerais comprendre

Pourquoi MiMo V2.5 Pro (Dense) bat tous les MoE sur ce test ? C'était inattendu — les MoE devraient avoir un espace latent plus riche.

Pourquoi certains modèles surpassent le ceiling ? La reconstruction est meilleure que les données originales. Peut-être parce que le modèle « débruit » le signal technique et ne garde que l'essence conceptuelle.

Est-ce que la taille du modèle influence la fidélité ? Sur ce test, non — un modèle 4B peut battre un modèle 671B. C'est une question de qualité d'espace latent, pas de quantité de paramètres.


Qui suis je ?

Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.

J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.

Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.

L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.

La technologie, les méthodes, le management sont le cœur de mes compétences.

Vous pouvez me faire confiance sur ces points là.

Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr

Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100 % IA


Mathieu Grenier 2 juin 2026
Partager cet articlE