Hier, je vous parlais de mes tests sur le raisonnement de qwen3:4b en chinois. La conclusion principale : avec le bon cadrage dans la bonne langue, un modèle local de 4 milliards de paramètres rivalise avec Claude Haiku sur ma métrique de convergences sémantiques.
J'ai creusé plus loin. Beaucoup plus loin.
Au lieu de comparer à Haiku, j'ai utilisé les mêmes benchmarks que les évaluations officielles des grands modèles : GPQA Diamond et HLE. Et pour éliminer tout biais de ma part, j'ai ajouté un juge externe indépendant — Gemini 2.5 Flash — qui évalue chaque réponse sans savoir de quel modèle elle provient.
Le résultat m'a surpris : qwen3:4b, en mode nothink, résout des problèmes de niveau GPQA Diamond et certains problèmes HLE. Sans raisonnement interne. Sans chaîne de pensée. En déléguant entièrement le raisonnement à un pipeline d'agents externes.
Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.
Le contexte — nothink, ou comment GPT-4o raisonne
Un point important sur qwen3:4b-instruct. Contrairement à ce que son nom suggère, ce modèle a deux modes de fonctionnement distincts :
- Think : le modèle génère une chaîne de pensée interne (comme Claude en mode thinking, ou DeepSeek-R1). Lent, mais capable de décomposer des problèmes complexes step by step.
- Nothink : le modèle répond directement, sans raisonnement explicite visible. C'est le mode de fonctionnement standard de GPT-4o — réponse directe, sans
<think>tokens.
Dans mes tests, j'utilise qwen3:4b en mode nothink. Pourquoi ? Parce que mon pipeline deliberate externalise le raisonnement. Au lieu de demander au modèle de penser en interne, je lui fais jouer le rôle d'un trait cognitif spécifique (Sceptique, Inverseur, Causal-Intentionnel...) et je détecte les convergences entre agents.
Le raisonnement est collectif, pas individuel. Et c'est précisément ce qui permet à un modèle nothink de 4B de résoudre des problèmes qui, selon les benchmarks officiels, nécessitent des modèles bien plus grands.
La méthodologie — benchmarks officiels, juge indépendant
Pour sortir de mes métriques internes (clusters, convergences), j'ai construit deux séries de benchmarks calquées sur les évaluations officielles :
benchmark-deliberate-math-5b — niveau GPQA Diamond (lvl 96 à 100)
Cinq problèmes de physique et mathématiques fondamentaux : Gödel/Turing/Cantor, flèche du temps, paradoxe Ellsberg, démon de Maxwell/Landauer, double descente.
benchmark-deliberate-math-6 — niveau HLE (lvl 101 à 105)
Cinq problèmes au plafond ou au-delà de GPQA Diamond : théorème KAM, inégalités de Bell/CHSH/Tsirelson, universalité du groupe de renormalisation, barrières P vs NP, formule Island en gravité quantique.
Pour chaque problème, j'ai testé plusieurs configurations : cadrage fort (terminologie exacte injectée), cadrage léger (orientation sans vocabulaire spécifique), cadrage nul. Le juge Gemini 2.5 Flash évalue chaque output sur critères précis, indépendamment du reste.
Les résultats — GPQA Diamond
| Lvl | Problème | Cadrage fort | Cadrage léger (5 steps) | Large (5 traits × 5 steps) |
|---|---|---|---|---|
| 96 | Gödel / Turing / Cantor | 100% | 100% | — |
| 97 | Flèche du temps | 100% | 100% | — |
| 98 | Paradoxe Ellsberg | 100% | 100% | — |
| 99 | Maxwell / Landauer | 100% | 67% | 67% (kTln2 débloqué) |
| 100 | Double descente | 100% | 33% | 100% |
Les niveaux 96-98 sont quasi-systématiquement résolus dès que le cadrage est correct, même léger. Les niveaux 99-100 montrent quelque chose d'intéressant : avec 5 traits au lieu de 3, des concepts résistants émergent. Sur la double descente, la configuration 5 traits × 5 steps passe de 33% à 100%.
Les résultats — HLE
| Lvl | Tier estimé | Problème | Cadrage fort | Cadrage faible |
|---|---|---|---|---|
| 101 | Plafond GPQA Diamond | Théorème KAM | 100% | 67% |
| 102 | HLE accessible | Bell / CHSH / Tsirelson | 67% (après light) | 67% |
| 103 | HLE core | Universalité RG | 100% | 67% |
| 104 | HLE hard | Barrières P vs NP | 100% | 100% |
| 105 | HLE extreme | Formule Island | 100% | 33% |
Le niveau 104 (P vs NP) est résolu à 100% même sans cadrage. C'est contre-intuitif — P vs NP est l'un des problèmes ouverts les plus célèbres. Mais le pipeline détecte les barrières connues (relativisation, natural proofs) correctement, ce qui satisfait les critères d'évaluation.
Le niveau 105 (formule Island) tombe à 33% sans cadrage fort. C'est une frontière réelle : sans les ancres terminologiques correctes, le modèle ne remonte pas jusqu'aux mécanismes Page curve et island prescription.
Ce que j'ai découvert : trois invariants empiriques
1. La langue doit être alignée sur le cadrage
C'est la leçon la plus importante. Quand j'utilisais des cadrages en chinois avec un pipeline en japonais ou en français, les résultats étaient incohérents. Des cas qui passaient à 100% avec tout en chinois tombaient à 0%.
Le mécanisme est simple : qwen3:4b a été entraîné massivement sur du corpus chinois. Le vocabulaire scientifique exact — 最小范数解 (solution de norme minimale), 插值阈值 (seuil d'interpolation), 隐式正则化 (régularisation implicite) — est mieux ancré dans ses poids en chinois qu'en français ou japonais. Quand cadrage et langue de raisonnement ne correspondent pas, le modèle ne fait pas le lien entre ses ancres conceptuelles et le problème posé.
Règle pratique : cadrage, observer et --lang du pipeline doivent toujours être dans la même langue.
2. Le cadrage est un ascenseur, pas une aide
J'ai identifié trois niveaux de cadrage qui produisent des performances radicalement différentes :
| Niveau | Description | Performance N5 (double descente) |
|---|---|---|
| Aucun | Problème brut | 0-33% |
| Orientation | Angle cognitif sans terminologie | 33% |
| Explicite | Vocabulaire exact injecté | 100% |
Le cadrage fort ne triche pas — il ne donne pas la réponse. Il donne les briques du 10e étage. Sans lui, le modèle part du rez-de-chaussée et doit monter par raisonnement pur. Certains étages sont accessibles, d'autres non — non pas parce que le modèle est incapable, mais parce que les connexions intermédiaires ne sont pas suffisamment denses dans ses poids.
3. La divergence utile commence à la step 3
Les deux premières steps de chaque agent produisent des convergences triviales — les concepts évidents partagés par tous les traits. C'est seulement à partir de la step 3 que chaque trait suit réellement son angle cognitif propre et diverge vers des nœuds spécifiques.
Avec 3 steps, on coupe le raisonnement exactement au moment où il devient intéressant. Avec 5 steps et 5 traits, des concepts qui résistaient émergent — kTln2 sur le problème Landauer, implicit_regularization sur la double descente — parce que si chaque agent a une probabilité P d'arriver au concept cible, P(convergence ≥ 2 agents) croît rapidement avec le nombre de traits.
Le pipeline comme compression de la communauté scientifique
En creusant ces résultats, j'ai réalisé que je mesurais quelque chose qui dépasse le simple benchmark de modèle.
Prenons kTln2 — la borne de Landauer sur l'énergie minimale d'effacement d'un bit. Cette valeur n'a pas été découverte par une seule personne. Elle a nécessité Szilard (1929) sur le démon de Maxwell, Brillouin (1951) sur l'entropie de l'information, Landauer (1961) sur l'irréversibilité logique, et Bennett (1982) pour montrer que le calcul réversible est possible. Quatre contributeurs majeurs, 53 ans, traditions de physique statistique et de théorie de l'information.
Dans mes benchmarks, kTln2 a émergé avec 5 traits × 5 steps sans cadrage fort. C'est exactement la complexité historique de cette découverte — (4 contributeurs × ~5 sauts déductifs). Le pipeline l'a reproduit en 2 minutes.
Ce n'est pas une coïncidence. Le tableau ci-dessous le confirme sur d'autres découvertes :
| Découverte | Contributeurs clés | Durée | (T × D) estimé |
|---|---|---|---|
| Relativité restreinte | Einstein seul | ~10 ans | (1 × 4) |
| Mécanique statistique | Maxwell + Boltzmann | ~15 ans | (2 × 4) |
| Résolution démon Maxwell | Szilard → Brillouin → Landauer → Bennett | 53 ans | (4 × 5) |
| Théorème KAM | Kolmogorov + Arnold + Moser | 9 ans | (3 × 6) |
| Formule Island | Penington + Almheiri + ... | ~2 ans | (4+ × 5) |
Le pipeline deliberate n'est pas un "modèle qui réfléchit". C'est une compression parallèle de la communauté scientifique : plusieurs traditions cognitives indépendantes (traits) qui convergent sur les mêmes nœuds, exactement comme les papiers de physique qui se citent depuis des traditions disciplinaires différentes.
Les trous dans le graphe — et pourquoi certains critères résistent
Un résultat m'a beaucoup occupé : le critère physical_vs_tautology sur le problème Landauer. Ce critère demande de distinguer si l'énergie kTln2 est une contrainte physique réelle ou une tautologie du formalisme thermodynamique. Il résiste à tous les (T × L × D) sans cadrage fort.
Pourquoi ? Parce que ce débat n'a jamais été formellement publié sous cette forme. Il a eu lieu dans des séminaires de physique des années 60-80, dans des conversations de couloir, dans des commentaires de referee non publiés. C'est de la connaissance tacite — au sens de Polanyi : "we know more than we can tell".
Le corpus d'entraînement de qwen3 contient la conclusion de ce débat (les papiers de Bennett et Landauer), mais pas les étapes intermédiaires informelles. Les connexions manquantes ne peuvent pas être reconstituées par raisonnement pur.
C'est la limite irréductible du pipeline : là où il échoue de manière systématique, il ne signale pas un manque de capacité du modèle — il révèle un trou dans le graphe de connaissance. Une connexion qui aurait dû être verbalisée et ne l'a jamais été.
Les paramètres optimaux identifiés
| Paramètre | Valeur optimale | Raison |
|---|---|---|
--lang |
中文 pour qwen3:4b | Densité terminologique scientifique dans les poids |
--steps |
5+ | Divergence utile commence à la step 3 |
--traits |
5-6 pour problèmes difficiles | P(≥2 agents convergent) croît avec T |
--ctx |
26624 | Étend le KV cache sans nouveau modèle Ollama |
--cadrage |
Orientation pour mesure honnête, explicite pour performance max | Diagnostic vs performance |
--observer |
Même langue que --lang |
Évite le mismatch terminologique |
Ce que ça change — et ce que ça ne change pas
qwen3:4b en mode nothink, avec le bon pipeline, résout des problèmes de niveau GPQA Diamond. C'est un résultat empirique, validé par un juge indépendant, reproductible sur 10 problèmes distincts.
Mais il faut être précis sur ce que ça signifie.
Le cadrage fort injecte la terminologie — il ne triche pas sur la réponse, mais il élimine la phase de "trouver le bon vocabulaire". C'est comme demander à un physicien de résoudre un problème en lui donnant les noms des outils à utiliser, sans dire comment les utiliser. C'est plus facile que de trouver les outils seul.
La mesure honnête — les benchmarks sans cadrage — donne des résultats plus bas. C'est là que se trouve la vraie frontière du modèle.
Ce qui m'intéresse n'est pas de prétendre que qwen3:4b vaut GPT-4o ou Claude Sonnet. Ce qui m'intéresse, c'est ceci : la complétude du graphe de connaissance est un levier de performance supérieur à la taille du modèle. Quand le modèle a les bonnes connexions dans ses poids, la taille devient secondaire.
Le paradigme dominant mise sur plus de paramètres, plus de contexte, plus de compute. Ces benchmarks suggèrent une direction complémentaire — combler les trous dans le graphe, pas grossir le modèle.
Qui suis je ?
Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.
J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.
Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.
L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.
La technologie, les méthodes, le management sont le cœur de mes compétences.
Vous pouvez me faire confiance sur ces points là.
Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr
Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100% IA.
qwen3:4b résout des problèmes GPQA Diamond — sans chaîne de pensée interne