qwen3:4b résout des problèmes GPQA Diamond — sans chaîne de pensée interne

qwen3:4b-instruct en mode nothink, piloté par un pipeline multi-agents, résout des problèmes de niveau GPQA Diamond et HLE. Résultats empiriques avec juge Gemini 2.5 Flash indépendant.

Hier, je vous parlais de mes tests sur le raisonnement de qwen3:4b en chinois. La conclusion principale : avec le bon cadrage dans la bonne langue, un modèle local de 4 milliards de paramètres rivalise avec Claude Haiku sur ma métrique de convergences sémantiques.

J'ai creusé plus loin. Beaucoup plus loin.

Au lieu de comparer à Haiku, j'ai utilisé les mêmes benchmarks que les évaluations officielles des grands modèles : GPQA Diamond et HLE. Et pour éliminer tout biais de ma part, j'ai ajouté un juge externe indépendant — Gemini 2.5 Flash — qui évalue chaque réponse sans savoir de quel modèle elle provient.

Le résultat m'a surpris : qwen3:4b, en mode nothink, résout des problèmes de niveau GPQA Diamond et certains problèmes HLE. Sans raisonnement interne. Sans chaîne de pensée. En déléguant entièrement le raisonnement à un pipeline d'agents externes.

Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.

S'inscrire

Le contexte — nothink, ou comment GPT-4o raisonne

Un point important sur qwen3:4b-instruct. Contrairement à ce que son nom suggère, ce modèle a deux modes de fonctionnement distincts :

Think : le modèle génère une chaîne de pensée interne (comme Claude en mode thinking, ou DeepSeek-R1). Lent, mais capable de décomposer des problèmes complexes step by step.
Nothink : le modèle répond directement, sans raisonnement explicite visible. C'est le mode de fonctionnement standard de GPT-4o — réponse directe, sans <think> tokens.

Dans mes tests, j'utilise qwen3:4b en mode nothink. Pourquoi ? Parce que mon pipeline deliberate externalise le raisonnement. Au lieu de demander au modèle de penser en interne, je lui fais jouer le rôle d'un trait cognitif spécifique (Sceptique, Inverseur, Causal-Intentionnel...) et je détecte les convergences entre agents.

Le raisonnement est collectif, pas individuel. Et c'est précisément ce qui permet à un modèle nothink de 4B de résoudre des problèmes qui, selon les benchmarks officiels, nécessitent des modèles bien plus grands.

La méthodologie — benchmarks officiels, juge indépendant

Pour sortir de mes métriques internes (clusters, convergences), j'ai construit deux séries de benchmarks calquées sur les évaluations officielles :

benchmark-deliberate-math-5b — niveau GPQA Diamond (lvl 96 à 100)
Cinq problèmes de physique et mathématiques fondamentaux : Gödel/Turing/Cantor, flèche du temps, paradoxe Ellsberg, démon de Maxwell/Landauer, double descente.

benchmark-deliberate-math-6 — niveau HLE (lvl 101 à 105)
Cinq problèmes au plafond ou au-delà de GPQA Diamond : théorème KAM, inégalités de Bell/CHSH/Tsirelson, universalité du groupe de renormalisation, barrières P vs NP, formule Island en gravité quantique.

Pour chaque problème, j'ai testé plusieurs configurations : cadrage fort (terminologie exacte injectée), cadrage léger (orientation sans vocabulaire spécifique), cadrage nul. Le juge Gemini 2.5 Flash évalue chaque output sur critères précis, indépendamment du reste.

Les résultats — GPQA Diamond

Lvl	Problème	Cadrage fort	Cadrage léger (5 steps)	Large (5 traits × 5 steps)
96	Gödel / Turing / Cantor	100%	100%	—
97	Flèche du temps	100%	100%	—
98	Paradoxe Ellsberg	100%	100%	—
99	Maxwell / Landauer	100%	67%	67% (`kTln2` débloqué)
100	Double descente	100%	33%	100%

Les niveaux 96-98 sont quasi-systématiquement résolus dès que le cadrage est correct, même léger. Les niveaux 99-100 montrent quelque chose d'intéressant : avec 5 traits au lieu de 3, des concepts résistants émergent. Sur la double descente, la configuration 5 traits × 5 steps passe de 33% à 100%.

Les résultats — HLE

Lvl	Tier estimé	Problème	Cadrage fort	Cadrage faible
101	Plafond GPQA Diamond	Théorème KAM	100%	67%
102	HLE accessible	Bell / CHSH / Tsirelson	67% (après light)	67%
103	HLE core	Universalité RG	100%	67%
104	HLE hard	Barrières P vs NP	100%	100%
105	HLE extreme	Formule Island	100%	33%

Le niveau 104 (P vs NP) est résolu à 100% même sans cadrage. C'est contre-intuitif — P vs NP est l'un des problèmes ouverts les plus célèbres. Mais le pipeline détecte les barrières connues (relativisation, natural proofs) correctement, ce qui satisfait les critères d'évaluation.

Le niveau 105 (formule Island) tombe à 33% sans cadrage fort. C'est une frontière réelle : sans les ancres terminologiques correctes, le modèle ne remonte pas jusqu'aux mécanismes Page curve et island prescription.

Ce que j'ai découvert : trois invariants empiriques

1. La langue doit être alignée sur le cadrage

C'est la leçon la plus importante. Quand j'utilisais des cadrages en chinois avec un pipeline en japonais ou en français, les résultats étaient incohérents. Des cas qui passaient à 100% avec tout en chinois tombaient à 0%.

Le mécanisme est simple : qwen3:4b a été entraîné massivement sur du corpus chinois. Le vocabulaire scientifique exact — 最小范数解 (solution de norme minimale), 插值阈值 (seuil d'interpolation), 隐式正则化 (régularisation implicite) — est mieux ancré dans ses poids en chinois qu'en français ou japonais. Quand cadrage et langue de raisonnement ne correspondent pas, le modèle ne fait pas le lien entre ses ancres conceptuelles et le problème posé.

Règle pratique : cadrage, observer et --lang du pipeline doivent toujours être dans la même langue.

2. Le cadrage est un ascenseur, pas une aide

J'ai identifié trois niveaux de cadrage qui produisent des performances radicalement différentes :

Niveau	Description	Performance N5 (double descente)
Aucun	Problème brut	0-33%
Orientation	Angle cognitif sans terminologie	33%
Explicite	Vocabulaire exact injecté	100%

Le cadrage fort ne triche pas — il ne donne pas la réponse. Il donne les briques du 10e étage. Sans lui, le modèle part du rez-de-chaussée et doit monter par raisonnement pur. Certains étages sont accessibles, d'autres non — non pas parce que le modèle est incapable, mais parce que les connexions intermédiaires ne sont pas suffisamment denses dans ses poids.

3. La divergence utile commence à la step 3

Les deux premières steps de chaque agent produisent des convergences triviales — les concepts évidents partagés par tous les traits. C'est seulement à partir de la step 3 que chaque trait suit réellement son angle cognitif propre et diverge vers des nœuds spécifiques.

Avec 3 steps, on coupe le raisonnement exactement au moment où il devient intéressant. Avec 5 steps et 5 traits, des concepts qui résistaient émergent — kTln2 sur le problème Landauer, implicit_regularization sur la double descente — parce que si chaque agent a une probabilité P d'arriver au concept cible, P(convergence ≥ 2 agents) croît rapidement avec le nombre de traits.

Le pipeline comme compression de la communauté scientifique

En creusant ces résultats, j'ai réalisé que je mesurais quelque chose qui dépasse le simple benchmark de modèle.

Prenons kTln2 — la borne de Landauer sur l'énergie minimale d'effacement d'un bit. Cette valeur n'a pas été découverte par une seule personne. Elle a nécessité Szilard (1929) sur le démon de Maxwell, Brillouin (1951) sur l'entropie de l'information, Landauer (1961) sur l'irréversibilité logique, et Bennett (1982) pour montrer que le calcul réversible est possible. Quatre contributeurs majeurs, 53 ans, traditions de physique statistique et de théorie de l'information.

Dans mes benchmarks, kTln2 a émergé avec 5 traits × 5 steps sans cadrage fort. C'est exactement la complexité historique de cette découverte — (4 contributeurs × ~5 sauts déductifs). Le pipeline l'a reproduit en 2 minutes.

Ce n'est pas une coïncidence. Le tableau ci-dessous le confirme sur d'autres découvertes :

Découverte	Contributeurs clés	Durée	(T × D) estimé
Relativité restreinte	Einstein seul	~10 ans	(1 × 4)
Mécanique statistique	Maxwell + Boltzmann	~15 ans	(2 × 4)
Résolution démon Maxwell	Szilard → Brillouin → Landauer → Bennett	53 ans	(4 × 5)
Théorème KAM	Kolmogorov + Arnold + Moser	9 ans	(3 × 6)
Formule Island	Penington + Almheiri + ...	~2 ans	(4+ × 5)

Le pipeline deliberate n'est pas un "modèle qui réfléchit". C'est une compression parallèle de la communauté scientifique : plusieurs traditions cognitives indépendantes (traits) qui convergent sur les mêmes nœuds, exactement comme les papiers de physique qui se citent depuis des traditions disciplinaires différentes.

Les trous dans le graphe — et pourquoi certains critères résistent

Un résultat m'a beaucoup occupé : le critère physical_vs_tautology sur le problème Landauer. Ce critère demande de distinguer si l'énergie kTln2 est une contrainte physique réelle ou une tautologie du formalisme thermodynamique. Il résiste à tous les (T × L × D) sans cadrage fort.

Pourquoi ? Parce que ce débat n'a jamais été formellement publié sous cette forme. Il a eu lieu dans des séminaires de physique des années 60-80, dans des conversations de couloir, dans des commentaires de referee non publiés. C'est de la connaissance tacite — au sens de Polanyi : "we know more than we can tell".

Le corpus d'entraînement de qwen3 contient la conclusion de ce débat (les papiers de Bennett et Landauer), mais pas les étapes intermédiaires informelles. Les connexions manquantes ne peuvent pas être reconstituées par raisonnement pur.

C'est la limite irréductible du pipeline : là où il échoue de manière systématique, il ne signale pas un manque de capacité du modèle — il révèle un trou dans le graphe de connaissance. Une connexion qui aurait dû être verbalisée et ne l'a jamais été.

Les paramètres optimaux identifiés

Paramètre	Valeur optimale	Raison
`--lang`	中文 pour qwen3:4b	Densité terminologique scientifique dans les poids
`--steps`	5+	Divergence utile commence à la step 3
`--traits`	5-6 pour problèmes difficiles	P(≥2 agents convergent) croît avec T
`--ctx`	26624	Étend le KV cache sans nouveau modèle Ollama
`--cadrage`	Orientation pour mesure honnête, explicite pour performance max	Diagnostic vs performance
`--observer`	Même langue que `--lang`	Évite le mismatch terminologique

Ce que ça change — et ce que ça ne change pas

qwen3:4b en mode nothink, avec le bon pipeline, résout des problèmes de niveau GPQA Diamond. C'est un résultat empirique, validé par un juge indépendant, reproductible sur 10 problèmes distincts.

Mais il faut être précis sur ce que ça signifie.

Le cadrage fort injecte la terminologie — il ne triche pas sur la réponse, mais il élimine la phase de "trouver le bon vocabulaire". C'est comme demander à un physicien de résoudre un problème en lui donnant les noms des outils à utiliser, sans dire comment les utiliser. C'est plus facile que de trouver les outils seul.

La mesure honnête — les benchmarks sans cadrage — donne des résultats plus bas. C'est là que se trouve la vraie frontière du modèle.

Ce qui m'intéresse n'est pas de prétendre que qwen3:4b vaut GPT-4o ou Claude Sonnet. Ce qui m'intéresse, c'est ceci : la complétude du graphe de connaissance est un levier de performance supérieur à la taille du modèle. Quand le modèle a les bonnes connexions dans ses poids, la taille devient secondaire.

Le paradigme dominant mise sur plus de paramètres, plus de contexte, plus de compute. Ces benchmarks suggèrent une direction complémentaire — combler les trous dans le graphe, pas grossir le modèle.

Qui suis je ?

Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.

J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.

Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.

L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.

La technologie, les méthodes, le management sont le cœur de mes compétences.

Vous pouvez me faire confiance sur ces points là.

Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr

Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100% IA.

Mathieu Grenier 28 avril 2026