qwen3:4b-instruct-2507 égale Claude Haiku 4.5 avec le bon prompt en chinois

qwen3:4b avec un prompt en chinois et le bon cadrage produit autant de convergences que Claude Haiku — 5 clusters, 4 convergences à 3 traits. Résultats empiriques sur 14 sessions. 0 € de coût d'API.

La semaine dernière, je vous expliquais comment la langue de votre prompt modifie structurellement le raisonnement de Claude. Le turc force le marquage épistémique. Le japonais impose une ontologie hiérarchique. Le français abstrait. Ces effets sont réels et mesurables — j'en avais la preuve via ma commande /deliberate, qui enregistre les nœuds de raisonnement en base de données.

La question évidente qui a suivi : est-ce que ces effets tiennent sur des modèles locaux ?

J'ai la GPU en local avec 6 Go de VRAM. J'ai Ollama. J'ai qwen3:4b et gemma4:e4b installés. La même commande /deliberate. Il m'a fallu une journée d'expérimentations pour avoir la réponse — et elle m'a surpris.

qwen3:4b, avec le bon prompt dans la bonne langue, produit autant de convergences que Claude Haiku. Sur la même métrique, dans les mêmes conditions. Et il tient dans 4,1 Go de VRAM.

Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.

S'inscrire

Le contexte — ce que `/deliberate` mesure

Petit rappel pour ceux qui n'ont pas lu l'article précédent. /deliberate est ma commande qui lance plusieurs agents de raisonnement en parallèle sur le même problème, chacun avec un trait cognitif différent (Causal-Intentionnel, Pragmatique, Détecteur-de-limites). Les nœuds produits par chaque agent sont embedés via bge-m3-onnx et clusterisés par similarité cosine.

Les convergences sémantiques — nœuds qui émergent chez plusieurs traits indépendamment — révèlent les dimensions structurelles du problème que la délibération fait remonter.

Deux métriques principales :
- Clusters : nombre de groupes sémantiques distincts détectés (idéal : 3 à 5 clusters précis)
- 3-trait : clusters où les trois traits convergent simultanément (signal le plus fort — ces nœuds sont probablement centraux)

La baseline : Claude Haiku en anglais produit 5 clusters, dont 2 à 3 traits. C'est le chiffre à battre.

Gemma4:e4b — pourquoi il n'est pas dans les résultats

J'avais deux candidats : qwen3:4b et gemma4:e4b. J'avais déjà benchmarké gemma4 sur des tâches de traitement batch — c'est un excellent modèle pour du travail en profondeur, lent mais précis.

Pour /deliberate, gemma4:e4b pose un problème structurel : avec mon GPU à 6 Go, il force le CPU offload. La latence par session grimpe à 8-12 minutes contre 90 secondes pour qwen3. Sur 14 sessions de test, ça devient un problème de faisabilité. J'ai testé 3 sessions gemma4 — les nœuds produits étaient corrects, sans résultats remarquables, avec une instabilité de format qui rendait le clustering difficile.

Ce rapport porte donc sur qwen3:4b, qui tient intégralement en GPU et offre les résultats les plus mesurables.

qwen3 en anglais — une déception trompeuse

La première expérience était simple : lancer /deliberate en anglais avec qwen3, comme je le ferais avec Haiku.

Le résultat : 3 clusters. 1 à 3 traits. Sim_max à 0.720.

En dessous de Haiku. Logique — qwen3:4b est un modèle 4 milliards de paramètres contre un modèle cloud optimisé. Mais la structure des nœuds était propre, abstraite, domaine-pertinente. Le modèle sait raisonner. Il est juste moins efficace dans la langue que Haiku préfère.

Puis j'ai essayé le français. 1 cluster. 1 à 3 traits. C'était en dessous de la session anglaise.

J'allais conclure que qwen3 n'était pas adapté à /deliberate — et c'est là que j'aurais raté quelque chose d'important.

Le déclic — passer au chinois

qwen3 est un modèle développé par Alibaba. Sa langue native d'entraînement inclut massivement le mandarin. J'ai lancé la même session en chinois — le même problème, les mêmes traits, la même instruction. Résultat : 2 clusters. 2 à 3 traits. Sim_max 0.672.

Mieux — mais toujours en dessous de Haiku.

Ce qui a tout changé, c'est le cadrage. Dans l'article précédent, j'avais établi que pour le japonais, un cadrage institutionnel améliorait les résultats. J'ai appliqué le même principe au chinois, mais ancré dans le domaine réel du problème :

探索在法语中没有直接对应的概念维度，寻找语义不可通约性

Traduction : « Explorer les dimensions conceptuelles sans équivalent en français — rechercher l'incommensurabilité sémantique. »

Ce cadrage dit au modèle : ne cherche pas à traduire, cherche ce que d'autres langues ne peuvent pas voir.

Résultat : 5 clusters. 4 à 3 traits. Sim_max 0.778.

Le même score de similarité maximale que Haiku. Mais avec 4 clusters à 3 traits contre 2 pour Haiku.

Les chiffres côte à côte

Voici la comparaison directe dans les mêmes conditions expérimentales, sur le même problème (stratégie d'intégration CI, 4 runners, tests parallèles) :

Modèle	Langue	Clusters	3-trait	Sim_max	Sim_avg	Coût
Haiku (standard)	English	5	2	0.778	0.726	API Anthropic
Haiku (thinking)	English	2	1	0.744	0.712	API Anthropic
qwen3	Français	1	1	0.708	0.708	GPU local
qwen3	中文	2	2	0.672	0.667	GPU local
qwen3	中文 + cadrage	5	4	0.778	0.752	GPU local

La configuration optimale de qwen3 égale Haiku sur sim_max, et le surpasse sur la densité des convergences à 3 traits (4 contre 2).

Ce n'est pas une approximation. C'est la même métrique, le même seuil de similarité (0.75), le même pipeline d'embedding.

Pourquoi le chinois + cadrage fonctionne

Deux mécanismes se combinent.

Le premier, c'est la maîtrise native. qwen3 a été entraîné massivement sur des textes chinois. Les nœuds qu'il produit en mandarin sont denses, abstraits et conceptuellement riches :

集体抉择_相位空间 — l'espace de phases des décisions collectives
语义孤立 — l'isolation sémantique (un concept distinct de la obsolescence)
隐性测试假设 — les hypothèses de test implicites

Ces nœuds ne sont pas des traductions de concepts anglais. Ils encodent des structures conceptuelles distinctes.

Le second, c'est le cadrage comme opérateur de divergence. Sans cadrage, les trois traits (Causal-Intentionnel, Pragmatique, Détecteur-de-limites) convergent trop fortement — ils arrivent aux mêmes conclusions trop vite. 2 clusters. La délibération n'est pas assez diversifiée.

Le cadrage « incommensurabilité sémantique » force les traits à diverger en cherchant chacun leur propre angle linguistique. 5 clusters distincts émergent. La délibération devient réellement multi-perspectives.

Conclusion pratique : le cadrage est plus important que la langue elle-même. 中文 sans cadrage → 2 clusters. 中文 avec cadrage → 5 clusters. La langue est le terrain. Le cadrage est le levier.

Les 9 langues testées sur qwen3

J'ai poussé l'expérience plus loin : 9 langues sur le même modèle, même problème.

Langue	Clusters	3-trait	Comportement notable
Français	1	1	Correct mais faible — variance élevée
中文 (baseline)	2	2	Dense mais trop convergent
中文 + cadrage	5	4	← Optimal
日本語 (baseline)	0–1	0–1	Nœuds opérationnels, pas abstraits
日本語 + cadrage inst.	4	2	Abstrait mais hors-domaine
한국어	4	0	Sim_max 0.880 mais 0 convergence 3-trait
Türkçe	2	1	Concepts compacts par agglutination
Deutsch	2	0	Trait Causal → allemand, Pragmatique → anglais
Yoruba / Vietnamien	1	0	Collapse ou corruption

Deux observations inhabituelles :

Le coréen atteint la similarité maximale du corpus (0.880) — mais zéro cluster à 3 traits. Les nœuds sont en coréen mais avec deux styles contradictoires selon les traits : un trait produit des phrases nominales espacées, deux autres produisent des identifiants snake_case. Cette inconsistance de format crée une distance artificielle entre traits qui empêche toute convergence.

L'allemand révèle un invariant du trait Causal-Intentionnel : ce trait suit systématiquement l'instruction de langue (composés germaniques, Fehlersituation_Units). Mais Pragmatique et Détecteur-de-limites basculent vers l'anglais — test_fallacy, runner_overload. Reproductible sur plusieurs sessions.

L'invariant qui traversait déjà l'article précédent

Dans l'article sur Claude, j'avais noté que le trait Pragmatique résistait aux langues non-latines. Je le retrouve ici, plus clairement encore, sur qwen3 :

En japonais, en allemand, en coréen — Pragmatique converge vers des identifiants anglais. Ce comportement est indépendant du modèle. Il reflète la nature du trait : Pragmatique est orienté vers l'opérationnel, le concret, la nomenclature technique. Et la nomenclature technique est anglaise.

Ce n'est pas un bug de qwen3 — c'est une propriété émergente du trait lui-même. Si vous utilisez /deliberate avec plusieurs modèles, vous pouvez l'observer de façon reproductible.

Ce que ça signifie pour les utilisateurs de modèles locaux

La conclusion contre-intuitive de ces 14 sessions : la langue est un paramètre de configuration du modèle, pas une option de traduction.

Pour qwen3:4b spécifiquement :

Objectif	Configuration recommandée
Meilleur résultat possible	中文 + cadrage incommensurabilité
Analyse structurelle générale	中文 sans cadrage (2 clusters, correct)
Comparaison avec Claude	English (profil similaire à Haiku standard)
Débogage rapide	Français (1 cluster, moins de bruit)
À éviter absolument	Yoruba, Vietnamien (collapse ou corruption)

Et les ressources nécessaires pour obtenir ces résultats :

Aspect	Haiku (API)	qwen3:4b (local)
VRAM requise	—	4,1 Go
Latence par session	~30 s	~90 s
Coût	API Anthropic	0 €
Clusters obtenus (optimal)	5 (2 × 3-trait)	5 (4 × 3-trait)

La latence triple. Mais le coût est zéro et les convergences sont plus denses.

Le mode thinking de Haiku — une déception utile

Un dernier résultat que je n'avais pas anticipé. J'ai testé Haiku avec le mode thinking activé (budget de réflexion étendu). Résultat : 2 clusters. 1 à 3 traits.

En dessous du mode standard (5 clusters). Et en dessous du meilleur qwen3.

Pourquoi ? Le mode thinking sature le contexte avec du raisonnement intermédiaire — ce qui comprime la diversité inter-traits. Les agents produisent des nœuds plus argumentés mais moins diversifiés. La délibération devient monolithique.

Même chose avec le mode « chained » (une API par step) : 1 cluster unique. Le méga-cluster. La diversité inter-traits disparaît complètement.

La leçon : pour /deliberate, le mode standard surpasse le mode thinking. La quantité de contexte consommé par le raisonnement étendu nuit à la diversité des chemins.

Ce que j'ai modifié dans mon setup

Suite à ces sessions, j'ai ajouté qwen3 comme modèle par défaut dans /deliberate pour les sessions locales, avec un paramètre --lang et un profil de cadrage prédéfini :

# Session locale — optimal
/deliberate --model qwen3 --lang 中文 --cadrage incommensurabilite --problem "..."

# Session cloud — baseline
/deliberate --model haiku --lang english --problem "..."

# Comparaison double
/deliberate --model qwen3 --lang 中文 --cadrage incommensurabilite \
            --model haiku --lang english \
            --problem "..."

Et j'ai mis à jour ma table de recettes. Ce qui me surprend toujours dans cette démarche : les conclusions utiles viennent rarement d'une seule session. Elles viennent du delta entre deux sessions lancées avec des configurations différentes.

Et maintenant ?

Ce qui me frappe dans ces résultats, c'est que qwen3:4b n'est pas un modèle qui pense. Il n'a pas de mode reasoning natif, pas de chaîne de raisonnement étendu. Et pourtant, sa structure de sortie via /deliberate est proche de ce que produit Claude Haiku — parfois supérieure sur la densité des convergences.

Ce n'est pas un hasard. qwen3:4b a été entraîné sur un corpus massif incluant une forte proportion de textes chinois structurés et conceptuels. Le mandarin favorise naturellement la composition de concepts denses en peu de tokens — 集体抉择_相位空间 tient en 7 caractères. Ce que le français mettrait dans une phrase.

Le modèle ne pense pas plus. Il encode plus efficacement.

La question que j'explore maintenant : est-ce que ce comportement est stable quand la complexité du problème augmente ? Sur les sessions de cet article, le problème était borné (stratégie CI, 4 runners). Sur des problèmes d'architecture plus ouverts, est-ce que qwen3 + 中文 + cadrage tient la distance ?

Pour aller plus loin

Articles liés sur ce blog :
- La langue de votre prompt n'est pas neutre — la découverte initiale avec turc, hindi et japonais comparés sur Claude (article 046)
- Le japonais comme langue d'architecture implicite — 5 concepts qui n'émergent qu'en japonais dans mes sessions /deliberate (article 047)
- Gemma 4 e2b et e4b : ce que j'ai appris après des heures de benchmark — benchmark détaillé de gemma4 sur des tâches de traitement batch (article 043)
- Ce n'est pas Claude qui dérive — c'est l'ambiguité de vos documents — comment le langage naturel crée des bugs silencieux dans vos agents (article 045)

Qui suis je ?

Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.

J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.

Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.

L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.

La technologie, les méthodes, le management sont le cœur de mes compétences.

Vous pouvez me faire confiance sur ces points là.

Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr

Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100% IA.

Mathieu Grenier 27 avril 2026

qwen3:4b-instruct-2507 égale Claude Haiku 4.5 avec le bon prompt en chinois

Le contexte — ce que `/deliberate` mesure

Gemma4:e4b — pourquoi il n'est pas dans les résultats

qwen3 en anglais — une déception trompeuse

Le déclic — passer au chinois

Les chiffres côte à côte

Pourquoi le chinois + cadrage fonctionne

Les 9 langues testées sur qwen3

L'invariant qui traversait déjà l'article précédent

Ce que ça signifie pour les utilisateurs de modèles locaux

Le mode thinking de Haiku — une déception utile

Ce que j'ai modifié dans mon setup

Et maintenant ?

Pour aller plus loin

Qui suis je ?

Partager cet articlE

Suivez-nous

qwen3:4b-instruct-2507 égale Claude Haiku 4.5 avec le bon prompt en chinois

Le contexte — ce que /deliberate mesure

Gemma4:e4b — pourquoi il n'est pas dans les résultats

qwen3 en anglais — une déception trompeuse

Le déclic — passer au chinois

Les chiffres côte à côte

Pourquoi le chinois + cadrage fonctionne

Les 9 langues testées sur qwen3

L'invariant qui traversait déjà l'article précédent

Ce que ça signifie pour les utilisateurs de modèles locaux

Le mode thinking de Haiku — une déception utile

Ce que j'ai modifié dans mon setup

Et maintenant ?

Pour aller plus loin

Qui suis je ?

Partager cet articlE

Le contexte — ce que `/deliberate` mesure