Mon 286 à moi, c'est Ollama : quand un modèle de 2,6 Go transforme votre quotidien de développeur

Débat audio sur l'article:

**Speakers :** Mathieu (homme), Vivienne (femme) **Duration :** ~8 minutes **Date :** 2026-02-16 --- [Vivienne] Mathieu, aujourd'hui tu voulais nous parler d'intelligence artificielle locale. Mais tu m'as dit avant l'enregistrement que cette histoire commence avec ton père et un vieil ordinateur. Raconte-nous. [Mathieu] Oui. Mon père a ramené un jour à la maison un PC 286. Pour ceux qui ne connaissent pas, on parle d'un processeur à 6 mégahertz, 256 kilooctets de RAM et un disque dur de 20 mégaoctets. Aujourd'hui, la moindre photo de votre téléphone pèse plus lourd que le disque dur entier de cette machine. [Vivienne] Et pourtant, ton père était fasciné. [Mathieu] Fasciné, c'est le mot. Il avait les yeux qui brillaient. Il passait des soirées entières devant cet écran. Pour lui, c'était un saut quantique par rapport à ce qui existait avant. Avant le 286, il avait une calculatrice. Et entre une calculatrice et un ordinateur, même un 286 tout limité, il y a un monde. D'un coup, il pouvait programmer en BASIC, faire du traitement de texte, créer des tableaux. C'était pas parfait. L'écran affichait 16 couleurs. Le disque dur faisait un bruit de tracteur. Mais l'impression de pouvoir faire de grandes choses était réelle. [Vivienne] Et quel rapport avec l'intelligence artificielle en 2026 ? [Mathieu] Le rapport, c'est que je ressens exactement la même excitation. Aujourd'hui, il existe un logiciel qui s'appelle Ollama. Tu le télécharges, tu tapes une commande dans ton terminal, et trois minutes plus tard, tu as un modèle d'intelligence artificielle qui tourne sur ta propre machine. Pas de compte cloud, pas d'abonnement, pas de données qui partent chez un tiers. C'est chez toi. Et quand je l'ai fait tourner pour la première fois, j'ai eu le même sentiment que mon père devant son 286. Ce truc est limité, je le sais. Mais ce qu'il fait, c'est quand même extraordinaire comparé à ce qu'on avait avant. [Vivienne] Qu'est-ce qu'on avait avant ? [Mathieu] Rien. Enfin, on avait les gros modèles cloud : ChatGPT, Claude, Gemini. Des machines surpuissantes, mais hébergées à l'autre bout du monde. C'est comme comparer un mainframe IBM à un ordinateur personnel. Le mainframe de 1980, il écrasait le 286 en puissance brute. Mais le 286, il était chez toi, sur ton bureau. Tu pouvais bricoler avec. Tu pouvais l'ouvrir, comprendre comment il marchait, installer ce que tu voulais. C'est la même dynamique. Les gros modèles cloud sont les mainframes d'aujourd'hui. Les LLM locaux sont les PC personnels. [Vivienne] L'analogie est jolie. Mais concrètement, ces modèles locaux, ça marche vraiment ? [Mathieu] C'est toute l'histoire. Parce que la première chose que mon père a faite avec son 286, c'est un plantage. Il a essayé de lancer un programme trop gros pour la mémoire. Écran bleu. Et moi, ma première expérience avec un modèle local, c'est pareil : un échec. [Vivienne] Raconte. [Mathieu] J'ai installé un modèle qui s'appelle qwen3, quatre milliards de paramètres, développé par Alibaba. Sur le papier, c'est prometteur. L'installation est simple, une commande et c'est prêt. Mais ce modèle a un défaut fondamental : il « pense » trop. [Vivienne] Il pense trop ? Ça veut dire quoi pour un modèle d'intelligence artificielle ? [Mathieu] Avant chaque réponse, il génère en interne un long bloc de réflexion. Des centaines de tokens de « pensée » qui consomment tout le budget de réponse. C'est comme si tu demandais à quelqu'un l'heure et qu'il passait cinq minutes à réfléchir à la nature du temps avant de te répondre. Sauf que là, il réfléchit tellement qu'il n'a plus de souffle pour te donner la réponse. [Vivienne] Et en chiffres, ça donne quoi ? [Mathieu] 56 pour cent de taux de réussite global. Et sur certaines tâches, c'est pire. Les messages de commit par exemple, ces petits résumés qu'on écrit quand on sauvegarde du code. Zéro pour cent de réussite. Le modèle entre dans une boucle de réflexion infinie. 69 secondes d'attente pour rien du tout. Pas une réponse incomplète, pas une réponse approximative. Rien. [Vivienne] C'est un peu comme quand ton père essayait de lancer un jeu qui dépassait la mémoire du 286, non ? [Mathieu] C'est exactement ça. Le 286 avait 256 kilooctets de RAM. Tu lançais un programme qui en demandait 300, ça plantait. Pas d'erreur élégante, juste un blocage. Là c'est pareil. Le modèle a un budget de 3 000 tokens. La réflexion interne en consomme 2 625. Il lui reste 375 pour répondre, mais la pensée continue et consomme les 375 restants aussi. Zéro token pour la réponse. [Vivienne] Et tu ne pouvais pas désactiver ce mode pensée ? [Mathieu] J'ai essayé. Il y a un paramètre pour ça dans l'interface de programmation. Ça marche dans 20 pour cent des cas. Le reste du temps, le modèle ignore l'instruction et pense quand même. C'est un problème connu, il y a des tickets ouverts sur le dépôt du projet. [Vivienne] Donc, premier modèle, échec. Tu aurais pu arrêter là. [Mathieu] Oui. Mais mon père non plus n'a pas arrêté au premier plantage. Il a éteint le 286, il l'a rallumé, il a trouvé un autre programme compatible, il a appris à contourner les limites de mémoire. Et moi, j'ai fait pareil. J'ai cherché. Et j'ai trouvé un contributeur de la communauté, un certain hoangquan456, qui avait publié une variante du même modèle sur Ollama Hub. [Vivienne] Qu'est-ce qu'il a changé ? [Mathieu] Une seule chose. Il a désactivé le mode pensée directement dans le template du modèle. Pas via un paramètre d'interface qui marche une fois sur cinq, mais à la racine, dans la configuration profonde du modèle. C'est comme les gens dans les années 80 qui modifiaient le BIOS de leur 286 pour lui faire accepter plus de mémoire. Du bricolage de passionné. [Vivienne] Et ça change vraiment quelque chose ? [Mathieu] Le jour et la nuit. Même modèle. Mêmes quatre milliards de paramètres. Même architecture. Mais au lieu de 56 pour cent de réussite, on passe à 91 pour cent. Les messages de commit : de zéro pour cent à 100 pour cent. La revue de code : de 33 pour cent à 100 pour cent. Et le plus spectaculaire, la vitesse. De 69 secondes à 0,9 seconde. 77 fois plus rapide. [Vivienne] 0,9 seconde. C'est ça ton moment 286 ? [Mathieu] C'est exactement ça. Quand j'ai vu ce chiffre s'afficher, j'ai compris ce que mon père ressentait. Pas parce que la machine est parfaite. Elle ne l'est pas. Mais parce que cette chose, elle est chez moi, elle fait des choses incroyables comparé à ce qu'on avait avant, et je peux la bricoler comme je veux. Mon père, il comparait son 286 à sa calculatrice. Moi, je compare mon modèle de 2,6 gigaoctets à l'absence totale d'intelligence artificielle locale il y a trois ans. [Vivienne] Et comme ton père avec le traitement de texte et le BASIC, tu as commencé à exploiter la machine. [Mathieu] Exactement. Mon père a fini par faire tourner une dizaine de programmes sur son 286. Moi, j'ai fini par configurer 15 fonctionnalités autour de ce modèle. Détection de bugs, génération de messages de commit, revue de code automatique, explication d'erreurs en langage clair, traduction de commentaires, vérification des conventions de nommage, détection de code dupliqué, documentation automatique, catégorisation des priorités. Tout ça avec 2,6 gigaoctets de mémoire vidéo sur un GPU de portable. [Vivienne] Et tout tourne en parallèle ? [Mathieu] Oui. Le modèle de langage prend 2,6 gigaoctets, un deuxième modèle pour la recherche sémantique prend 1,1 gigaoctet. Total : 3,7 gigaoctets sur 6. Mon père, lui, avait 256 kilooctets et il faisait tourner un tableur. Moi, j'ai 6 gigaoctets et je fais tourner 15 automatisations d'intelligence artificielle. Les proportions sont différentes. L'esprit est le même. [Vivienne] Soyons honnêtes, Mathieu. Le 286 avait des limites sérieuses. Pas de multitâche, pas de réseau, des plantages fréquents. Ton modèle local, il a quoi comme limites ? [Mathieu] Beaucoup. Et c'est important de le dire. Quatre milliards de paramètres, ça ne fait pas de raisonnement complexe. Si je lui demande de concevoir une architecture logicielle ou d'analyser une faille de sécurité subtile, il ne sait pas faire. Le scoring n'est pas parfait non plus : il donne un trois sur cinq au mot « hello » au lieu d'un un. Et sans GPU, les temps de réponse passent de une seconde à trente secondes. [Vivienne] Alors c'est un jouet ? [Mathieu] Non. C'est un assistant. Il fait le travail répétitif et prévisible pour que je me concentre sur la réflexion et les décisions qui demandent un vrai cerveau humain ou un modèle plus puissant. Exactement comme le 286. Mon père ne lui demandait pas de faire tourner Photoshop. Photoshop n'existait même pas encore. Il lui demandait de faire du traitement de texte, et le 286 le faisait brillamment. Moi, je ne demande pas à mon modèle de 2,6 gigaoctets de concevoir une architecture. Je lui demande de me dire si mon code a un bug évident, et il le fait brillamment. [Vivienne] Et la suite ? Parce que le 286, il a quand même fini par être dépassé. [Mathieu] Dépassé, oui. Mais il a ouvert la voie. Après le 286, il y a eu le 386, le 486, le Pentium. Chaque génération plus puissante. Et surtout, le 286 a fini par se connecter à Internet. C'est ça le vrai tournant. La machine isolée qui devient une porte sur le monde. [Vivienne] Et tu vois la même évolution pour les modèles locaux ? [Mathieu] C'est déjà en cours. Ollama travaille avec l'université Stanford sur un projet qui s'appelle Secure Minions. L'idée, c'est que ton modèle local collabore avec un modèle cloud plus puissant, mais tes données restent chiffrées de bout en bout. Le modèle local traite les informations sensibles. Le modèle cloud intervient quand il faut du raisonnement complexe. Le meilleur des deux mondes. [Vivienne] Le 286 qui se connecte à Internet. [Mathieu] Exactement. Et quand ça arrivera, les limites qu'on accepte aujourd'hui disparaîtront. En attendant, mon petit modèle de 2,6 gigaoctets fait le boulot. Comme le 286 de mon père faisait le boulot. Pas parfait. Mais présent, fiable, et surtout, à moi. Mon père, quarante ans plus tard, il se souvient encore de la première ligne de code qu'il a tapée sur son 286. Moi, dans quarante ans, je me souviendrai du premier message de commit généré par mon modèle d'intelligence artificielle locale en 0,9 seconde. [Vivienne] C'est une belle façon de boucler la boucle. [Mathieu] C'est pas une boucle. C'est la même ligne droite. De génération en génération, on découvre des machines limitées qui nous émerveillent. Et à chaque fois, les gens disent que c'est un jouet. Le 286 était un jouet. Internet à 56 kilobits était un jouet. Les smartphones étaient des jouets. L'intelligence artificielle locale est un jouet. Jusqu'au jour où ce n'en est plus un.

Mon père avait les yeux qui brillaient quand il a branché son premier 286. Un processeur à 6 MHz, 256 Ko de RAM, un disque dur de 20 Mo. Ridicule sur le papier. Mais pour lui, c'était la machine à tout faire. Du BASIC, du traitement de texte, des jeux en 16 couleurs. Il savait que c'était limité. Et pourtant, l'excitation était réelle : « Je peux faire des choses qu'une calculatrice ne fera jamais. »

Cette même excitation, je l'ai ressentie quarante ans plus tard. Pas devant un ordinateur, mais devant un modèle d'intelligence artificielle de 2,6 Go qui tourne sur mon propre PC. Les LLM locaux, c'est le 286 de notre génération. Limités, oui. Mais capables de choses que personne n'imaginait possibles il y a deux ans.

Dans cet article, je vous raconte comment je suis passé d'un premier modèle qui échouait dans 44 % des cas à 15 fonctionnalités IA qui tournent silencieusement en arrière-plan pendant que je code. Le tout pour 0 € et 2,6 Go de mémoire.


Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.



L'ère du bricolage : Ollama et les LLM de maison

Ollama, c'est le logiciel qui permet de faire tourner des modèles d'intelligence artificielle directement sur votre machine. Pas de compte cloud, pas d'abonnement, pas de données qui partent sur un serveur à l'autre bout du monde. Vous tapez ollama pull qwen3:4b dans votre terminal, et trois minutes plus tard, vous avez un modèle de langage qui tourne chez vous.

Le parallèle avec les premiers PC n'est pas qu'esthétique. En 1981, IBM lance son PC avec une architecture ouverte. N'importe qui peut fabriquer des clones compatibles. Résultat : une explosion de constructeurs, de logiciels, de bidouilles. Aujourd'hui, Ollama fait pareil avec l'IA. Des centaines de modèles open source, une communauté de créateurs qui publient des variantes optimisées, et la liberté de tout casser sans conséquence.

Pourquoi local plutôt que le cloud ? Ce n'est pas une question de puissance. ChatGPT, Claude, Gemini sont évidemment plus puissants. C'est une question de philosophie. Le bricoleur veut comprendre comment ça marche. Il veut modifier, tester, adapter à son workflow. Et surtout, il veut que son code reste sur sa machine.

En 2026, 42 % des développeurs exécutent des LLM en local. Et 85 % utilisent des outils IA pour coder, selon le rapport JetBrains 2025. L'IA locale n'est plus une curiosité de geek. C'est un outil de travail.

Mais comme pour le 286, tout ne marche pas du premier coup.

Le premier échec : qwen3:4b et ses boucles de réflexion

J'ai commencé avec qwen3:4b. Un modèle de quatre milliards de paramètres, développé par Alibaba (Qwen). Installation facile : une commande, quelques minutes de téléchargement, et c'est prêt. Sur le papier, c'est prometteur : le modèle est récent, bien noté, et conçu pour les tâches de développement.

En pratique, c'est une autre histoire.

Le problème fondamental de qwen3:4b, c'est qu'il « pense » trop. Littéralement. Avant chaque réponse, le modèle génère un bloc de réflexion interne (des tokens <think>...</think>) qui consomme son budget de réponse. Imaginez un collègue très intelligent qui réfléchit dix minutes avant de dire un mot. Brillant, mais inutilisable en équipe.

Les chiffres de mes tests sont sans appel :

TâcheTaux de réussiteTemps moyen
Messages de commit0 %69 secondes
Revue de code33 %75 secondes
Scoring qualité0 %26 secondes
Traduction commentaires50 %58 secondes
Résumé de texte100 %26 secondes

Score global : 56 % de réussite. Et quand ça échoue, c'est spectaculaire. Sur les messages de commit, le modèle entre dans une boucle de réflexion infinie : il raisonne, raisonne, raisonne... et ne produit jamais de réponse. 100 % de son budget de tokens part en réflexion interne. Zéro output utile.

J'ai aussi testé le Qwen3-Reranker-0.6B, un modèle de reclassement de 600 millions de paramètres. Résultat : il affiche !!!!!!!!!! au lieu de scores de pertinence. Pas un bug de configuration : Ollama ne supporte tout simplement pas ce type de modèle (cross-encoder). La leçon est claire : le bon modèle au bon endroit.

J'aurais pu abandonner. J'aurais pu me dire que les LLM locaux, c'est bien pour faire joujou, mais pas pour du vrai travail.

C'est là qu'un contributeur de la communauté a changé la donne.

La perle rare : qwen3-nothink:4b

Sur Ollama Hub, un utilisateur nommé hoangquan456 a publié une variante de qwen3:4b avec un changement simple mais radical : le mode « thinking » est désactivé au niveau du template du modèle. Pas via un paramètre d'API (qui ne marche pas de manière fiable), mais directement dans la configuration du modèle.

Le nom : hoangquan456/qwen3-nothink:4b.

Le résultat m'a coupé le souffle :

Aspectqwen3:4bnothink:4b
Taux de réussite global56 %91 %
Messages de commit0 %100 %
Revue de code33 %100 %
Traduction50 %100 %
Vitesse moyenne25-75 secondes0,3-4 secondes
Tokens utilisés (commit)2 625 / 3 00014 / 3 000
Taille sur disque3,3 Go2,6 Go

C'est le même modèle. Les mêmes quatre milliards de paramètres. La même architecture. Mais sans la couche de « réflexion » qui sabotait tout.

Le moment où j'ai vu un message de commit généré en 0,9 seconde — au lieu de 69 secondes — c'est le moment « 286 ». La même excitation que mon père. Pas parce que c'est parfait, mais parce que ça marche. Et ça marche sur ma machine.

C'est l'esprit du 286 : on ne lui demandait pas de faire tourner Photoshop. On lui demandait de faire du traitement de texte, et il le faisait brillamment.

15 fonctionnalités IA pour 2,6 Go

Le vrai pouvoir d'un petit modèle, ce n'est pas ce qu'il fait tout seul. C'est ce qu'on construit autour.

Aujourd'hui, nothink:4b alimente 15 automatisations dans mon environnement de développement. Tout tourne sur un GPU de 6 Go (RTX 3050 Laptop), en parallèle avec un modèle d'embeddings pour la recherche sémantique. Coût total : 0 €.

Quand j'écris du code :

  • Détection automatique de bugs et de failles de sécurité dans mes modifications
  • Vérification des conventions de nommage (camelCase, snake_case selon le langage)
  • Détection de code dupliqué par analyse sémantique

Quand je commite :

  • Suggestion de message de commit au format conventionnel (fix:, feat:, refactor:)
  • Suggestion de nom de branche cohérent
  • Résumé automatique des gros changements (quand le diff touche plus de cinq fichiers)

Quand je débugue :

  • Explication des erreurs en langage clair (fini les messages TypeScript cryptiques)
  • Catégorisation automatique de la priorité des TODOs (P0 à P3)

En tâche de fond :

  • Score qualité pour le système de mémoire (RAG)
  • Documentation automatique des nouvelles fonctions (JSDoc)
  • Génération de changelog depuis les commits

L'optimisation du système a aussi été spectaculaire. Avant la migration, chaque modification de fichier déclenchait 12,6 secondes de traitement bloquant. Après : 0,3 seconde. Une réduction de 97 %.

Comment ? En convertissant les traitements synchrones (bloquants) en asynchrones (en arrière-plan), en fusionnant des hooks redondants, et en réduisant les budgets de tokens maintenant que le modèle n'en gaspille plus 99 % en réflexion interne.

Les limites honnêtes

Ce serait malhonnête de ne pas parler des limites.

nothink:4b, c'est quatre milliards de paramètres. Ce n'est pas GPT-4, ce n'est pas Claude Opus, ce n'est pas Gemini. Le scoring qualité n'est pas parfait : le modèle donne un score de 3/5 au mot « hello » alors qu'il devrait donner 1. Le raisonnement multi-étapes complexe dépasse ses capacités. L'analyse de sécurité approfondie reste le domaine des grands modèles.

Sans GPU, c'est utilisable mais lent : cinq à trente secondes par requête sur CPU. Avec un GPU même modeste (6 Go de VRAM), la plupart des tâches passent sous la seconde.

Le positionnement est clair : c'est un assistant, pas un architecte. Il fait le travail répétitif — les revues de code routinières, les messages de commit, la traduction de commentaires — pour que le développeur se concentre sur la réflexion et les décisions d'architecture.

Comme le 286 : on ne lui demandait pas de faire tourner Photoshop. On lui demandait de faire du traitement de texte, et il le faisait brillamment.

Conclusion

Mon père faisait du BASIC sur son 286. Moi, je fais de la revue de code avec un LLM de 2,6 Go. Les machines ont changé, mais l'excitation est la même : celle du bricoleur qui découvre ce que sa machine peut faire, avec ses limites et ses promesses.

L'enseignement principal : un petit modèle bien configuré vaut mieux qu'un gros modèle mal utilisé. J'ai perdu des heures avec qwen3:4b (le modèle « penseur ») avant de trouver la variante communautaire qui a tout débloqué. La technologie ne suffit pas. C'est la configuration, le choix du bon outil pour le bon usage, qui fait la différence.

L'IA locale n'est pas une version dégradée de l'IA cloud. C'est un outil différent, pour un usage différent. Privé, gratuit, personnalisable, et étonnamment capable quand on prend le temps de le configurer.

Si vous n'avez jamais essayé Ollama, commencez par là. Un ollama pull hoangquan456/qwen3-nothink:4b et vous comprendrez ce que je veux dire.

La prochaine étape ? Quand ces modèles locaux communiqueront avec les modèles cloud de manière sécurisée (Ollama travaille avec Stanford sur un projet appelé Secure Minions). Le 286 avait fini par se connecter à Internet. Ces modèles feront pareil.

Qui suis je ?

Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.

J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.

Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.

L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.

La technologie, les méthodes, le management sont le cœur de mes compétences.

Vous pouvez me faire confiance sur ces points là.

Si vous voulez me parler d'un de vos projets, n'hésitez pas à m'envoyer un email avec vos disponibilités à : contact@mathieugrenier.fr

Je donnes aussi des formations via Youmind (organisme de formation agréé qualiopi)


Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100 % IA.

Mathieu Grenier 16 février 2026
Partager cet articlE