Mathieu Grenier Flash Attention + KV Cache q8_0 : pourquoi les modèles pensants en profitent plus que les modèles instruct Hier, je vous parlais d'une technique pour multiplier par dix le contexte de vos modèles locaux avec deux variables d'environnement Ollama : Flash Attention et KV Cache q8_0. Sur gemma4, je suis passé... 16 mai 2026
Mathieu Grenier Comment j'ai multiplié par 10 le contexte de mes modèles locaux avec Flash Attention et KV Cache q8_0 Tout est parti d'une vidéo YouTube. Je regardais une présentation sur l'optimisation du KV cache avec Flash Attention — le genre de vidéo qui passe un dimanche soir quand on n'arrive pas à décrocher. ... 15 mai 2026
Mathieu Grenier Comment j'ai créé mon agent Hermès sur LINE — et pourquoi je lance des formations IA gratuites pour la communauté française au Kansai (Japon) Ce mois-ci, j'ai décidé de prendre mon destin en main. Après un an à expérimenter l'IA pour mon propre usage — à automatiser mes workflows, créer des outils sur mesure et tester des agents autonomes —... 14 mai 2026
Mathieu Grenier Granite 4.1 passe l'épreuve du code Python — jusqu'où un SLM de 3 milliards peut aller Dans mon dernier article , je vous ai montré que l'allemand est la langue optimale pour granite4.1:3b — et que ce petit SLM de 3 milliards de paramètres peut atteindre 87/100 sur des raisonnements mat... 7 mai 2026
Mathieu Grenier IBM Granite 4.1 : l'effet de la langue, testé sur GPU local Hier soir, je suis rentré d'une conférence à Osaka. Un événement European Night avec des dizaines de chercheurs en IA et robotique — des profils solides, habitués à lire des papiers, à manipuler des m... 2 mai 2026
Mathieu Grenier qwen3:4b résout des problèmes GPQA Diamond — sans chaîne de pensée interne Hier, je vous parlais de mes tests sur le raisonnement de qwen3:4b en chinois. La conclusion principale : avec le bon cadrage dans la bonne langue, un modèle local de 4 milliards de paramètres rivalis... 28 avr. 2026
Mathieu Grenier qwen3:4b-instruct-2507 égale Claude Haiku 4.5 avec le bon prompt en chinois La semaine dernière, je vous expliquais comment la langue de votre prompt modifie structurellement le raisonnement de Claude. Le turc force le marquage épistémique. Le japonais impose une ontologie hi... 27 avr. 2026
Mathieu Grenier Japonais et IA : 5 concepts qui révèlent l'architecture cachée des LLM La langue du prompt change le raisonnement d'un LLM — pas à la marge, structurellement. En japonais, cinq structures conceptuelles émergent systématiquement dans les sessions d'analyse IA que j'ai doc... 23 avr. 2026
Mathieu Grenier La langue de votre prompt n'est pas neutre — ce que j'ai découvert en testant Claude en turc, japonais et hindi Ça fait une semaine que je lutte avec deux problèmes liés dans mon architecture IA. Le premier : maintenir un RAG qui pilote Claude Code sur mes projets. 176 fichiers agents, 1 117 skills indexés, un ... 22 avr. 2026
Mathieu Grenier Ce n'est pas Claude qui dérive — c'est l'ambiguité de vos documents On le voit de plus en plus. Un agent Claude qui ignore une consigne pourtant clairement écrite. Un skill qui ne fait pas ce qu'on lui demande. Une règle qui semble « oubliée » d'un run à l'autre. Le r... 14 avr. 2026
Mathieu Grenier J'ai arrêté d'évaluer mes modèles IA « au feeling » — voici ce que les chiffres m'ont appris Pendant des mois, j'ai fait confiance à mon instinct pour choisir mes modèles LLM locaux. Un modèle répondait vite ? Bon signe. Il donnait des réponses qui « paraissaient cohérentes » ? Encore mieux. ... 11 avr. 2026
Mathieu Grenier Gemma 4 ne rentrait pas dans mon GPU — jusqu'à ce que je supprime ce qu'il n'utilisait pas Hier, je vous présentais les modèles Gemma 4 de Google. Des modèles impressionnants, sortis le 3 avril 2026 sous licence Apache 2.0, avec un système de raisonnement intégré et une architecture multimo... 8 avr. 2026