Vous essayez de lire un long article, au bout de 3 paragraphe votre cerveau décroche. Et si le même contenu vous était présenté comme un débat audio IA entre deux experts qui s'interpellent, nuancent et vulgarisent -- en cinq minutes d'écoute ?
C'est ce qui m'a bluffait avec notebookLM et que je cherchais à pouvoir reproduire sans toute la complexité de google qui m'impose:
- Pas de contrôle sur les voix
- le ton
- la structure du débat
J'ai décidé alors de construire ma propre alternative.
Dans cet article, je partage mon retour d'expérience complet : de l'idée à la mise en production sur dix articles, avec l'architecture technique détaillée pour que vous puissiez reproduire ce pipeline.
Avant de continuer de lire la suite de l'article, je vous invite à vous inscrire à ma newsletter, pour connaître en avant première les futurs sujets traités chaque semaine.
Pourquoi le format débat change la donne pour vos articles
Le cadre ICAP (Interactive, Constructive, Active, Passive), publié dans le Journal of the Learning Sciences, démontre que l'engagement interactif -- le dialogue -- produit de meilleurs résultats d'apprentissage que les modes passifs ou actifs. Concrètement, les étudiants apprennent significativement plus avec des vidéos-dialogue qu'avec des vidéos-monologue.
Ce n'est pas qu'une question de pédagogie. L'audio provoque des réponses physiologiques plus fortes que la vidéo : rythme cardiaque, activité électrodermale.
La voix humaine transmet du sens via les nuances et les inflexions d'une manière que le texte écrit ne peut pas reproduire.
Le marché confirme cette tendance. 619 millions d'auditeurs podcast sont projetés en 2026, et 61 % des podcasters prévoient d'intégrer l'IA dans leur production. L'audio n'est plus un « nice-to-have » -- c'est un canal de consommation massif.
Trois formats coexistent pour donner une dimension audio à vos articles :
| Format | Engagement | Naturel | Production |
|---|---|---|---|
| Lecture linéaire (TTS brut) | Faible | Robotique | Immédiat |
| Monologue narratif | Moyen | Correct | Modéré |
| Débat deux voix | Élevé | Conversationnel | Automatisable |
Le débat à deux voix combine le meilleur des deux mondes : l'engagement cognitif du dialogue et l'accessibilité de la synthèse vocale neuronale. C'est en découvrant NotebookLM Audio Overview que l'idée m'est venue.
Mais au lieu d'utiliser la solution Google, j'ai décidé de construire la mienne.
De NotebookLM à mon propre système : la genèse du projet
Google a lancé en septembre 2025 quatre formats Audio Overview dans NotebookLM : Deep Dive, Brief, Critique, et Debate. Le format Debate met en scène deux hôtes IA qui débattent du contenu source avec des perspectives différentes.
Disponible dans plus de 80 langues, avec une croissance de +120 % trimestrielle, Google a prouvé que le format fonctionne à grande échelle.
Andreessen Horowitz (a16z) classe NotebookLM parmi les meilleurs lancements de Google en matière d'interface utilisateur. L'écosystème open source n'est pas en reste : Podcastfy cumule plus de 6 000 stars sur GitHub, et des projets comme Open NotebookLM ou SurfSense offrent des alternatives viables.
Pourtant, aucune de ces solutions ne répondait à mon besoin.
Pourquoi construire plutôt qu'utiliser un outil existant
Mon objectif était précis : intégrer la génération de débats audio directement dans mon workflow de création de contenu, pas en tâche manuelle isolée.
| Critère | NotebookLM | Ma solution |
|---|---|---|
| Contrôle du format | Limité (4 presets) | Total (structure, ton, longueur) |
| Coût TTS | Gratuit (cloud Google) | Gratuit (edge-tts local) |
| Intégration workflow | Aucune | Agent dans le pipeline |
| Qualité français | Variable | Voix neuronales dédiées |
| Dépendance cloud | Oui | Non |
J'ai voulu un contrôle total sur la structure du débat : trois actes, ton conversationnel, interventions courtes. J'ai voulu zéro dépendance cloud : le script tourne en local, les voix edge-tts sont gratuites et accessibles sans clé API.
Et surtout, j'ai voulu que l'agent fasse partie du pipeline de création, pas un outil externe à aller chercher.
Le concept était clair. Restait à le construire.
Voici l'architecture que j'ai mise en place.
Architecture technique : agent Claude Code + edge-tts
Le pipeline se décompose en deux étapes distinctes : la génération du script de débat par un agent IA, puis la conversion en audio par un script Python.
Article (Markdown)
│
▼
┌──────────────────────────┐
│ Agent debate-generator │ ← Claude Code (Sonnet)
│ Analyse l'article │
│ Génère le script débat │
└──────────┬───────────────┘
│
▼
Script débat (Markdown)
[Mathieu] ... [Vivienne] ...
│
▼
┌──────────────────────────┐
│ generate_debate_audio.py│ ← Python + edge-tts
│ Parse les interventions │
│ Génère l'audio TTS │
│ Assemble le MP3 final │
└──────────┬───────────────┘
│
▼
Fichier MP3 (~5 min)
L'agent debate-generator : transformer un article en conversation
L'agent reçoit l'article complet en entrée et génère un script de débat structuré. Deux personnages aux rôles complémentaires prennent la parole : Mathieu (le présentateur, perspective de l'auteur) et Vivienne (la critique, qui questionne et nuance).
La structure suit trois actes : une ouverture avec une question provocante, un corps de trois à quatre échanges avec des exemples concrets, et une conclusion avec un take away clair. Chaque intervention est limitée à deux à quatre phrases pour maintenir le dynamisme.
Le ton est volontairement conversationnel. Des fillers comme « En fait... », « Du coup... » et des réactions courtes comme « Exactement. » ou « Intéressant. » simulent une vraie conversation.
Le script bannit les acronymes : API devient « A.P.I. », IDE devient « environnement de développement ».
Voici un extrait simplifié du format de sortie :
[Vivienne] Aujourd'hui on parle d'un sujet qui divise. Tu peux nous expliquer le concept ? [Mathieu] En fait, l'idée c'est de transformer un article en une conversation entre deux personnes. Le lecteur écoute au lieu de lire. [Vivienne] Mais pourquoi deux voix plutôt qu'une seule ?
Le script TTS : de la conversation écrite à l'audio
Le script generate_debate_audio.py utilise edge-tts pour accéder gratuitement aux voix neurales Microsoft. Plus de 700 voix dans plus de 70 langues, zéro configuration, zéro clé API.
Les voix françaises choisies : fr-FR-RemyMultilingualNeural pour Mathieu et fr-FR-VivienneMultilingualNeural pour Vivienne. Le rendu est naturel, avec une prosodie crédible en français.
Voici le coeur du script -- la boucle de parsing et de génération :
SPEAKERS: dict[str, str] = {
'mathieu': 'fr-FR-RemyMultilingualNeural',
'vivienne': 'fr-FR-VivienneMultilingualNeural',
}
# Expansion des acronymes pour une prononciation correcte
ACRONYMS: dict[str, str] = {
'API': 'A.P.I.',
'IDE': 'environnement de développement',
'LLM': 'grand modèle de langage',
'SEO': 'référencement naturel',
}
async def generate_segment(text, voice, output_path, rate='+0%'):
"""Génère un segment audio pour un intervenant."""
communicate = edge_tts.Communicate(text, voice, rate=rate)
await communicate.save(str(output_path))
Le script parse le fichier Markdown, identifie chaque intervention par les balises [Mathieu] et [Vivienne], expand les acronymes, nettoie le formatage Markdown, puis génère les segments audio un par un. L'assemblage final concatène tous les segments en un seul fichier MP3.
La durée cible est de cinq minutes -- le format court idéal pour un résumé d'article.
En théorie, le pipeline semblait solide. En pratique, j'ai généré dix débats pour mes dix articles existants.
Voici ce que j'ai appris.
Résultats et retour d'expérience sur 10 débats générés
Le pipeline fonctionne de bout en bout de manière automatisée. Dix articles, dix débats audio IA, dix fichiers MP3. Le premier débat généré portait sur NFC Suica et Android -- un sujet technique où le format conversationnel a immédiatement montré sa valeur.
Le processus complet -- génération du script de débat puis conversion en audio -- prend environ deux minutes par article.
Les points forts sont nets. Le format débat ne répète pas l'article mot à mot : il reformule, synthétise et commente.
Les voix Rémy et Vivienne sont convaincantes en français, avec une prosodie naturelle. La durée de cinq minutes correspond au sweet spot pour un résumé audio engageant.
Les leçons apprises
L'expansion des acronymes est indispensable. Sans elle, le moteur TTS lit « API » comme un mot unique au lieu de « A.P.I. ». J'ai constitué un dictionnaire de corrections qui s'enrichit au fil des articles : acronymes techniques, anglicismes, termes spécifiques à chaque sujet.
Les interventions courtes maintiennent le dynamisme. Deux à quatre phrases par prise de parole, pas plus. Les monologues de plus de cinq phrases tuent le rythme du débat et transforment la conversation en cours magistral.
Le ton conversationnel exige des fillers. Sans les « En fait... », « Du coup... » et les réactions courtes, le débat sonne comme deux articles lus à voix haute en alternance. Les fillers créent l'illusion d'une vraie discussion.
La structure en trois actes donne un arc narratif. Ouverture, corps, conclusion -- chaque débat raconte une histoire, pas une liste de points. L'auditeur reste accroché parce qu'il y a une progression.
Toujours fournir le texte du débat en parallèle de l'audio. Martin Splitt (Google) confirme que l'audio n'impacte pas directement le référencement naturel. Mais le texte du débat, lui, est indexable.
Et l'accessibilité l'exige.
Reproduire ce système pour vos propres articles
Le pipeline repose sur deux composants. Un abonnement Claude pour l'agent de génération de scripts de débat.
Et Python avec edge-tts pour la synthèse vocale -- gratuit, installation en une commande.
Voici les étapes pour créer votre propre générateur de podcast IA :
- Créer l'agent debate-generator : définissez les deux personnages (rôles complémentaires), la structure en trois actes, et les règles de ton conversationnel. L'agent doit produire un script Markdown avec des balises de speaker
- Installer edge-tts : pip install edge-tts. Pour lister les voix françaises disponibles : edge-tts --list-voices | grep fr-FR
- Configurer le script de conversion : associez chaque personnage à une voix neurale. Ajoutez un dictionnaire d'expansion des acronymes adapté à votre domaine
- Lancer la génération : article en entrée, agent pour le script, script Python pour l'audio. Le fichier MP3 sort en quelques minutes
- Intégrer l'audio à l'article : ajoutez un player audio et le texte complet du débat pour l'accessibilité et le référencement
Trois principes à respecter pour un résultat convaincant. Le format débat structuré : pas de monologue, une vraie conversation avec des questions et des réponses.
Des voix complémentaires : homme et femme avec des rôles distincts (présentateur et critique). Une durée courte : cinq minutes maximum, au-delà l'attention diminue.
Pour ceux qui préfèrent un outil clé en main, Podcastfy est une alternative open source solide avec plus de 6 000 stars sur GitHub. Il supporte plusieurs fournisseurs TTS dont edge-tts.
Conclusion
Le format débat audio est scientifiquement plus engageant que la lecture linéaire. Le cadre ICAP le démontre, et 72 % des utilisateurs de NotebookLM le confirment par leur usage.
Construire son propre système est accessible. Un agent Claude Code pour générer le script de débat, un script Python avec edge-tts pour la synthèse vocale.
Zéro coût TTS, contrôle total sur le format.
Dix débats générés prouvent que le pipeline fonctionne en production. Les voix neuronales françaises sont crédibles, le format cinq minutes est adapté, et l'intégration dans un workflow de création de contenu est naturelle.
Essayez avec votre prochain article. Installez edge-tts, créez un agent de génération de débat, et écoutez le résultat. La différence entre lire et écouter un débat sur votre propre contenu est surprenante.
Google a validé le concept avec NotebookLM. Les outils open source le rendent accessible à tous.
La question n'est plus « faut-il ajouter de l'audio à vos articles ? » mais « quel format audio engagera le plus votre audience ? ». Le débat, c'est la réponse.
Qui suis-je ?
Je suis Mathieu GRENIER, CTO d'Easystrat une startup de Montpellier, en France. Je manage une équipe d'une dizaine d'ingénieurs (Graphistes, IA, frontend, backend, devOps, AWS) en remote depuis le Japon.
J'ai aussi mon activité de freelance, où je conseille des entrepreneurs dans leurs projets d'application.
Avec mon expérience personnelle de plus de 15 ans en ESN, j'ai pu travailler pour un large panel d'entreprises de différentes tailles. Ma compréhension des problèmes métiers est une de mes grandes forces et permet à mes clients de pouvoir se projeter plus facilement.
L'essentiel de mon travail consiste à canaliser l'énergie des entrepreneurs sur l'essence même de leur projet.
La technologie, les méthodes, le management sont le coeur de mes compétences.
Vous pouvez me faire confiance sur ces points là.
Si vous voulez me parler d'un de vos projets, envoyez-moi un email avec vos disponibilités à : contact@mathieugrenier.fr
Tous les articles de ce blog sont écrits par moi, même si je peux m'aider de l'IA pour illustrer mes propos. Mais jamais je ne fournis d'articles 100% IA.
Créer un débat audio de vos articles sans clé API pour 0 euros