Agent vocal IA : ce que l'on peut (vraiment) automatiser en 2025. Retour d'expérience
+ déployer l'IA en entreprise
Hello à tous,
Bienvenue dans cette 54ᵉ édition ! Aujourd’hui, une newsletter très complète où je partage mon retour d’expérience sur les agents vocaux (je partagerais prochainement un document complet clé en main sur LinkedIn, encore plus avancé), les dernières actualités sur l’IA, et comment déployer l’IA en entreprise (itw)
Vous pouvez cliquer sur le ❤️ au-dessus ou en fin de newsletter si vous appréciez le contenu, ça m’aide beaucoup ! 🙏
Voici le sommaire de la semaine :
💼 Exploiter les agents vocaux - retour d’expérience
🗞️ 3 actus : Integrations d’Anthropic, OpenAI rachète Windsurf, Rendu PDF de Grok
🎙️[ITW] Déployer l’IA en entreprise
⏳ Temps de lecture : 13 min
Me retrouver ailleurs :
🧑💻 Mes réseaux : Linkedin, Youtube
🤚 Rejoindre la communauté IA (ressources, échange, support, ..) : sur Circle
📞 Des besoins en IA ? On met en place de plus en plus des agents IA clé en main (support, sales, marketing) ou sur-mesure, n’hésitez pas à nous contacter par retour de mail ou en prenant RDV sur ce lien.
📖 Se former sur l’IA : exploitez l’IA générative en entrepise ou automatisez votre création de contenu.
💼 Les agents vocaux : une opportunité pour les entreprises
Vous avez peut-être eu l’occasion de tester le mode vocal d’OpenAI ? Les agents vocaux, c’est la même chose sauf que l’agent suit des instructions précises, dispose d’outils à sa disposition et a été optimisé pour aider les utilisateurs dans quelques cas précis.
J’ai déjà eu l’occasion de vous partager des exemples concrets dans de précédentes newsletters sur le sujet. Mais à l’époque, la techno en français n’était pas encore très matures : la voix (surtout française) était encore trop robotique et le temps de latence était un peu trop élevé.
Ce n’est que le début d’agents vocaux en France
Depuis quelques mois, une bascule s’opère : la qualité est enfin là.
Le temps de latence est réduit, ils comprennent le contexte, gèrent les silences, relancent, raccourcissent leurs réponses, savent quoi faire, et en français.
Pourquoi ce changement maintenant ?
Je vois 3 raisons majeures :
Les modèles ont fait un bond : La compréhension s’affine, la réponse plus rapide et plus qualitative.
La génération de voix s’est grandement améliorée (ElevenLabs, Cartesia, …) avec des outils clés en main pour en construire comme VAPI → On peut déployer un agent vocal en quelques clics sans infrastructure complexe.
Le coût devient accessible. Par exemple, OpenAI a divisé ses tarifs de 60 à 80%. On parle de quelques centimes par appel.
Et pour beaucoup d’entreprises, il y a un ROI immédiat.
→ Un plombier qui n’a pas le temps de décrocher
→ Un support client qui croule sous les appels ?
L’agent IA filtre, répond, fixe un RDV… 24h/24. Et gère la scalabilité des appels (surtout les montées en charge pour certaines entreprises qui ont de la volatilité)
Explication sur le fonctionnement
Un agent vocal IA, c’est un pipeline qui transforme la voix humaine en instructions traitées par une IA… puis en voix de synthèse.
Voici les 3 grandes étapes visibles sur le schéma ci-dessous :
STT (Speech-to-Text) : l’agent convertit la voix de l’utilisateur en texte.
Solutions actuelles : Whisper (OpenAI), Deepgram, Azure, AssemblyAILLM (Large Language Model) : le texte est analysé par un modèle IA qui génère une réponse adaptée.
Modèles utilisés : GPT-4o, Gemini 2.0, …TTS (Text-to-Speech) : la réponse texte est transformée en audio avec une voix réaliste.
Solutions actuelles : ElevenLabs, PlayHT, Cartesia, …
Tout cela passe par une couche d’orchestration, ici dans l’exemple, c’est via un outil de création d’agents vocaux (serveur VAPI), qui relie les différents modules entre eux (transcription, modèle, voix…) et gère les appels via Twilio ou WebRTC.
Twilio est la solution que j’utilise côté téléphonie, il est assez simple d’avoir des numéros de téléphone en français en suivant le formulaire (24 à 48h de délai), KBIS obligatoire.
Toutes les solutions qui sont sur le marché utilisent les mêmes techno citées plus haut, la différenciation se fait dans l’orchestration des appels derrière et surtout dans les fonctionnalités qui peuvent proposer.
Ici, je vais faire un zoom sur VAPI qui reste l’une des technos les plus avancées du marché.
Créer son agent vocal étape par étape
Pas besoin d’être développeur pour lancer un agent vocal IA. Pour ça, on passe par VAPI (ou Rounded - solution française similaire à VAPI). L’interface est claire, modulaire, et vous permet d’enchaîner toutes les étapes sans coder une ligne.
Voici comment procèder :
1. Choisir les technologies d’IA : STT, LLM, TTS
Dès la création de l’assistant, vous définissez :
la transcription vocale (Deepgram, Whisper, etc.)
le modèle de conversation (GPT-4o, Gemini, etc.)
la synthèse vocale (Cartesia, ElevenLabs, PlayHT, etc.)
En fonction de votre choix, la techno utilisée va impacter le coût et la latence. Plus vous utilisez des technos puissantes, plus la latence et le coût seront élevés.
Pour obtenir un bon rapport qualité / prix, vous pouvez partir sur le setup suivant : Deepgram Nova 2 General en fr, Cartesia Sonic v2 et GPT-4o-mini (si la conversation reste basique).
2. Structurer les instructions
Ensuite, on peut passer aux instructions : le prompt system. C’est ici que vous expliquez son rôle, son ton, sa mission, les informations à récolter, etc.
Dans le prompt, je vous conseille :
Définir clairement le rôle de l’agent → commencez par une phrase simple :
« Tu es Julie, conseillère commerciale pour une entreprise de dépannage à domicile. »
→ L’agent a une identité claire et un ton à adopter (chaleureux, professionnel, informatif…).Utiliser un langage simple et naturel
« Utilise un niveau de langage simple. Utilise un langage professionnel et naturel, avec des mots qui rendront la conversation plus vivante et pas robotique. »
→ L’agent est plus fluide, plus humain, et évite les formulations alambiquées.Donner un objectif précis à l’agent
« Ton rôle est de comprendre le besoin du client et de proposer un rendez-vous si pertinent. »
Limiter la longueur des réponses
« Tes réponses doivent être courtes : 1 à 2 phrases maximum. »
→ Évite les longs monologues IA et fluidifie les échanges vocaux.Structurer le prompt en blocs logiques. Sépare clairement :
Le rôle → « Tu es Julie, conseillère… »
La mission → « Tu dois qualifier la demande… »
Les étapes → « Commence par saluer, puis demande le prénom, puis l’adresse…»
Le contexte métier → « L’entreprise propose des interventions rapides, 24h/24.»
Donner des exemples de dialogue réalistes. Cela oriente le style et les enchaînements.
Appelant : « Bonjour, je voudrais un devis »
Agent : « Bien sûr, pouvez-vous me donner votre prénom ? »
Appelant : « Marc »
Agent : « Merci Marc. C’est pour un logement ou un local professionnel ? »Ajouter une section “Notes” pour affiner le comportement
À placer en fin de prompt pour des règles spécifiques :
« Si l’utilisateur est vague, reformule la question. »
« Ne reformate pas la date. Ne déclenche la fonction de réservation qu’une seule fois. »
Un bon prompt, c’est comme un brief à un nouvel employé. Il doit être clair, complet, bienveillant, mais ferme sur ce qu’il doit faire (et ne pas faire).
3. Choisir le mode de fonctionnement (single prompt ou workflows)
Quand on crée un agent, on a deux façons de structurer la logique de conversation.
La plus courante, le single prompt
C’est le plus simple pour démarrer. On écrit un seul gros bloc d’instructions (le prompt system) qui va s’occuper de gérer tous les schémas de résolution possibles.
Et dans les cas où il n’est pas capable de répondre, il va recentrer la conversation ou transférer à un humain.
En gros, c’est une sorte de SVI intelligent qui va catégoriser l’appel entrant, répondre aux tickets simples depuis le contexte qu’il a.
→ C’est suffisant pour des agents simples du type :
Prise de rendez-vous
Réponses à des FAQ
Qualification de leads en 3–4 questions
✅ Avantages : rapide à mettre en place, plus fluide à tester
❌ Limites : difficile à maintenir dès que le flux de conversation se complexifie
L’autre option, c’est de définir un workflow
Dès que vous avez plusieurs types d’appels, ou des embranchements conditionnels, le mode workflow devient nécessaire.
VAPI propose un éditeur visuel (type n8n), qui vous permet de :
d’avoir un prompt général (information sur l’agent)
créer plusieurs étapes (sous-prompts)
ajouter des conditions → “si le client est existant, dire ceci…”
déclencher des actions spécifiques (API, transferts, outils…)
organiser la conversation comme un arbre logique
C’est l’idéal quand le spectre de conversation est large avec la volonté côté agent de gérer l’appel en autonomie, souvent utilisé pour du SAV, du support multi-services.
Ce qui est intéressant, c’est de pouvoir avoir un agent vocal principal qui va être capable de rediriger vers d’autres assistants. Chaque assistant aura des outils à sa disposition (souvent max 3)
✅ Avantages : ultra-modulaire, plus fiable (workflow déterministe), plus clair à débugger
❌ Plus long à concevoir (mais beaucoup plus robuste)
4. Ajouter des outils à son agent vocal
Faire la conversation, c’est sympa mais ça ne permet d’aller très loin dans la gestion des appels. Ce qui est intéressant, c’est de laisser son agent réaliser des actions et ainsi résoudre vraiment un besoin au téléphone.
Pour cela, les solutions ont tendance à proposer des outils clés en main. Par exemple, sur VAPI, on retrouve la possibilité de :
Envoyer un SMS
Faire un appel API à des scénarios (réserver ou vérifier un créneau sur Google Calendar)
Laisser un message vocal
Transférer vers un agent humain
Pour cela, on peut distinguer les fonctionnalités natives comme “laisser un message vocal” ou “transférer à un numéro” qui sont activables en 1 clic.
Ou encore des fonctionnalités avancées du type “détection de message vocal”. Très utile lorsque l’on fait des campagnes d’appels sortants avec un agent vocal. Cela permet de laisser un message vocal si on tombe sur le répondeur.
Et l’ajout d’outils plus custom. On peut alors faire un appel API à n’importe quel scénario sur un outil d’automatisation. Je vous donne des exemples plus bas de ce que j’ai pu faire.
(VAPI commence d’ailleurs à ajouter des intégrations d’outils tiers comme Slack)
Comme vous pouvez le voir, créer un agent vocal sur VAPI, c’est assembler toutes les briques. Et surtout, tester, itérer, ajuster. D’ailleurs, je ne vous ai pas parlé du monitoring mais tous les logs sont disponibles avec beaucoup de données dont les transcripts (et la possibilité d’enregistrer les appels).
Démo d’un agent vocal FR
Maintenant, voici la démo d’un agent vocal que j’ai configuré sur VAPI. L’objectif est surtout de vous montrer comment l’agent improvise depuis les instructions que je lui ai partagé.
Une autre démo sur un SVI intelligent équipé d’envoi de SMS :
→ Dans la démo, l’agent ne réussit à m’envoyer le SMS la première fois car je le coupe juste avant qu’il termine. Une occasion de montrer qu’il avait bien l’information que le SMS n’était pas envoyé (et qu’il l’a ensuite).
Les cas d’usages possibles
Une fois votre agent vocal est configuré, la vraie question devient “à quoi peut-il vraiment servir dans un business” ? Aujourd’hui, qu’est-ce qui tourne en production ?
Voici les cas d’usage matures :
Standard téléphonique intelligent (SVI IA)
Fini les “tapez 1, tapez 2…”. L’agent comprend la demande du client à l’oral et le redirige vers la bonne personne ou le bon service.
Idéal pour les PME, cabinets médicaux, agences…Prise de rendez-vous automatique
L’agent décroche, qualifie le besoin, propose un créneau et le réserve directement (via Google Calendar ou autre).
Idéal pour les dentistes, plombiers, coiffeurs, agences locales…
Résultat → 0 appel manqué + des plages horaires mieux remplies. Peut répondre le week-end et en dehors des horaires d’ouvertureAppels sortants des relances clients (ou prospects)
Un exemple typique : le recouvrement. L’agent appelle automatiquement une liste de clients.Qualification de leads entrants sur Meta
Un lead Facebook entre → l’agent appelle dans la minute, pose 2–3 questions clés et propose un rendez-vous. Tout est synchronisé sur votre CRM.
Objectif : réduire le “speed-to-lead” avant qu’un concurrent n’appelle ou que le prospect ait oublié d’avoir cliqué sur la publicité.
Résultats → augmentation du taux de conversion de vos adsRéactivation de clients inactifs (ou prospects)
L’agent appelle les anciens clients (ou prospects dormants) pour créer de l’engagement. On personnalise l’appel avec un maximum de variables pour ne pas être considéré comme du spam.
En pratique : dès que vous avez un flux de clients à appeler, filtrer ou orienter… un agent vocal peut vous faire gagner du temps, réduire les coûts et augmenter vos conversions.
Automatisation sur son agent
Plus haut, je mentionne les outils que l’agent peut avoir à sa disposition. Voici des exemples d’automatisation que j’utilise sur Make pour rentrer les agents plus puissants. Ces scénarios font le lien entre l’appel vocal, les outils (Google Calendar, Brevo, Sheets…) et les workflows métier.
Prise de rendez-vous intelligente avec Google Calendar
Lors d’un appel, l’agent vocal vérifie la disponibilité d’un créneau, crée l’événement dans votre agenda, puis reçoit une confirmation qu’il peut retransmettre à l’appelant.
Le flow en détail :
Webhook déclenché depuis l’agent vocal
Vérification de la dispo ou réservation dans Google Calendar
Réponse en JSON envoyée à l’agent via Webhook
Message de confirmation ou proposition d’alternative en temps réel
Envoi de SMS automatisés selon le contexte de l’appel
Pendant l’échange, l’agent peut déclencher différents envois de SMS :
Tech utilisé : Brevo, mais OnOff est une alternative plus rentable pour des envois massifs.
Dans le SMS, j’envoie des URLs qui permettent aux appelants d’être autonomes.
Appels sortants à la volée depuis un Google Sheet
Pour les cas de relance, recouvrement par exemple, l’automatisation s’appuie sur une base Google Sheets. En 1 clic, ça déclenche les appels des lignes dans un certain statut, et le statut de l’échange est mis à jour à la fin de l’appel.
Les étapes :
Recherche dans Google Sheets
Appel déclenché par API
Mise à jour de la ligne avec statut (appel réussi, sans réponse, etc.)
Objectif : lancer 500 ou 5000 appels sans intervention manuelle, avec un tracking lisible pour les équipes.
Ces automatisations transforment l’agent vocal, il ne répond pas juste aux appels : il exécute des actions, relaye des infos, met à jour vos outils, et fait avancer vos process.
La suite : ce que les agents vocaux vont encore transformer
Ce qu’on observe aujourd’hui avec les agents vocaux IA, c’est un point d’inflexion. La technologie est prête, les cas d’usage concrets existent, mais selon moi, on ne fait encore qu’effleurer le potentiel.
Vous l’avez sûrement remarqué, il y a encore des limites :
La gestion du bruit ou des accents selon les technos de Speech To Text (STT)
Les émotions dans la voix, l’intonation, le rythme
Les latences sur certains modèles (on reste encore sur des modèles classiques comme GPT-4o)
Les limites en mémoire de conversation longue
Mais les progrès sont rapides. Le temps fait fondre ces barrières chaque mois.
D’un autre côté, le marché est complètement fragmenté côté B2B :
On a à la fois des plateformes horizontales (comme VAPI, Rounded, Retell, Synthflow, Bland, … en bas à droite sur le mapping) : elles visent à servir un maximum de cas en no-code ou API-first.
Et en même temps, des solutions spécialisées verticalement, soit du côté des secteurs comme la santé, ou encore côté métier avec 11x sur la partie Sales ou Decagon sur la partie support.
💡D’ailleurs pour ceux qui sont intéressés, on met en place ces 2 dernières solutions sur le marché français.
Et côté B2C ? Le vocal va sûrement se généraliser.
Côté utilisateur final, la voix va aussi devenir un moyen d'interagir avec ses apps, ses outils, ses services. Un coach vocal dans son app de sport. Un assistant vocal pour gérer sa compta perso. Un agent vocal en boutique ou dans une app mobile.
Le vocal ne sera plus un simple canal. Ce sera peut être une interface ?
En bref, les agents vocaux IA ne vont pas juste répondre à des appels, ils vont aussi s’installer dans tous les outils pro et perso. Toujours disponibles. Toujours connectés.
🗞️ 3 actus importantes
Claude se connecte à vos outils : Intégrations et recherche avancée sont disponibles
Anthropic dévoile "Integrations", une nouvelle fonctionnalité qui permet de connecter Claude aux outils métiers (Jira, Zapier, Asana, Confluence, Intercom…), et d’étendre considérablement ses capacités d’action et de recherche :
Claude accède désormais à nos données internes via des serveurs distants compatibles avec le protocole MCP, qu’il s’agisse de documents, de tâches ou de conversations clients
On peut déjà connecter 10 services, et bientôt davantage (Stripe, GitLab…)
Claude devient un véritable collaborateur capable d’automatiser des workflows (via Zapier), de générer du contenu dans Confluence ou de suivre les bugs issus de retours clients sur Intercom
Parallèlement, la fonction de recherche s’enrichit : Claude peut désormais rechercher jusqu’à 45 minutes sur un sujet, en croisant web, Google Workspace, et vos données connectées (RAG), avec des rapports structurés et sourcés
Ce qu’il faut retenir : Claude devient un assistant bien plus complet, capable de s’intégrer à votre environnement de travail pour exécuter des actions et produire des analyses poussées en un seul point de contact.
👉 Source : Anthropic
OpenAI réalise sa plus grosse acquisition avec Windsurf pour 3 milliards de dollars
OpenAI annonce le rachat de la start-up Windsurf (ex-Codeium), spécialisée dans l’assistance à la programmation par IA, pour 3 milliards de dollars, un record pour l’entreprise.
Ce rachat stratégique vise à renforcer la position d’OpenAI face à la concurrence grandissante sur le marché des copilotes de programmation, notamment avec GitHub Copilot, Cursor (levée de 900 millions) ou encore les modèles d’Anthropic.
Windsurf s’est imposée comme une plateforme IA capable de générer ou compléter du code à partir de simples instructions, avec des technologies propriétaires.
Ce qu’il faut retenir : OpenAI mise gros sur le développement IA assisté, et veut verrouiller le marché avant que ses concurrents ne prennent trop d’avance.
👉 Source : L’Echo
Grok facilite l’export PDF et personnalisable directement dans les conversations
La nouvelle fonctionnalité de Grok permet de convertir facilement des discussions ou documents en fichiers PDF organisés et sur mesure. La solution vise à fluidifier la gestion et le partage de contenus issus de plateformes de messagerie ou de documents collaboratifs :
Export structuré en un clic : Grok transforme instantanément une conversation en un PDF lisible, avec des sections logiques
Mise en page personnalisable : choix des polices, des styles, de l’espacement… l’utilisateur garde la main sur l’esthétique finale
Intégration multi-plateformes : possibilité d’exporter depuis différents services, sans rupture dans les usages
Partage simplifié et sécurisé : export local ou envoi direct, avec chiffrement de bout en bout pour une confidentialité garantie
👉 Source : Grok
🎙️ [ITW] Déployer l’IA en entreprise
Il y a quelques jours, j’ai été interviewé par Terry du podcast Just A Click pour parler du déploiement de l’IA en entreprise. L’épisode en intégralité est disponible ici.
Dans cet épisode, on aborde les sujets suivants :
Ne pas brûler les étapes sur le déploiement de l’IA
Les équipes business, un gisement d’automatisation sous-exploité
Cas concret : automatisation de la prospection commerciale - explication du process de A à Z
Vers la disparition des interfaces classiques de SaaS ?
L’IA ne se limite pas aux tâches simples
—
Ce que je trouve particulièrement intéressant avec les agents IA, c’est l’approche de pouvoir simplifier l’automatisation sans rentrer dans le “nos process sont compliqués, il y a beaucoup de cas particuliers”
Car c’est très difficile de tout anticiper, surtout quand on échange avec les équipes métiers qui ont tous les cas particuliers en tête (et qu’il faut mettre sur papier). Mais c’est justement la beauté des agents IA.
Pour donner un exemple concret :
Retrouver un utilisateur dans un CRM depuis un ticket entrant de support
Avec une automatisation classique, il va falloir anticiper tous les cas de figure :
➡️ Si l’e-mail ne donne rien, essayer avec le nom
➡️ Si plusieurs homonymes ? Filtrer selon d’autres infos.
➡️ Et si rien ne matche ? Nouvelle condition. Nouvelle branche. Nouvelle exception.
Au final, on construit une usine à gaz pour couvrir tous les scénarios possibles
Et à chaque nouveau cas non prévu ? On retourne dans le scénario pour le patcher
Avec un agent IA, c’est l’inverse qui se produit : on délègue la complexité.
On partage l’objectif général "retrouve le bon utilisateur dans le CRM", et des détails sur les outils à sa disposition = des appels API, accès aux bases de données, …
L’agent va alors :
1️⃣ Essayer l’e-mail → pas de résultat ?
2️⃣ Tester un numéro de commande ou une plaque d’immatriculation mentionnée dans le message ?
3️⃣ Explorer le contexte de la demande pour potentiellement faire une complétion de ticket
4️⃣ Valider la cohérence des infos
→ Pas besoin d’anticiper tous les cas. L’agent choisit la bonne stratégie en temps réel.
Résultat ? on simplifie l’automatisation côté humain, et on rend le système plus intelligent, plus robuste, plus scalable.
Un court extrait sur l’exemple dont je parlais :
PS : j’en profite pour partager mon podcast TIME où l’on parle également d’IA disponible sur les plateformes audio ou ma chaine YouTube.
Merci 🫶🏼
D’avoir lu cette édition jusqu’au bout.
Si cette édition vous a plu, pensez à cliquer sur le ❤️ juste en dessous et partagez votre retour en commentaire👇🏼
Vous pouvez aussi partager la newsletter à votre entourage (ça me booste beaucoup 🙏) et gagner des cadeaux 🎁
1 parrainage = 1 hack personnalisé
3 parrainages = +400 outils IA triés par thématique et vertical métier
5 parrainages = 30 min de coaching sur votre problématique
À très vite !
Merci pour vos articles qui sont toujours extrêmement instructifs et intéressants. Une question concernant l'export PDF via Grok. Est-ce que le rendu est aussi qualitatif si on demande à Grok d'aller chercher les infos lui-même sur mon profil LinkedIn (en lui collant le lien de mon profil) ?
Bravo pour cette synthèse, efficace et opérationnelle