#2 | Agent vocal IA : je réalise des appels avec l'IA 📲 | Outils et retour d'expérience
Hello à tous, bienvenue sur cette 2ᵉ édition ! 🎉
Sommaire
Introduction
Case Study : Agent Vocal en IA
Comment ça fonctionne ?
Prompt & Choix de l’outil
Démo appel entrant
Démo appel sortant
Conseils et limites
Bilan
Top news IA
Quickwin sur les Outils IA
Retour d’expérience
On rentre directement dans le vif du sujet. Mon retour perso hebdo sur l’IA est à la fin de la newsletter.
Case Study : Agent Vocal IA - Appel entrant & sortant
Le week-end dernier, j’ai été bluffé par une IA pendant un entretien d’embauche. J’en parlais dans ce post LinkedIn. J’étais donc curieux de creuser le sujet des agents conversationnels en réalisant quelques tests.
Pour aborder ce cas d’usage, j’ai distingué les appels entrants (inbound) et sortants (outbound). Cela permettra de mieux cerner les usages pour chaque partie.
Dans les deux cas, la qualité du prompt est encore fondamentale pour que les réponses par l’IA soient pertinente. Plus vous fournissez d’informations de qualité à l’IA, meilleur ça sera.
Comment ça fonctionne ?
Voici les étapes à réaliser pour qu’une AI réalise des échanges conversationnels :
Reconnaissance vocale (speech-to-text) : L'IA convertit la parole de l'utilisateur en texte. Il analyse les ondes sonores pour identifier les phonèmes et les mots prononcés.
Analyse de texte : Une fois le texte obtenu, le modèle analyse la requête pour en extraire l'intention et les informations clés. Ils déterminent le sens de la demande en s'appuyant sur ses données.
Génération de la réponse : En fonction de la compréhension de la requête, le modèle génère une réponse pertinente sous format texte.
Synthèse vocale (text-to-speech) : La réponse textuelle générée est finalement convertie en parole par un système de synthèse vocale. Des modèles acoustiques et des techniques de traitement du signal permettent de générer une voix naturelle et expressive.
Ces étapes résumés en 1 schéma :
Pour chaque étape, on retrouve des acteurs qui se sont spécialisés en tant que provider. Ainsi, sur la plupart des outils que vous allez découvrir, il sera nécessaire de choisir :
la solution speech-to-text (”transcript”), Deepgram est un exemple
le LLM, avec la possibilité d’utiliser votre propre LLM
la solution text-to-speech (”voice”), ElevenLabs est un exemple
Le prompt
Le prompt donne l’ensemble des informations que l’IA aura en sa possession pour créer une réponse avec l’utilisateur. Donner du contexte est fondamental mais on s’aperçoit aussi que si on partage trop d’élèments, le modèle peut être un peu noyé dans la masse d’informations qu’il a. Il est nécessaire de rester précis sur l’objectif de l’appel, son rôle, etc
Pour vous aider, un des outils de génération d’agents vocaux a crée un GPTs pour générer un prompt complet sur le sujet.
Pour la rédaction du prompt, je vous conseille :
avoir une bonne structure de prompt (rôle, objectif, exemple, contexte, etc)
être précis dans l’utilisation des termes et expliquer les termes techniques propre à votre industrie ou les fonctionnalités propre à votre entreprise, le pricing, etc
tester le prompt et améliorer le en fonction des retours : la 1ère version sera probablement une simple ébauche
Choisir l’outil
J’ai parcouru au moins une dizaine d’outils pour faire mes tests. Certains sont à déconseiller par rapport aux retours utilisateurs, la plupart ne sont pas encore disponibles en français.
Actuellement, 1 seul outil est disponible en français et c’est donc celui-là que j’ai utilisé. Il est un peu plus technique mais il a le mérite d’être hyper complet : vapi.ai.
→ vous pouvez même échanger avec l’outil en anglais directement sur la plateforme.
Peu importe l’outil, il est nécessaire de réaliser une série d’étapes pour paramétrer la solution :
Créer votre propre assistant (choix de la voix, langue, LLM, …)
Ajouter du prompt (consignes)
Acheter un numéro de téléphone ou importer un numéro
Réaliser un appel test
Démo n°1 : Appel Entrant
La personne souhaite avoir des informations sur sa livraison, elle vient avec une demande précise et souhaite être orienté.
Sur cette première démo, j’utilise l’agent vocal accessible depuis l’interface pour plus de simplicité.
En vous rendant sur l’assistant, vous allez pouvoir faire vos premiers échanges type appel entrant.
Pour pouvoir interagir en français, il faudra paramétrer la voix avec le provider “azure” qui est le seul actuellement à proposer des voix en français.
À chaque fin d’appel, une retranscription intégrale est générée. Pour cet appel, on peut remarquer que le coût pour 1min de conversation tourne autour de 0,1€.
L’onglet “Functions” permet d’envoyer des informations à l’IA pendant l’appel, des résultats d’appel API par exemple, et donc de réaliser des actions en arrière plan. C’est une occasion d’aller plus loin dans les intéractions (recherche d’informations sur une commande, modifier des informations sur votre logiciel métier, etc)
L’onglet “Advanced” permet d’envoyer les informations de l’appel lorsqu’il est terminé. Par exemple, le résumé de l’appel, les différents échanges, etc. Cela permet de stocker l’historique de l’appel dans un CRM ou récupérer le résultat de l’appel pour réaliser une action.
Une fois l’appel terminé, on peut récupèrer l’ensemble des informations pour réaliser une série d’actions sur un outil de workflow automation comme Make.
Un exemple d’une série d’actions que l’on pourrait réaliser :
créer ou mettre à jour un contact dans le CRM en ajoutant la conversation de l’appel téléphonique
ajouter le contact dans un workflow sur hubspot si le contact n’existait pas
envoyer un message sur un channel dédié pour prévenir l’opérateur référent
Démo n°2 : Appel Sortant
Les appels sortants ont pour vocation, la plupart du temps, à s’adresser à des leads. Dans notre cas, on va prendre un exemple où un lead a remplit un formulaire / lead magnet avec ses informations dont son numéro de téléphone.
L’objectif est de le contacter dès le remplissage du formulaire pour qualifier le prospect et savoir comment on peut l’aider.
Voici le process que l’on suit :
Un lead vient de remplir un formulaire
Un appel est déclenché dès le formulaire remplit pour le qualifier.
Une fois l’appel terminé, le résultat de l’échange est analysé pour savoir si le lead est qualifié et vers qui on peut rediriger l’appel.
En fonction des réponses du lead, des actions sont déclenchés (ajout des informations dans le CRM, ajout à une campagne email segmenté, etc) : un peu similaire à la démo d’appel entrant post appel.
Pour les 2 premières étapes, on a crée un Make qui déclenche l’appel dès le remplissage du formulaire et déclenche l’appel en utilisant l’API de VAPI.
Sans plus attendre, une petite vidéo sur le résultat :
Mise en contexte : l’appel se fait après un formulaire pour une prise de contact dans le cadre de renseignements auprès d’une agence SEO. L’objectif de l’appel est de qualifier le prospect en lui posant quelques questions. En fonction des réponses, on propose un RDV. L’ensemble des informations seront ensuite transmises au commercial référent.
Pour les 2 dernières étapes, le processus est similaire à ce que l’on a pu faire sur l’appel entrant en modifiant les actions.
Pour aller plus loin 🚀
Utiliser la transcription speech-to-text pour mener des analyses comportementales. Certains outils comme Deepgram permettent de transcrire des échanges vocaux et mener des analyses.
Exemple : analyses de texte sur les RDV sales pour avoir une meilleure compréhension de ce qui marche / ne marche pas → c’est l’opportunité de faire levier sur certains KPIs comme le win rate, le cycle de vente et faire monter en compétence toute l’équipe
ElevenLabs permet d’ajouter une voix personnalisé, comme sa propre voix et apporter plus de personnalisation dans la tonalité.
Il est possible de mettre en place un service de transfert d’appel à un humain depuis une demande utilisateur ou en fonction de certains critères.
Des custom functions (“Functions” sur VAPI) existent pour permettre de récupérer des informations et réaliser des actions (prise de rendez-vous ..) sans atteindre la fin de l’appel
L’interaction avec votre backend et le bot est possible pendant l’appel (”Advanced” sur VAPI). Par exemple, dans le cas où la conversation déclenche une action du type “recherche de commande” et que des informations sont trouvées, l’IA peut partager les résultats de l’action à l’utilisateur. Celui-ci pourra ensuite réaliser une action.
On peut distinguer plusieurs types d’assistants : les temporaires et les permanents
. Les permanents stockent les informations avec les utilisateurs dans une base de données pour permettre de récupérer les informations s’il y a eu un précédent échange ou en cas de coupure téléphonique. Un IA permanente peut par exemple disposer de toutes les informations du client (profil, précédents échanges, comportement sur la plateforme, etc) et apporter une personnalisation dans l’appel inégalable.
La confidentialité des informations est possible sur vapi.ai. Pour stocker le rapport d’appel sur vos serveurs, il faut cocher l’option “HIPAA Compliance”. Rien ne sera alors sauvegardé sur l’appli VAPI : aucun transcript, enregistrement audio, logs, …
Les limites ❌
Beaucoup d’outils ne sont pas disponibles en français. Seul Azure propose des voix en français. Il faut donc avoir la possibilité de choisir Azure en tant que provider dans les outils de Voice Agent. Pour l’instant, je n’ai trouvé cette option que sur vapi.ai.
Actuellement, les providers de voix en français sont assez limités (peu de choix de voix française) et le rythme / tonalité n’est pas au niveau des voix anglophones. C’est encore un peu trop robotique.
Pour utiliser un numéro, la plupart des outils ont des intégrations avec Twilio. Par contre, acheter un numéro français sur Twilio prend 2 à 3 semaines, il faut également envoyer des justificatifs (Kbis + ID pour une entreprise)
Bilan
L’idée n’est pas que l’IA remplace l’humain sur la gestion des appels. Il faut voir l’outil comme un outil supplémentaire pour, par exemple :
répondre à des questions basiques (Q&A) et orienter l’utilisateur vers la personne adaptée à son besoin
gérer et traiter des appels entrants si l’équipe n’a pas la bande passante
qualifier des leads et apporter une réactivité importante lors d’un formulaire / signup / …
La réactivité suite à une action multiplie les chances d’avoir le lead au téléphone, de le qualifier, récupérer certaines informations. Votre équipe peut alors se concentrer sur les tâches à plus forte valeur ajoutée, gérer des demandes plus complexes et cas particuliers.
La productivité des équipes peut être grandement améliorer sur des requêtes simples. Si vous avez déjà écouté des appels de votre équipe, vous savez que vos collaborateurs peuvent parfois perdre patience ou agir un peu brutalement, cela n’arrive pas avec l’IA !
En résumé, utiliser des agents vocaux permet à une entreprise :
d’améliorer la productivité et la performance des équipes
d’améliorer la réactivité et l’expérience client (délai d’appel, taux de réponse téléphonique, service 24/24, ..)
réduire les coûts via l’automatisation de certaines étapes
exploiter des données de qualité post appels
Top News IA
Cette semaine, j’ai réalisé une vidéo sur les news importantes en IA sur la semaine passée. Je réfléchis à garder le format newsletter centré sur le case study.
Des outils IA à vous partager
Quivr - Solution Open Source pour du knowledge base
La plateforme est un moteur de recherche pour votre entreprise. L’outil utilise l'IA générative (choix possible dont GPT-4), avec une interface chat type GPT-4 et exploite l’ensemble de vos données (documents, outils, base de données, CRM, …) pour vous donner des réponses pertinentes sur des informations internes.
L’outil fonctionne même hors-ligne.
Les uses cases sont supers intéressants et peuvent rapidement faire gagner du temps aux équipes.
Quelques cas d'usage pertinents :
ChatGPT d'entreprise : offrez à vos employés une solution complète et privée de type ChatGPT
Génération de contenu : laissez Quivr créer du contenu pour votre entreprise sur la base d’informations que vous avez en interne
C’est un outil similaire à Dust mais en version open-source.
PitchBob.io - Utile pour les entrepreneurs
Je n’ai pas testé l’outil mais j’adore l’idée et le format. L’outil est capable de générer un pitch deck sur demande mais aussi d’accompagner des entrepreneurs (solo ou pas) dans la réflexion sur leurs problématiques quotidiennes.
Il est possible de passer par whatsapp ou messenger pour interroger l’outil plutôt que l’interface web. Cela facilite les échanges et garde l’historique de conversations.
Par contre, l’onboarding est long et fastidieux (35 à 50 questions, sans sauvegarde possible).
Retour d’expérience
Cette semaine, plusieurs choses m’ont marqué en passant ma semaine sur des sujets IA :
j’ai passé pas mal de temps à faire des tests sans résultat sur les agents vocaux. C’est parfois très frustrant de perdre du temps, de se confronter aux limites de l’outil alors qu’on sent que l’on est tout proche d’un résultat satisfaisant. Mais l’apprentissage pour la suite est toujours enrichissant et permet d’identifier les axes déterminants dans le succès du projet en question.
le nombre d’outils IA est énorme. Certains sont clairement plus du marketing que de la valeur ajoutée. Pas toujours simple de déméler le vrai du faux. Certains outils font du teasing et ne sont pas accessibles, ça fait encore plus de bruit de ne pas pouvoir tester les limites de l’outil. Tout le monde se met alors à théoriser sur la puissance possible de l’outil, et les médias s’en mélent …
Les entreprises vont devoir s’adapter continuellement, ça c’est pas une nouvelle. Mais j’ai eu une prise de conscience sur les habitudes que l’on avait. Par exemple, la création d’un formulaire pour la collecte d’informations ne sera peut être plus l’expérience idéale et le bon choix à faire. L’utilisation d’un chatbot conversationnel, boostée par les données de l’entreprise, sera sûrement meilleure et plus efficace.
Les opérateurs, ceux qui connaissent les process métiers et les appliquent au quotidien, ont une mine d’informations hyper importantes qu’il faudra mettre à plat pour transférer leur savoir aux modèles IA lorsque c’est pertinent.
Preneur de retour sur la newsletter et n’hésitez pas soutenir la newsletter si vous appréciez le contenu : likes, commentaires, partages …
À très vite 💪