Scraper internet avec une équipe d'agents IA
+ 🎙️ Podcast : automatiser son support client avec l'IA
Hello à tous,
Bienvenue dans cette 34ᵉ édition
Pour soutenir mon travail, pensez à cliquer sur le ❤️ juste au-dessus (ou en dessous)
💡 Si le mail est tronqué car trop long, cliquez sur “Afficher l'intégralité du message” en bas du mail.
Au programme de cette semaine :
💼 Une équipe d’agents IA pour scraper internet
🗞️ 3 actus importantes : plateau de l’IA, CEO d’Anthropic, Agent IA chez OpenAI
🎙️ Automatiser son support client avec Nicolas Pellissier
⏳ Temps de lecture : 9 à 11 min
Pour ceux qui sont intéressés pour se former sur l’utilisation de l’IA en entreprise, ma formation est toujours à tarif réduit jusqu’à fin novembre : +60 modules, garantie à vie et mise à jour tous les trimestres.
💼 Une équipe d’agents IA pour scraper internet
L’IA générative a rendu le scraping accessible à tous, sans compétence technique. On va voir pourquoi, comment ça peut vous aider au quotidien jusqu’à vous présenter une équipe d’agents IA spécialisés dans l’extraction de données de vos concurrents.
Pour rappel, le scraping c’est l’extraction automatique d’informations sur le web, on a souvent plus étapes :
Accéder au site
Lire et extraire les données
Stocker les informations en base
Le scraping était avant réservé à des profils plus techniques ou growth hacker, il fallait passer par des extensions (au plus simple) ou du script avec du headless browser (plus complexe).
Et les cas d’application sont nombreux :
génération de leads, enrichissement, identification de signau faibles
analyse de marché, suivi d’actualité, analyse concurrentielle
agrégation d’informations depuis plusieurs sources (liste d’appartements, offres d’emplois, etc)
testing en développement
Par exemple, sur de la génération de leads, on peut imaginer une combinaison d’outils (Apollo, Hubspot et LinkedIn) pour mener une analyse, structurer l’information et générer en plus un score de qualification.
Aujourd’hui, on peut tous faire du web scraping avec l’IA et réussir à extraire des informations dans 90% des cas. On ne va pas parler des sites plus complexes (authentification, pagination, captcha, antibot, …)
L’impact de l’IA générative sur le scraping
Il y a 2 aspects qui permettent à l’IA générative de simplifier l’approche de web scraping : 1/ la gestion des données non structurées et 2/ la multimodalité.
La gestion des données non structurées
De par la manière dont ils ont été crées, les modèles d’IA générative sont très bons pour avoir une grosse quantité de données non structurées et réussir à identifier une information précise pour la partager sous un format plus lisible.
Ils sont donc excellents pour gérer des données non structurées en entrée (comme le contenu HTML d’une page web) et nous extraire des variables. Surtout avec la sortie des structured output sur OpenAI, permettant de forcer le modèle à suivre un format JSON avec des variables précises.
Cette fonctionnalité permet d’avoir dans 100% des cas un contenu non structuré en entrée et un contenu structuré en sortie.
Par exemple, on pourrait récupérer une liste d’informations depuis un agrégateur.
La Multimodalité
Sur certains sites, il n’est pas simple d’extraire des informations, par rapport à l’affichage des informations (image, schéma, ..), ou s’il faut réaliser des actions.
La capacité de vision de l’IA permet d’extraire les informations depuis une image (screenshot) ou d’identifier l’action requise pour extraire l’information.
C’est sur ce principe que l’on peut imaginer des agents IA autonomes récupérant des informations en partant d’une simple requête textuelle et en naviguant sur le web comme pourrait le faire un humain.
Le computer use de Claude est un exemple, ou encore MultiOn, même si pour l’instant, on est loin d’un usage en production.
Le process classique d’extraction avec l’IA
Au final, le process classique est divisé en 3 parties :
Extraction des données
Analyse des données par un modèle IA comme GPT-4o
Résultat sous format JSON à stocker
Sur des outils d’automatisation nocode comme Make, vous pouvez déjà créer des scénarios d’automatisation qui vont récupérer le contenu des sites et utiliser un module OpenAI pour mener l’analyse.
Par exemple, vous pouvez utiliser le module HTTP (get a file) pour récupérer l’intégralité du contenu HTML d’un site :
Autre exemple, voici un morceau de scénario Make qui réalise un screenshot par API en utilisant ScreenshotOne puis fait une analyse par vision avec OpenAI avant de partager le résultat :
C’est un morceau du scénario que je vais utiliser plus bas avec mes agents IA où 1 des agents va mener une analyse de positionnement (dont branding) sur des concurrents.
Optimiser les résultats
Pour optimiser l’extraction, le mieux est de passer par des outils qui vont récupérer le contenu d’un site en HTML mais vont le formater pour avoir seulement les informations en json ou markdown.
Voici par exemple le résultat de l’appel API d’un outil comme Jina et la réponse quand on souhaite obtenir un résumé de la page :
Plusieurs outils existent sur le marché comme Jina.ai ou Firecrawl (plus cher mais plus complet que Jina) et permettent d’optimiser l’extraction avant de le partager à un modèle IA. Jina offre pas mal de crédits gratuis.
Un exemple concret avec une équipe d’Agents IA
Je vous partage comment j’ai crée une équipe d’Agents IA de scraping qui me permet de rédiger des rapports d’analyse concurrentielle depuis une demande textuelle sur Discord.
Pour ceux qui veulent lire les précédentes éditions sur les agents IA (et système multi-agents), vous pouvez jeter un œil à :
La structure de mon équipe d’agents IA
L’idée est d’avoir des agents IA qui récupèrent des informations sur mes concurrents en multipliant les sources.
Les agents ont à disposition des outils de scraping (Avis vérifiés, LinkedIn, YouTube, actualités, blog, etc) et les étapes sont les mêmes :
Depuis le nom des entreprises, identifier les sites cibles
Extraire les informations des sites
Partager les informations à un modèle d’IA pour génération d’un rapport
Génération d’un rapport sur Google Docs depuis la réponse du modèle
Les agents sont crées sur Relevance AI avec une logique d’agent manager et de sous-agents.
Et chaque agent est équipé d’une série d’outils à sa disposition pour atteindre son objectif.
La réponse est envoyée par mail. La durée de l’analyse est d’environ 7 minutes pour 2 enrteprises et 5 rapports différents.
Les rapports sont complets, voici un aperçu sur les avis (scraping de trustpilot)
Définir le déclencheur
Pour exploiter l’automatisation, le mieux est d’utiliser un canal de communication interne comme Slack, Discord, Teams, ... en format chat. Cela permet de réaliser une demande textuelle complète tout en s’intégrant dans vos process du quotidien.
Je pense que les déclencheurs des agents IA seront en majoritié branchés aux outils de communication interne que l’on utilise, cela nous permet d’avoir un comportement similaire à un collègue.
Et permet à n’importe qui de mobiliser des agents de scraping.
Bilan de mon équipe d’agents IA
Le scraping avec l’IA a un potentiel énorme. Le gros plus de l’équipe d’agents IA, c’est qu’avec une demande basique du type :
Envoie un rapport complet sur cette année pour les entreprises X , Y et Z
Je réussis à avoir un résultat complet pour un coût très faible. Cela m’aurait pris beaucoup de temps pour générer une première base de 5 rapports différents ou avoir un aperçu complet des actions réalisées par les concurrents sur les réseaus sociaux, sur leur site, les actualités, … pour identifier des opportunités de positionnement.
En termes de coût, Relevance AI fonctionne par crédit et a utilisé environ 0,08€ au total. J’ai également quelques scénarios qui sont sur Make qui renvoient des informations à Relevance AI mais c’est moins de 0,05€ par rapport au nombre d’opérations.
Je peux avoir quelques blocages sur certains sites, mais les agents font preuve d’esprit critique et peuvent partager l’information du type “je n’ai pas réussi à extraire les informations pour ce concurrent sur son site internet..”
Globalement, je trouve ça super pratique et le potentiel pour de la génération de leads est très intéressant.
Si les agents IA (ou l’IA en général) vous intéresse et vous souhaitez l’exploiter dans un cadre pro, n’hésitez pas à rejoindre la communauté, un espace d’échange pour exploiter l’IA au quotidien.
Pour aller plus loin
D’autres alternatives existent comme AgentQL qui permet d’extraire des informations de n’importe quel site depuis une requête textuelle
L’outil réalise les mêmes étapes que l’on a vu sous un format clé en main. Très pratique mais à 99$/ mois.
Si vous avez apprécié le contenu, n’oubliez pas de mettre un ❤️ et de partager la newsletter, ça me booste à continuer de vous partager du contenu 😊
🗞️ 3 actus importantes
Le plateau de l’IA est-il déjà atteint ?
Un débat divise actuellement la communauté IA autour de la question : sommes-nous face à une limite des capacités de raisonnement des modèles ? Malgré les investissements massifs en puissance de calcul, les acteurs rencontrent des difficultés à dépasser les benchmarks actuels. Cela pourrait indiquer un problème structurel.
Les gros acteurs du secteur (OpenAI, Anthropic, Alphabet) explorent des solutions pour contrer le ralentissement des progrès de l’IA
Par exemple, le prochain modèle phare d'OpenAI pourrait ne pas marquer un saut qualitatif aussi net que ses prédécesseurs. Bien que ses performances surpassent les modèles actuels, les améliorations paraissent moins significatives qu’entre GPT-3 et GPT-4.
OpenAI et Anthropic restent toutefois optimistes, estimant que l’AGI reste à portée de main.
👉 Source : TechCrunch
interview CEO Claude
Dario Amodei, CEO d’Anthropic et l’avenir de l’IA
Des opportunités mais des précautions indispensables : c’est le résumé de 5h d’échange sur le podcast de Lex Fridman.
Le CEO d’Anthropic propose une vision de l’IA optimiste mais raisonnée, en pointant ses potentiels bienfaits tout en insistant sur la nécessité d’une régulation.
D’ici 2026-2027, il prévoit que les IA atteindront des capacités proches de celles des experts de chaque domaine rendant possible des avancées décisives.
Pour la programmation, l’automatisation pourrait prendre en charge 80 à 90 % des tâches de codage, libérant les développeurs pour se concentrer sur l'architecture des systèmes. Au-delà des métiers technologiques, même l'agriculture pourrait être transformée par l'IA, bien que ce changement prenne davantage de temps.
Mais, il est aussi un lanceur d’alerte sur le risque de concentration du pouvoir entre les mains de quelques acteurs et appelle à une régulation intelligente qui soutienne l'innovation tout en protégeant les intérêts de la société.
Face aux risques éthiques, il insiste sur des techniques de vérification rigoureuses pour s'assurer que ces IA agissent conformément aux valeurs humaines.
La collaboration homme-IA restera essentielle, les humains continuant à jouer un rôle central dans la direction des travaux, même à mesure que les IA deviennent plus autonomes.
👉 Source : YouTube
OpenAI : un agent IA pourrait arriver dès janvier
OpenAI se prépare à lancer dès janvier un nouvel agent IA nommé “Operator”, conçu pour exécuter des actions directement sur l'ordinateur de l’utilisateur, comme la réservation de voyages ou l'écriture de code. Selon Bloomberg, cet outil, initialement destiné aux développeurs en version de prévisualisation, pourrait se déployer dans les navigateurs pour faciliter diverses tâches en ligne.
La concurrence autour des agents IA s’intensifie, avec Anthropic et son nouvel agent “Computer Use” et un outil similaire que Google préparerait pour le grand public. L’introduction d’Operator suit cette tendance, où les agents intelligents prennent en charge des tâches multi-étapes.
On parlait déjà du sujet des Agents IA et Sam Altman dans la précédente newsletter. ça serait une percée majeure en IA.
👉 Source TechCrunch / Source Bloomberg
🎙️ Automatiser son support client avec l’IA
Nicolas Pellissier, CEO de Klark, solution d’automatisation du support client en autopilote ou copilote, a partagé des chiffres, exemples concrets et sa vision du support client avec l’arrivée de l’IA générative.
Le service client est transformé par l’IA : on va passer d’un centre de coût à centre de profit.
Le constat est clair : le support client est transformé par l’IA générative. (épisode ici)
“Donner à la machine le côté machinal crée chez les humains et redonner à l’humain le caractère humain”, Nicolas Pellissier de Klark.ai
Les chiffres :
50% de réduction de temps pour traiter un ticket
+10 points de satisfaction client
10 à 50% de gain de productivité totale
Taux de succès de 50% sur la suggestion de réponse dès le jour 1
Facturation au succès à 0,50 € par réponse réussie
On parle de comment utiliser l’IA progressivement dans son support, les gains possibles, la gestion des tickets, l’utilisation de son historique de réponses, les limites et risques possibles, leur modèle au succès et l’avenir du support client.
Pour suivre la transformation en cours du support client, vous pouvez retrouver l’épisode intégral sur les plateformes audio ou sur YouTube.
Merci 🫶🏼
D’avoir lu cette édition jusqu’au bout.
Si ça t’a plu, pense à cliquer sur le ❤️ juste en dessous et partage ton point de vue en commentaire👇🏼
Vous pouvez aussi partager la newsletter à votre entourage (ça me booste beaucoup 🙏) et gagner des cadeaux 🎁
1 parrainage = 1 hack personnalisé
3 parrainages = +400 outils IA triés par thématique et vertical métier
5 parrainages = 30 min de coaching sur votre problématique
À très vite !
Intéressante cette édition 👍
Merci Louis, c'est très intéressant , même si en effet très technique pour une personne qui n'est que débutante.
Si vous avez d'autres ressources sur la créa d'Agents IA depuis l'édition de cette newsletter je suis preneur!