Tu as déjà testé Claude pour écrire des emails commerciaux, peut-être même branché un Zapier dessus. La question n'est plus là. Elle est : comment monter une boucle autonome qui qualifie les leads entrants selon tes critères, écrit les bonnes relances, met à jour ton CRM, et sait s'arrêter avant de griller ta délivrabilité. C'est un travail de configuration, pas de magie, et ça se fait en une après-midi si tu as préparé l'amont. Si tu veux d'abord poser les bases conceptuelles, passe par apprendre Claude avant d'attaquer la partie agent.
Cet article te donne la stack, les prompts, la grille de scoring et les garde-fous que la plupart des dirigeants découvrent trop tard, en général après avoir cramé une liste de 2 000 leads en deux semaines.
Ce qu'un agent commercial Claude fait vraiment (et ce qu'il ne fait pas)
Un agent commercial Claude excelle sur quatre tâches : qualifier un lead entrant via les infos disponibles (formulaire, signature, site web), lui attribuer un score, rédiger une relance personnalisée à partir des notes CRM, et mettre à jour le dossier. C'est répétitif, c'est structurable, c'est exactement le terrain d'un LLM avec outils.
Ce qu'il fait mal : closer un deal, négocier une remise, prospecter à froid en volume sans signal préalable. Dès que la conversation devient transactionnelle ou émotionnelle, tu as besoin d'un humain. La règle simple : si l'enjeu est de transformer un "peut-être" en "oui", l'agent passe la main.
Il faut aussi distinguer un prompt de génération d'emails d'un vrai agent. Un prompt produit du texte. Un agent boucle : il lit, décide, appelle un outil, lit le résultat, décide à nouveau. Cette boucle autonome avec accès au CRM et à la boîte mail, c'est ce qui fait la différence entre un copywriter assisté et un SDR automatisé. Pour la théorie complète, le pilier construire des agents IA autonomes avec Claude couvre l'architecture en détail.
Les briques techniques : API, MCP, CRM
La stack minimale tient en quatre composants :
- Un accès à l'API Anthropic avec une clé dédiée à cet agent (jamais ta clé personnelle de tests)
- Un ou plusieurs serveurs MCP pour connecter le CRM (HubSpot, Pipedrive, Folk) et la boîte mail (Gmail, Outlook)
- Un store de mémoire : une base Notion ou un SQLite local pour garder l'historique par lead, indépendant du CRM
- Un orchestrateur léger qui déclenche l'agent sur événement (nouveau lead, J+2, J+7)
Côté coût, sur Sonnet 4.6 (environ 3 USD le million de tokens en entrée, 15 USD en sortie selon les données 2026), une qualification complète avec lecture du contexte CRM tourne entre 0,05 et 0,20 USD par lead. Une séquence de 4 relances ajoute environ 0,30 USD. Tu dépenses donc 0,50 USD pour amener un lead jusqu'au RDV ou jusqu'au break-up. À comparer au coût d'une heure de SDR.
Définir les critères de qualification avant de toucher au prompt
C'est l'étape que tout le monde saute. Résultat : un agent qui répond "ce lead semble intéressant, à recontacter" sur 80% des cas. Inutile.
Avant d'écrire une ligne de prompt, mets sur papier ta grille de scoring chiffrée. Voici un exemple pour une agence de services B2B qui vend des prestations à 15-50k€ :
| Critère | Pondération | Signal positif |
|---|---|---|
| Budget | 30 points | Mention de budget > 10k, taille entreprise > 20 personnes |
| Timing | 25 points | Démarrage sous 3 mois explicite |
| Autorité | 25 points | Titre dirigeant, fondateur, head of |
| Besoin | 20 points | Problème nommé qui matche l'offre |
Seuil de transmission au commercial humain : 70 points. Entre 40 et 70 : séquence de nurturing automatique. Sous 40 : un seul email de qualification, puis archive.
Cette grille te prend deux heures à écrire avec ton équipe commerciale. Sans elle, l'agent te rendra du flou poli pendant des semaines.
Le system prompt de qualification : structure et exemple
Le prompt doit imposer un format de sortie structuré. C'est ce qui permet à l'orchestrateur de router vers le bon flux sans réinterpréter du texte libre.
Tu es un agent de qualification commerciale pour [NOM AGENCE].
Offre : prestations conseil data B2B, tickets 15-50k€, cycles 2-4 mois.
Pour chaque lead, tu reçois : formulaire de contact, signature email, infos LinkedIn si disponibles, historique CRM.
Tâche : noter le lead sur 100 selon la grille :
- Budget (30 pts)
- Timing (25 pts)
- Autorité (25 pts)
- Besoin (20 pts)
Retourne UNIQUEMENT un JSON valide :
{
"score": int,
"detail": {"budget": int, "timing": int, "autorite": int, "besoin": int},
"signaux": [string],
"prochaine_action": "handoff_humain" | "sequence_nurturing" | "email_unique" | "archive",
"note_pour_commercial": string
}
Règles strictes :
- Si "prochaine_action" = handoff_humain, le champ note_pour_commercial doit contenir 3 points d'attention max.
- Pas de score gonflé par politesse. Un lead sans budget mentionné = 0 en budget.
- Si tu détectes un sujet sensible (litige, presse, demande légale), force prochaine_action = handoff_humain.Sur un lead fictif "Marie Durand, COO d'une scale-up de 80 personnes, demande un audit data avant levée Series B prévue Q2", l'agent renvoie typiquement un score 85-90 avec handoff direct et une note du type "COO décisionnaire, contexte de levée donc budget validé, besoin urgent lié à due diligence". C'est exploitable tel quel par le commercial.
La logique de relance : cadence, contenu, signaux d'arrêt
Pour les leads en zone grise (40-70 points), tu déclenches une séquence. Le pattern qui tient sur la durée :
- J+2 : relance courte, angle question ouverte sur le contexte projet
- J+7 : envoi d'un cas client ou d'une ressource alignée avec le besoin détecté
- J+15 : question directe sur la priorité du sujet à 3 mois
- J+30 : email de break-up, ferme proprement la boucle
Chaque email est rédigé par Claude à partir des notes CRM du lead, pas à partir d'un template. La différence se voit immédiatement : référence à un point précis échangé, au secteur, à un signal LinkedIn récent. Le ton reste humain parce que l'agent dispose du contexte qu'un SDR met 10 minutes à compiler manuellement.
Signaux d'arrêt non négociables : réponse négative explicite, désabonnement, mention de concurrent déjà signé, ou détection d'un signal d'achat fort qui bascule en handoff humain immédiat. Si tu veux creuser l'orchestration multi-outils, l'article sur l'automatisation CRM avec Claude rentre dans le détail.
Brancher l'agent à votre CRM via MCP
MCP, le Model Context Protocol créé par Anthropic en 2024, est ce qui transforme ton prompt en agent connecté. Le serveur MCP expose des outils que l'agent peut appeler : read_contact, update_lead_score, log_interaction, schedule_followup, send_email.
Étapes concrètes pour brancher HubSpot ou Pipedrive :
- Installer le serveur MCP du CRM (la plupart des CRM majeurs ont un connecteur officiel ou communautaire fiable)
- Créer une clé API CRM dédiée à l'agent, avec permissions limitées aux objets contacts/deals nécessaires
- Tester en sandbox sur 10 leads de test avant toute mise en production
- Vérifier le log d'audit : chaque appel d'outil doit être tracé avec timestamp et payload
Les écueils classiques : permissions trop larges (l'agent peut supprimer des contacts par erreur), pas de log d'audit donc impossible de débugger une mise à jour bizarre, agent qui écrase des champs commerciaux remplis manuellement parce que le prompt ne précise pas "ne modifie jamais un champ déjà rempli sauf si l'info est plus récente". L'article sur les serveurs MCP détaille la configuration pas à pas.
Garde-fous et supervision humaine
La première semaine en production, tu relis chaque email avant envoi. Oui, chaque. C'est pénible, et c'est exactement ce qui sauve ta délivrabilité et ta marque.
Les contrôles non négociables :
- Revue humaine systématique sur les 50 à 100 premiers messages envoyés
- Plafond quotidien d'envois (200 max au démarrage)
- Escalade automatique si l'agent détecte un sujet sensible : litige, demande légale, presse, mention RGPD
- Journalisation complète : pour chaque action, qui (agent ou humain), quoi, quand, sur quel objet CRM
- Kill switch accessible en une commande pour stopper l'agent si une dérive est détectée
Si tu laisses l'agent envoyer sans relecture la première semaine, tu apprendras à tes dépens qu'il a halluciné un cas client, attribué un titre erroné à un destinataire, ou répondu "bien sûr, je vous envoie le devis" à une demande qu'il n'aurait pas dû traiter. Le sujet de la sécurité des agents est traité plus en profondeur dans l'article sur sécuriser un agent Claude.
Mesurer la performance : les bons KPI
Le taux d'ouverture ne te dit rien d'utile. Les KPI qui comptent :
| KPI | Méthode | Ordre de grandeur visé |
|---|---|---|
| Taux de qualification correcte | Sampling de 20 leads/semaine vérifiés par un commercial humain | > 85% d'accord |
| Taux de RDV généré | RDV pris / leads entrés en séquence | 5 à 15% selon la qualité du flux |
| Coût en tokens par RDV | Dépense API totale / nombre de RDV | 1 à 5 USD par RDV qualifié |
| Temps économisé SDR | Heures SDR avant vs après, à volume égal | 50 à 70% sur la qualification |
Le taux de qualification correcte est le seul qui te dit si l'agent comprend vraiment ton business. Tu le mesures par sampling humain, pas en regardant les sorties JSON. Si l'accord descend sous 80%, ton system prompt ou ta grille de scoring est cassé.
Quand passer la main au commercial humain
Le handoff propre est ce qui sépare un agent utile d'un agent insupportable pour l'équipe commerciale. Les triggers explicites :
- Score au-dessus du seuil de transmission
- Demande explicite de rappel ou de devis
- Signal d'urgence détecté ("on a besoin de démarrer la semaine prochaine")
- Complexité hors-périmètre (besoin multi-pays, sujet réglementaire, demande sur-mesure)
Au moment du handoff, l'agent ne forwarde pas le thread d'emails. Il génère un dossier propre : résumé en 5 lignes de l'échange, score détaillé, 3 points d'attention pour le commercial, prochaine action suggérée avec timing. Le commercial ouvre le dossier, lit 30 secondes, appelle. C'est ce niveau de propreté qui fait que l'équipe commerciale adopte l'outil au lieu de le contourner.
Passer à la pratique
La configuration décrite ici se monte en une après-midi si tu as ta grille de scoring prête et un CRM avec un connecteur MCP existant. La partie longue, ce sont les deux semaines de supervision humaine sur les premiers messages, pendant lesquelles tu affines le prompt à partir des cas où l'agent s'est trompé. Ce n'est pas négociable, c'est l'investissement qui rend l'agent fiable en production.
Si tu veux structurer la démarche complète, de la définition de l'ICP au déploiement supervisé, avec retours sur des configurations testées dans des PME et agences francophones, piloter vos agents autonomes couvre le parcours pas à pas. Tu peux aussi consolider tes bases côté configuration Claude pour un usage pro avant d'attaquer la partie agentique.
