Lead Management AI, Antonio Guastella

01 Il problema

Un'azienda cliente riceveva decine di messaggi WhatsApp al giorno da potenziali clienti, richieste di preventivo, domande su prodotti, richieste di appuntamento. La gestione era manuale, lenta, e molti lead andavano persi nel caos. Non c'era nessun sistema di qualificazione o routing automatico verso il commerciale giusto.

L'obiettivo: risposta automatica intelligente ai messaggi WhatsApp entro 30 secondi, qualificazione del lead, raccolta strutturata delle informazioni, e notifica al CRM interno con il profilo già compilato.

02 Architettura del sistema

ingresso

WhatsApp Business API (webhook) Testo · Immagini · Documenti

↓ webhook → n8n

orchestrazione · n8n

Classificazione intento (OpenAI) Estrazione entità strutturate Routing per categoria lead Gestione stato conversazione Escalation a operatore umano

↓

AI · RAG

GPT-4o (risposta e classificazione) Qdrant (vector store) Embedding documenti aziendali Retrieval top-K per contesto

↓

uscite

Risposta WhatsApp automatica Lead card → CRM (webhook) Notifica Slack/email al team Log strutturato in database

03 Flusso di una conversazione

t = 0s, messaggio ricevuto

WhatsApp Business API riceve il messaggio e triggera il webhook n8n. Il sistema recupera la storia della conversazione (fino a N turni) dallo store.

t ≈ 1s, classificazione intento

GPT-4o classifica il messaggio: richiesta preventivo / info prodotto / appuntamento / reclamo / altro. L'output è JSON strutturato con confidence score.

t ≈ 2s, RAG retrieval

La query viene embeddata e cercata in Qdrant contro il corpus documentale aziendale (listini, FAQ, schede prodotto). Top-3 chunks iniettati nel contesto del prompt di risposta.

t ≈ 4s, risposta generata

GPT-4o genera una risposta personalizzata in stile e tono aziendale configurabili. Se il lead è qualificato, estrae nome, prodotto di interesse, budget indicativo, urgenza.

t ≈ 5s, CRM & notifica

La lead card viene inviata al CRM via webhook. Il team commerciale riceve notifica con il profilo compilato e un breve riassunto delle info salienti.

04 RAG, implementazione

Ingestion pipeline

SorgentiPDF, DOCX, pagine web

ChunkingSemantic (512 token, 50 overlap)

Embeddingtext-embedding-3-small

StoreQdrant (self-hosted, Docker)

Retrieval

AlgoritmoCosine similarity

Top-K3 chunks per query

ThresholdScore minimo 0.72

Latency< 80ms (P95)

Guardrail anti-allucinazione. Il prompt di sistema include una regola esplicita: se nessun chunk recuperato supera il threshold, il modello risponde con una formula di escalation standard invece di inventare informazioni aziendali. Questo ha eliminato le risposte inventate sui prezzi.

05 Infrastruttura

n8n è deployato self-hosted su VPS con accesso sicuro via Cloudflare Tunnel, nessuna porta aperta sul firewall. Qdrant gira in Docker con volume persistente. Il tutto su ~4 GB RAM, costo infrastruttura < 15 €/mese.

Hosting

n8nVPS Ubuntu (self-hosted)

QdrantDocker container

AccessoCloudflare Tunnel (zero-trust)

BackupQdrant snapshot giornaliero

Costi mensili stimati

VPS (2vCPU, 4GB)~8 €/mese

OpenAI APIvariabile (input volume)

WhatsApp BusinessMeta pricing per conv.

Cloudflaregratuito

06 Stack completo

n8n OpenAI GPT-4o Qdrant WhatsApp Business API text-embedding-3-small Docker Cloudflare Tunnel Python SQLite Webhook Slack API

Lead Managementcon n8n + AI

Lead Management
con n8n + AI