Con l’articolo di oggi chiudiamo il cerchio vedendo cosa accade quando l’utente pone una domanda:
il sistema esegue queste operazioni:
1️⃣ la domanda viene convertita in embedding
2️⃣ Qdrant cerca i vettori più simili
3️⃣ vengono recuperati i documenti rilevanti
4️⃣ il contesto viene inviato all’LLM
5️⃣ il modello genera la risposta
Flusso:
|||
▼
Embedding
|||
▼
Qdrant search
|||
▼
Documenti rilevanti
|||
▼
LLM (Ollama)
|||
▼
Risposta finale
Questo modello permette di ottenere risposte basate sui propri dati, non solo sulle conoscenze del modello.
Conclusioni
Con l’introduzione di Qdrant il laboratorio AI su Kubernetes diventa una vera piattaforma RAG completa.
L’architettura ora è composta da:
- Ollama → esecuzione dei modelli LLM
- Qdrant → database vettoriale
- Open WebUI → gestione knowledge base e interfaccia utente
Questo stack consente di costruire rapidamente assistenti AI che rispondono utilizzando documentazione aziendale, manuali tecnici o dati proprietari.
Nel prossimo articolo vedremo come:
- creare dataset strutturati
- migliorare il chunking dei documenti
- ottimizzare la qualità delle risposte del modello.
Nell’immagine in calce il riassunto di quello che è stato messo in esercizio nel laboratorio

