Come funziona una query RAG

Con l’articolo di oggi chiudiamo il cerchio vedendo cosa accade quando l’utente pone una domanda:

Qual è il colore segreto del laboratorio AI?

il sistema esegue queste operazioni:

1️⃣ la domanda viene convertita in embedding
2️⃣ Qdrant cerca i vettori più simili
3️⃣ vengono recuperati i documenti rilevanti
4️⃣ il contesto viene inviato all’LLM
5️⃣ il modello genera la risposta

Flusso:

Domanda utente
|||

Embedding
|||

Qdrant search
|||

Documenti rilevanti
|||

LLM (Ollama)
|||

Risposta finale

Questo modello permette di ottenere risposte basate sui propri dati, non solo sulle conoscenze del modello.

Conclusioni

Con l’introduzione di Qdrant il laboratorio AI su Kubernetes diventa una vera piattaforma RAG completa.

L’architettura ora è composta da:

  • Ollama → esecuzione dei modelli LLM
  • Qdrant → database vettoriale
  • Open WebUI → gestione knowledge base e interfaccia utente

Questo stack consente di costruire rapidamente assistenti AI che rispondono utilizzando documentazione aziendale, manuali tecnici o dati proprietari.

Nel prossimo articolo vedremo come:

  • creare dataset strutturati
  • migliorare il chunking dei documenti
  • ottimizzare la qualità delle risposte del modello.

Nell’immagine in calce il riassunto di quello che è stato messo in esercizio nel laboratorio

Modello AI

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *