Dopo aver installato un LLM locale con Ollama su Kubernetes, il passo successivo per costruire un sistema AI realmente utile è permettere al modello di consultare una knowledge base personalizzata.
Questo approccio prende il nome di RAG – Retrieval Augmented Generation: il modello non si limita alle conoscenze con cui è stato addestrato, ma recupera informazioni da un database vettoriale contenente documenti indicizzati tramite embeddings.
Nel laboratorio Kubernetes utilizzato in questo articolo la pipeline è composta da:
- Ollama → esecuzione del modello LLM
- Qdrant → database vettoriale per gli embeddings
- Open WebUI → interfaccia grafica e gestione della knowledge base
- Embedding model → trasformazione dei documenti in vettori
Architettura semplificata:
│
▼
Open WebUI
│
|– Query → Ollama (LLM)
│
└── Search → Qdrant (vector DB)
│
▼
Knowledge Base
Per il deployment di Qdrant è possibile utilizzare il chart Helm ufficiale.
Repository Helm: https://qdrant.github.io/qdrant-helm
Aggiungiamo il repository:
- helm repo add qdrant https://qdrant.github.io/qdrant-helm
- helm repo update
Installazione nel namespace dedicato all’AI:
–namespace ai \
–create-namespace
Dopo pochi secondi verifichiamo lo stato dei pod:
- kubectl get pods -n ai — Output atteso: qdrant-0 1/1 Running
Il servizio Kubernetes esposto sarà:
Esempio:
La porta 6333 espone l’API REST di Qdrant.
Verifica rapida:
Risposta attesa: healthz check passed
