Vai al contenuto

Il RAG per le aziende: costruire assistenti di conoscenza che funzionano davvero

La generazione aumentata dal recupero (RAG) ancora le risposte dell'IA ai tuoi dati. Cos'è il RAG, quando batte il fine-tuning o un semplice prompt, e cosa distingue un assistente di conoscenza di cui fidarti da una semplice demo.

Samuel Nguessam11 min di lettura

Il punto di partenza

La generazione aumentata dal recupero (RAG) è lo schema dietro la maggior parte degli assistenti di IA utili su contenuti privati: invece di affidarsi a ciò che un modello ha appreso in addestramento, il sistema recupera i passaggi pertinenti dai tuoi documenti e li fornisce al modello come ancoraggio, così che la risposta si basi sui tuoi dati e possa citare la propria fonte.

È lo strumento giusto per un compito preciso: rispondere a domande su un corpo di conoscenza che cambia e su cui il modello non è mai stato addestrato, le tue policy, i tuoi ticket, i tuoi contratti, la documentazione del tuo prodotto. È anche ampiamente usato a sproposito, applicato a problemi che un semplice prompt risolverebbe, o scelto quando la vera esigenza era cambiare il comportamento del modello e non i suoi fatti.

Questo testo è la versione pratica: cos'è RAG, quando batte le alternative, cosa fa la differenza tra un assistente di conoscenza di cui la gente si fida e uno che la gente smette in silenzio di usare, e come li costruiamo e li gestiamo perché restino accurati dopo il lancio.

Come costruiamo

Dall'idea alla produzione

Il modo in cui SDEN trasforma un'idea come questa in un sistema che puoi gestire.

testarafforzarilasciaUn'ideacome questaPrototiposi testaRafforzatoeval + guardrailIn produzionene sei proprietario
Cos'è

Ancoraggio, non memorizzazione

Un modello linguistico sa molto in generale e niente sulla tua azienda in particolare. RAG colma quel divario al momento della query.

Quando un utente pone una domanda, un sistema RAG recupera prima i frammenti più pertinenti dai tuoi contenuti indicizzati, poi li passa al modello insieme alla domanda con l'istruzione di rispondere a partire dal materiale fornito e di citarlo. Il modello non sta più indovinando a partire dai dati di addestramento; sta leggendo i tuoi documenti e li sta riassumendo. È questo che rende la risposta attuale, specifica e verificabile.

Le due metà contano allo stesso modo, e la maggior parte dei guasti sono guasti di recupero, non guasti del modello. Se il passo di recupero porta a galla i passaggi sbagliati, anche il modello migliore produce una risposta sicura, sbagliata e ben scritta. Un assistente di conoscenza vale solo quanto ciò che recupera, ed è per questo che le parti poco affascinanti (come si segmentano i documenti, come vengono incorporati, come si valuta il recupero) decidono se la cosa funziona.

Ancoraggio, non memorizzazione
Fig. · Ancoraggio, non memorizzazione
RAG e le alternative

Recupero, fine-tuning, o solo un prompt più lungo

Scegli RAG quando le risposte devono essere ancorate a un corpus grande, mutevole, o entrambi, e quando citare la fonte conta. Scegli il fine-tuning quando devi cambiare il modo in cui il modello si comporta, il suo tono, formato o una competenza ristretta, non i fatti che conosce; il fine-tuning insegna lo stile e gli schemi, non un corpo di conoscenza in movimento. Scegli un semplice prompt quando la conoscenza è abbastanza piccola da incollarla nel contesto, nel qual caso il recupero è un sovraccarico di cui non hai bisogno.

Non si escludono a vicenda, e i sistemi più solidi li combinano: un modello sottoposto a fine-tuning o ben istruito per il comportamento, RAG per i fatti. L'errore che vediamo più spesso è fare il fine-tuning di un modello sui documenti di un'azienda nella speranza che li memorizzi. Non funziona in modo affidabile: il modello mescola insieme i fatti, non può citare, e diventa obsoleto nel momento in cui un documento cambia. Se il requisito sono risposte accurate da documenti attuali, è RAG, ogni volta.

Sbagliare questa scelta è costoso in entrambe le direzioni. Abbiamo visto progetti di fine-tuning che avrebbero dovuto essere una build RAG di due settimane, e pipeline RAG elaborate per una base di conoscenza che stava in un singolo prompt. Diamo un nome alla ragione della scelta prima di costruire, perché l'architettura è difficile da tornare indietro dopo.

Recupero, fine-tuning, o solo un prompt più lungo
Fig. · Recupero, fine-tuning, o solo un prompt più lungo
Cosa lo rende affidabile

Controllo degli accessi, ancoraggio e un set di valutazione

Tre cose separano un assistente di conoscenza che puoi mettere davanti a personale o clienti da una demo. La prima è il controllo degli accessi a livello di recupero: l'assistente deve recuperare solo dai documenti che l'utente corrente è autorizzato a vedere, applicato quando la query viene eseguita, non filtrato a posteriori. Un assistente che può portare a galla un documento che un utente non avrebbe mai dovuto vedere è una violazione di dati con un'interfaccia amichevole.

La seconda è l'ancoraggio e la citazione: ogni risposta rimanda ai passaggi da cui proviene, così che un utente possa verificarla e un revisore possa controllarla. Gli assistenti che rispondono senza citazioni abituano la gente a fidarsi ciecamente, che è esattamente il contrario di ciò che serve per qualsiasi cosa portante. La terza è la misurazione: un set di valutazione graduato che assegna un punteggio all'accuratezza e all'ancoraggio delle risposte a ogni cambiamento, così che le regressioni di qualità vengano colte in sviluppo e non da un cliente in produzione.

Anche la conoscenza cambia, quindi il recupero va mantenuto: re-indicizzazione man mano che i documenti si aggiornano, e monitoraggio della qualità del recupero per il lento degrado che erode la fiducia trimestre dopo trimestre. La build è la parte facile; la postura operativa è ciò che lo tiene accurato un anno dopo.

Controllo degli accessi, ancoraggio e un set di valutazione
Fig. · Controllo degli accessi, ancoraggio e un set di valutazione
Come SDEN costruisce RAG

Tre impegni su ogni build di assistente di conoscenza

Costruiamo l'intera pipeline e la consegniamo, con il controllo degli accessi e le valutazioni che la rendono sicura da usare, poi la gestiamo finché il tuo team non è in grado di farlo.

Il recupero prima della generazione

Investiamo dove i guasti si trovano davvero: segmentazione, embedding e scoring del recupero, misurati su un vero set di domande dei tuoi utenti. Un buon livello di recupero fa sembrare eccellente un modello ordinario; uno cattivo rende inaffidabile il modello migliore.

Il controllo degli accessi non è opzionale

I permessi sono applicati al momento della query, così che l'assistente non possa mai portare a galla un documento che l'utente non è autorizzato a vedere. Fa parte dell'architettura fin dal primo giorno, non è un filtro aggiunto dopo.

Misurato, poi mantenuto

Ogni assistente è consegnato con un set di valutazione che assegna un punteggio ad accuratezza e ancoraggio a ogni cambiamento, oltre al monitoraggio della deriva del recupero in produzione, e alla pipeline di dati e baseline di valutazione che lo rendono manutenibile dopo la consegna.

Com'è il successo

Un assistente di cui la gente si fida davvero

Un anno dopo, l'assistente è ancora accurato, cita ancora le sue fonti, e non ha fatto trapelare in silenzio un documento né è scivolato in sicure assurdità.

Il test onesto di un assistente di conoscenza non è la demo di lancio; è se la gente lo usa ancora dopo averlo colto in errore. La fiducia si perde la prima volta che un assistente inventa una policy o porta a galla qualcosa che non avrebbe dovuto, ed è quasi impossibile riconquistarla. È per questo che ancoraggio, citazione e controllo degli accessi non sono rifiniture: sono il prodotto.

Gli assistenti che restano affidabili sono quelli che sono stati misurati fin dall'inizio e mantenuti dopo il lancio. La qualità del recupero è sorvegliata, il set di valutazione cresce man mano che si scoprono nuovi modi di guasto, e l'indice tiene il passo con i documenti. Niente di tutto ciò è affascinante, e tutto ciò è ciò che separa un sistema che cresce di valore da uno che viene abbandonato in silenzio in due trimestri.

Fatto bene, un assistente di conoscenza trasforma la conoscenza sparsa e poco usata di un'azienda in qualcosa che ogni dipendente può interrogare in linguaggio semplice, con risposte che può verificare. È un vantaggio durevole, e ti appartiene: la pipeline, le valutazioni e il codice.

Un assistente di cui la gente si fida davvero
Fig. · Un assistente di cui la gente si fida davvero
FAQ

IA per i fondatori
le domande che ci fanno più spesso.

Risposte dirette alle domande che ci vengono poste più spesso. Se la tua non c'è, scrivi al team.

Mettilo in pratica

Dalla lettura alla pratica

Trasforma questo in qualcosa di reale.

poipoipoiLeggi questoProvaloApplica sul realeGestiscilo tu
Le idee costano poco; ti aiutiamo a rilasciare e possedere il sistema dietro.
Dall'analisi all'azione

Pronto a costruire e a possedere la tua IA?

Dicci cosa stai costruendo. La prima fase è l'inquadramento: un'architettura, un registro dei rischi e un go / no-go di cui ci facciamo carico.

Il RAG per le aziende: costruire assistenti di conoscenza che funzionano davvero · SDEN