Capitolo 2 — Modelli linguistici di grandi dimensioni (LLM)

Definizione e principi di funzionamento dei LLM, token e finestra di contesto, progettazione dei prompt, allucinazioni e mitigazioni, capacità e limiti, panoramica dell’ecosistema e buone pratiche per l’uso educativo.

2.1 Perché i LLM contano oggi

La disponibilità di modelli generativi accessibili ha trasformato il modo di cercare informazioni, scrivere, programmare e progettare attività. L’impatto è visibile tanto nella didattica quanto nel lavoro quotidiano: un docente può preparare una bozza di rubriche o generare esempi graduati; uno studente può riformulare un paragrafo difficile o creare un glossario di supporto. Per sfruttare queste possibilità è utile conoscere come i modelli funzionano a grandi linee e dove possono fallire.

2.2 Che cosa è un LLM

Un Large Language Model è un sistema addestrato su ampie collezioni di testo per prevedere il prossimo elemento di una sequenza (parola o porzione di parola). Da questa abilità elementare emergono comportamenti complessi: capacità di seguire istruzioni, di adattarsi a formati diversi, di mantenere coerenza sul breve periodo e di manipolare strutture linguistiche con flessibilità. La risposta prodotta non è recuperata da un archivio, ma generata token dopo token in base al contesto fornito.

2.3 L’architettura Transformer, in poche parole

I LLM moderni si basano comunemente su un’architettura chiamata Transformer. L’idea chiave è il meccanismo di attenzione: il modello, mentre elabora un token, “pesa” le parti più rilevanti della sequenza già vista e usa queste relazioni per produrre la continuazione. Strati successivi di attenzione e proiezioni lineari consentono di comporre relazioni via via più astratte. Non è necessario entrare nei dettagli matematici per farne un uso consapevole: basti sapere che questa struttura permette di modellare in modo efficace dipendenze anche lontane nel testo e di adattarsi a compiti diversi senza riscrivere l’algoritmo da zero.

2.4 Token e tokenizzazione

Il testo non viene letto come un flusso continuo di caratteri. Prima dell’elaborazione, una funzione chiamata tokenizer divide l’input in token, che possono essere parole intere, parti di parola o anche segni di punteggiatura. Il modello ragiona e genera a livello di token. Questo ha conseguenze pratiche: la lunghezza di prompt e risposta è misurata in token; espressioni apparentemente brevi possono occupare molti token (per esempio, lingue con parole composte o testi tecnici ricchi di simboli). Saper stimare l’ordine di grandezza del conteggio aiuta a progettare interazioni più efficienti.

2.7 Progettare prompt efficaci

Un prompt efficace specifica ruolo, contesto, obiettivo e forma dell’output. Definire il ruolo orienta il tono e le priorità; includere il contesto evita ambiguità; chiarire l’obiettivo riduce il rischio di divagazioni; fissare l’output desiderato (per esempio, “un paragrafo argomentato”, “una tabella con tre colonne”, “uno schema in dieci righe”) facilita la valutazione e il riuso. È spesso utile aggiungere vincoli (criteri di qualità, livello linguistico, riferimenti a cui attenersi) ed esempi dell’output atteso, specialmente quando si richiede un formato standardizzato.

Ruolo: sei un redattore tecnico.
Contesto: devo spiegare a lettori non specialisti come funziona la finestra di contesto nei LLM.
Obiettivo: scrivi un paragrafo chiaro e conciso che definisca il concetto ed evidenzi due implicazioni pratiche.
Output: un unico paragrafo di 6–8 frasi, senza elenchi.
Vincoli: evita termini non spiegati; se introduci un termine tecnico, definiscilo.

2.9 Allucinazioni: che cosa sono e come si mitigano

Con allucinazione si intende un’uscita plausibile ma errata o non supportata da fonti. Non è un “capriccio” occasionale, bensì una conseguenza del modo in cui i LLM generano testo: quando il contesto è insufficiente o il modello è “spinto” a completare un’informazione che non possiede, può produrre una risposta convincente ma falsa. Le forme più comuni includono l’invenzione di fatti, contraddizioni interne fra parti dell’output, risposte prive di senso in situazioni limite e riferimenti a pacchetti o librerie inesistenti nella generazione di codice.

La mitigazione richiede più livelli di difesa. In primo luogo, istruzioni chiare che autorizzino l’astensione (“se l’informazione non è disponibile, dichiara che non lo è”) e che impongano un formato verificabile (per esempio, citazioni obbligatorie con controllo dei link). In secondo luogo, l’integrazione con fonti esterne attraverso tecniche di recupero di documenti, che forniscono al modello materiali da cui attingere. Infine, la verifica umana resta imprescindibile: confronto con fonti indipendenti, controllo incrociato dei numeri, test su esempi noti.

2.13 Glossario essenziale (LLM)

LLM (Large Language Model): Modello addestrato su grandi collezioni di testo per generare o trasformare linguaggio naturale.
Token: Unità elementare di testo (parola, parte di parola, segni) usata per la lettura e la generazione.
Tokenizer: Funzione che converte testo in sequenze di token e viceversa.
Finestra di contesto: Quantità massima di token che il modello considera simultaneamente (input + output).
Temperatura / top-p: Parametri che regolano la variabilità dell’uscita.
Prompt: Istruzione che specifica ruolo, contesto, obiettivo e forma dell’output.
Allucinazione: Risposta plausibile ma errata o non supportata da fonti.
Multimodalità: Capacità di trattare, oltre al testo, immagini, audio e altri segnali.
MoE (Mixture of Experts): Schema in cui diverse “parti” specializzate del modello vengono attivate su porzioni diverse dell’input per aumentare efficienza e capacità.
RAG (Retrieval-Augmented Generation): Tecnica che combina recupero di documenti e generazione per aumentare accuratezza e verificabilità.

2.14 Bibliografia essenziale e risorse

Introduzioni visuali al Transformer e alla self-attention.
Strumenti pubblici di conteggio token e di esplorazione della tokenizzazione.
Guide pratiche alla progettazione di prompt e alla riduzione delle allucinazioni.
Piattaforme educative sull’IA con percorsi per non specialisti.