Piccolo manuale essenziale – Dalla pagina Facebook di Walter Quattrociocchi

A seguito di sua autorizzazione il contenuto di questa pagina è stato riadattato da alcuni post pubblicati da Walter Quattrociocchi, sulla sua pagina Facebook.
Nota. Le pagine Facebook pubbliche sono accessibili anche senza account. È sufficiente chiudere la richiesta di accesso.

Bignamino 1

Concetti base degli LLM per evitare discussioni inutili e metafore deliranti (ovvero: capire in 90 secondi un LLM e sembrare competenti a cena senza coprire l’abisso delle proprie lacune con il pensiero circolare e le supercazzole pop-filosofiche sull’etica dei termosifoni col cimurro).

Un LLM non è un pensatore profondo: è un sistema statistico addestrato su enormi quantità di testo per modellare le regolarità del linguaggio, senza accesso diretto al mondo reale. Tutto quello che fa è empiricamente descrivibile e riproducibile: nessuna magia, nessun spirito emergente.

Vediamone in dettaglio i pezzi principali.

Correlazione – due parole sono amiche se nei dati compaiono insieme più spesso di quanto accadrebbe per puro caso. Non serve sapere cosa significhino: il modello rileva che “pizza” e “mozzarella” si presentano insieme molto più di “pizza” e “batteria dell’auto” e registra quella regolarità. Ogni parola viene codificata come un vettore in uno spazio con centinaia di dimensioni; la vicinanza tra vettori riflette la probabilità di apparire in contesti simili. Non c’è semantica innata: è pura mappa statistica estratta dai dati, una geometria delle frequenze.

Processo stocastico – Quando scrive, un LLM non applica logica simbolica o ragionamento causale: genera sequenze di parole campionando dalla distribuzione di probabilità appresa per il contesto dato. Se il testo è “Il gatto sta…”, la distribuzione assegnerà alta probabilità a “dormendo” e bassa a “pilotando un aereo”. Parametri come temperature, top-ko nucleus sampling introducono variabilità, evitando risposte sempre identiche. È un processo formalmente descritto come catena di Markov di ordine elevato: chi sostiene che ragiona deve spiegare in che senso un campionamento condizionato possa costituire ragionamento.

Ottimizzazione – L’abilità dell’LLM non emerge per magia, ma da un processo di minimizzazione di una funzione di perdita (tipicamente la cross-entropy) tra le previsioni del modello e i dati reali. Attraverso il gradient descent, miliardi di parametri vengono regolati per ridurre sistematicamente l’errore di previsione sul prossimo token. Dopo trilioni di iterazioni, l’output diventa statisticamente indistinguibile dal testo umano. Questo non garantisce verità né comprensione, ma coerenza statistica: l’obiettivo è predittivo, non epistemico.

Transformer – È l’architettura che ha reso possibili gli LLM moderni. Il suo cuore è il self-attention, un meccanismo che, dato un testo, valuta quanto ogni parola sia rilevante rispetto a tutte le altre del contesto, non solo a quelle vicine. Invece di leggere il testo parola per parola (come facevano le vecchie reti neurali sequenziali), il Transformer considera l’intera sequenza in parallelo, calcolando in un colpo solo relazioni a breve e a lungo raggio. Questo permette di mantenere il contesto anche a distanza di molte parole, accelerare l’addestramento e gestire testi molto lunghi senza dimenticare parti importanti. È il motore che potenzia la generazione statistica, ma non ne cambia la natura: resta un simulatore di linguaggio, non un processore di significato.

Allucinazioni – Il modello può produrre frasi false ma plausibili perché non confronta le sue uscite con lo stato reale del mondo. L’accuratezza è un effetto sistematico, non un vincolo progettuale. Chiamarle allucinazioni è abbastanza imbecille: sono la conseguenza inevitabile di un sistema che ottimizza per plausibilità linguistica, non per veridicità fattuale.

Scaling – La potenza di un LLM non dipende solo dall’architettura, ma dalla scala: più parametri, più dati e più calcolo tendono a produrre modelli più capaci. Questo è il principio delle scaling laws: le prestazioni migliorano in modo prevedibile quando crescono insieme capacità del modello, quantità di dati e tempo di addestramento. È un fenomeno empirico: allargando la rete e nutrendola di più linguaggio, la mappa statistica diventa più dettagliata. Ma più grande non significa più intelligente: significa solo che il completatore di frasi ha un vocabolario statistico più ricco e preciso — e quindi riesce a sembrare ancora più credibile anche quando si inventa tutto.

La cosa affascinante non è che stia emergendo una mente, ma che siamo diventati capaci di codificare in forma computabile l’intelligenza implicita nel linguaggio. E quel linguaggio, con il suo senso, lo abbiamo generato noi. Un LLM è il riflesso statistico della nostra produzione linguistica, organizzato così bene da sembrare vivo, ma resta ciò che è: un simulatore di linguaggio umano, non un soggetto cosciente.

Bignamino 2

Concetti base sugli LLM, spiegati senza supercazzole (per smettere di parlare di mente estesa o coscienza delle macchine e capire come funzionano davvero)

Embedding – I computer non capiscono parole, elaborano numeri. Per questo ogni parola viene trasformata in un elenco di numeri chiamato vettore. Se due parole compaiono spesso nello stesso contesto (“gatto” e “cane”), i loro vettori saranno vicini; se non compaiono mai insieme (“gatto” e “trattore”), saranno lontani. È una mappa statistica, non un dizionario di significati. Nessun concetto, solo distanze in uno spazio di numeri.

Tokenizzazione – Il modello non legge il testo come facciamo noi. Spezza le frasi in piccoli pezzi chiamati token. A volte una parola è un token intero, altre volte viene spezzata: “incredibile” può diventare “in”, “credi”, “bile”. Il modello lavora solo con questi pezzi, non con concetti o frasi intere. Non c’è un pensiero sotto: solo pezzi da ricomporre.

Positional Encoding – Perché l’ordine delle parole non si perda, a ogni token viene aggiunta un’informazione sulla sua posizione nella frase. È così che il modello distingue tra “l’uomo morde il cane” e “il cane morde l’uomo”. Non è grammatica: è solo un trucco matematico per non confondere l’ordine. Coordinate, non regole sintattiche.

Fine-tuning e RLHF – Dopo l’addestramento di base, il modello viene educato con dati più mirati o con istruzioni di esseri umani (RLHF = Reinforcement Learning with Human Feedback). Qui gli umani dicono: “questa risposta va bene, questa no”. È così che il modello impara a rispondere in modo più chiaro e cortese, ma resta statistica, non personalità. Premi e punizioni, non comprensione.

Context window – Un modello non ricorda all’infinito. Ha una finestra di contesto che stabilisce quante parole può considerare alla volta. Se è troppo piccola, dimentica l’inizio della conversazione. Oggi i modelli più avanzati hanno finestre molto ampie e possono tenere a mente testi enormi in un’unica volta. Ma sempre con memoria a breve termine: finita la finestra, sparisce tutto.

Prompt engineering – Dare istruzioni chiare migliora le risposte. Non perché il modello capisca, ma perché guidi meglio la scelta delle parole. Domanda confusa = risposta confusa. Niente magia: solo input più mirati.

Decoding – Dopo aver calcolato la probabilità di ogni parola possibile, il modello deve sceglierne una.

Greedy decoding: prende sempre quella più probabile → testo corretto ma noioso.
Sampling: pesca a caso seguendo le probabilità → più varietà, ma rischia di dire sciocchezze.
Beam search: valuta più frasi in parallelo e sceglie la migliore → più lento ma di qualità. Non c’è ispirazione: solo diverse strategie di scelta.

Temperature e top-k – Sono le manopole dello stile.

Temperature regola la creatività: bassa = frasi prevedibili, alta = frasi fantasiose (a volte troppo).
Top-k dice al modello: “considera solo le k parole più probabili”

Tutto qui: numeri, probabilità, un po’ di informatica. Tantissimi dati e tanta potenza di calcolo.
Niente coscienza. Niente magia. Niente filosofia dei termosifoni.

Bignamino 3

Per provare a smettere di usare un LLM come un motore di ricerca o come una mente estesa (ovvero: come evitare di sembrare un dotto immaginario o un Savonarola Da Velletri).

C’è un’illusione diffusa – e sempre più redditizia – secondo cui i modelli linguistici spieghino le cose. Non importa quali. Filosofia, meccanica quantistica, diritto comparato o la tua relazione con tua madre (o tua nonna). Basta scrivere una domanda, e il modello ti risponde con frasi chiare, ben strutturate, plausibili. Il problema è che sembri capirci qualcosa anche quando non ci capisci nulla. E che il modello ti asseconda in quel momento preciso in cui ti servirebbe l’esatto contrario. Un LLM non è una mente, non è una sorgente di conoscenza, non è un motore di verità. È un sistema statistico per la predizione del prossimo token, addestrato su quantità immense di testo, ottimizzato per generare sequenze fluenti che suonino bene. Nient’altro. Non possiede concetti, non ha un’idea del mondo, non opera per verifica, non è dotato di senso critico, non sa distinguere una teoria da un’opinione né una contraddizione da una variazione stilistica. Il suo compito è campionare parole a partire da un prompt, pescando all’interno di uno spazio di embedding che rappresenta, in forma compressa, le relazioni statistiche tra stringhe testuali. Il modello non sceglie parole perché ha capito – le sceglie perché in fase di addestramento quelle sequenze risultavano più probabili in quel tipo di contesto. Nessuna epifania. Solo regressione su una distribuzione. Finché il task è semplice, vicino a quanto già visto, l’output è passabile (ma va sempre preso con cautela, estrema). Se gli chiedi di scrivere un’email cortese, riassumere un testo breve, elencare i premi Nobel, produrre codice base, il sistema opera in zone ad alta densità nello spazio semantico. Ha abbastanza esempi simili nel training set da potersi muovere per interpolazione, sempre però riassemblando, non capendo. Ma appena esci da questi territori – appena chiedi un confronto teorico, una valutazione critica, una spiegazione strutturata di concetti che si collocano fuori da cluster densi – lo spazio si svuota. Si perde pure il supporto della densità statistica che già di suo non è garanzia di affidabilità. L’output diventa una simulazione di coerenza, una linea di linguaggio tracciata in territori dove il modello ha poca o nessuna esperienza. Ma il tono resta identico: fluente, ordinato, autorevole. Non c’è un segnale d’allarme. Non c’è un freno interno. Il modello è costruito per rispondere sempre. Anche quando non sa – cioè sempre. E tu non hai modo di saperlo. Non hai accesso alla distribuzione da cui ha campionato. Non sai se la risposta che hai ricevuto è rappresentativa o un outlier verbale. Se ripeti il prompt, l’output cambia. A volte dice il contrario. Ma la forma resta impeccabile. E tu confondi la forma per sostanza (anzi se sei pop-filosofo o dotto-immaginario sono proprio la stessa cosa). Perché non hai strumenti per distinguere un’asserzione sensata da una ben formulata. Il sistema non è ergodico: ciò che ti mostra in una realizzazione non riflette la sua distribuzione complessiva. Tu vedi una frase singola, ma il comportamento del modello è un processo stocastico ad altissima varianza. Il problema non è che sbaglia. E non segnala quando sbaglia, e si ha modo di accorgersene se non si era già a conoscenza della risposta. Se fai due prompt simili, ma con toni diversi, la risposta sarà diversa.

Non è affidabile.

Ed è qui che emerge il rischio cognitivo vero, quello di seconda generazione. Il modello non ti fornisce solo errori grossolani facili da correggere. Ti fornisce spiegazioni plausibili. Ed è esattamente lì che ti frega. Perché se non hai una mappa mentale autonoma, un quadro concettuale costruito con pazienza, verifica, confronto e dubbi, allora l’output del modello ti sembra verosimile. Ma solo perché ti manca il criterio per valutarlo. Il LLM diventa, di fatto, un moltiplicatore della tua ignoranza. Ti impacchetta un’illusione ben formattata. Non ti dà conoscenza, ma qualcosa che la imita bene abbastanza da passare il filtro superficiale del tuo senso comune. E nel momento in cui inizi a usarlo per colmare le tue lacune, sei un dotto immaginario con abduzione debole e mente estesa (modo elegante per qualificare la sciatteria). È il trionfo dell’epistemia: la coincidenza apparente tra linguaggio ben fatto e conoscenza affidabile. L’errore più diffuso è prendere un LLM per quello che non è. Se lo usi come fosse Google, sbagli. Google ti mostra fonti. ChatGPT, o altri strumenti analoghi, ti dà sintesi accozzate in base a come le parole appaiono più frequentemente insieme. Ma non sai da dove vengono, con che criterio sono state fatte, e soprattutto non sai cosa manca. E se non sai cosa manca, tutto ti sembra completo. Se lo usi per farti spiegare le cose, peggio ancora. Non è un professore paziente, non è uno studioso sintetico, non è un collega più sveglio. È un motore statistico ad alta risoluzione, addestrato per ripetere in modo nuovo quello che altri hanno già scritto. Con l’aggravante che tu non sei in grado di capire se quello che dice è reale, distorto o completamente inventato. Lo usi per cercare chiarezza, e ottieni un testo che sembra chiaro. Ma la chiarezza è nel linguaggio, non nella struttura. Ti fidi del tono. Ti rassicura la sintassi. Ma sotto, se guardi bene, non c’è niente. È qui che casca l’imbecille. Non quello che usa l’LLM. Quello che lo consulta al posto del pensiero. Quello che chiede per capire, ma non ha nessun filtro per decidere se la risposta è sensata. Quello che fa prompt(*) sempre più raffinati credendo che il modello ci arrivi, mentre sta solo migliorando la confezione dell’errore. Quello che parla come se avesse studiato, ma ha solo chiesto a una macchina di suonare esperta al posto suo. Un LLM, per definizione, non può colmare lacune. Può solo restituirti una media pesata di tutto quello che è già stato detto su un tema simile, senza alcun controllo sulla validità dei dati, né sulle contraddizioni tra i pezzi. E se tu quella lacuna ce l’hai, allora ti stai affidando a una macchina cieca, con voce sicura, per orientarti in un territorio che non conosci. È un suicidio intellettuale in differita.

Un LLM è un generatore di linguaggio, non una fonte di conoscenza. È uno specchio probabilistico: riflette quello che già sai. Se non sei una cima, lo specchio riflette quello. E se non sai nulla, riflette il vuoto. Bene. Ma pur sempre vuoto.

(*) un prompt è l’istruzione, la domanda o l’input testuale che un utente fornisce al modello di intelligenza artificiale per guidarlo a generare una risposta specifica, un testo o a compiere un compito. In pratica, è il comando che si dà ad un LLM per fargli capire cosa si vuole ottenere, un’istruzione, un’affermazione o una domanda dettagliata. La qualità e la chiarezza del prompt sono fondamentali per ottenere risposte accurate e pertinenti dal modello di AI.