Avete mai chiesto a un'intelligenza artificiale qualcosa di semplice, ottenendo una risposta palesemente illogica? Non è un difetto del modello. È un difetto del prompt.

Un esperimento banale quanto rivelatore: chiedere a un LLM se conviene andare a piedi o in auto per raggiungere un autolavaggio distante 40 metri. Senza contesto, la risposta è sbagliata. Riformulando la stessa domanda con un frame cognitivo appropriato, il modello individua il paradosso, lo risolve e lo fa con una punta di sarcasmo.

Attraverso un'analisi architetturale rigorosa — meccanismo di attention, distribuzione di probabilità sui token, shortcut reasoning — questo articolo spiega perché un prompt strutturato attiva percorsi computazionali radicalmente diversi. Una competenza oggi critica per chiunque lavori seriamente con i modelli linguistici.

Intelligenza Artificiale · Prompt Engineering · Architettura LLM — Aprile 2026 — Livello: Specialistico

Abstract

La qualità della risposta generata da un Large Language ModelModello linguistico di grandi dimensioni addestrato su enormi corpus testuali. Genera testo token per token massimizzando la probabilità condizionata al contesto precedente. non è determinata unicamente dalla capacità parametrica del modello, bensì in misura sostanziale dalla densità semanticaRelativa al significato. In NLP, la dimensione semantica riguarda il contenuto concettuale dei token, distinto dalla loro forma sintattica. e dalla struttura cognitiva del promptTesto in ingresso fornito al modello. Funge da contesto iniziale da cui il modello genera la propria risposta per completamento probabilistico. in ingresso. Questo articolo analizza, attraverso un caso-studio volutamente paradossale, i meccanismi architetturali — attentionMeccanismo centrale del Transformer: calcola quanto ogni token della sequenza deve "prestare attenzione" a tutti gli altri, producendo rappresentazioni contestuali pesate., distribuzione di probabilità sui tokenUnità minima di testo elaborata dal modello. Può corrispondere a una parola, parte di parola o simbolo. I modelli moderni usano tokenizzazione BPE (Byte Pair Encoding)., context framingIl modo in cui il contesto del prompt orienta l'elaborazione del modello, attivando specifici "frame" semantici e cognitivi che influenzano la distribuzione di probabilità dell'output. — che spiegano perché un prompt povero di contesto produce risposte sintatticamente corrette ma logicamente degeneri, mentre un prompt che attiva frame meta-cognitivi elicita ragionamento articolato, riconoscimento del paradosso e perfino ironia.

1 Il Caso-Studio: un Paradosso Quotidiano come Sonda Diagnostica

Consideriamo il seguente esperimento controllato. Al modello viene posto un quesito in due varianti semanticamente distinte ma denotativamenteLa denotazione è il significato letterale, referenziale di un'espressione. Due frasi sono denotativamente identiche se descrivono la stessa situazione nel mondo reale. identiche.

Prompt A — contesto minimale:
“Devo lavare la macchina. Il lavaggio è a 40 metri. Che faccio? Ci vado a piedi o prendo l'auto?”

Risposta tipica del modello al Prompt A:
“Vai a piedi — sono solo 40 metri, non ha senso prendere l'auto.”

Prompt B — contesto meta-cognitivo attivato:
“Pensa alle implicazioni e alle co-implicazioni del seguente problema: devo lavare la macchina. Il lavaggio è a 40 metri. Che faccio? Ci vado a piedi o prendo l'auto?”

Risposta tipica del modello al Prompt B:
“La domanda contiene un paradosso logico fondamentale: l'oggetto da trasportare è il mezzo di trasporto stesso. Andare a piedi al lavaggio di 40 metri equivale ad abbandonare l'auto. L'unica soluzione coerente è guidarci. Chiunque si ponga questa domanda in modo serio ha probabilmente vissuto il fenomeno del cervello in standby da lunedì mattina.”

La risposta al Prompt A è illogica: suggerisce di recarsi a piedi presso un autolavaggio, ignorando il fatto che l'auto — oggetto del servizio — deve necessariamente essere lì presente. La risposta al Prompt B, invece, riconosce il paradosso, lo nomina, lo risolve e produce perfino una valutazione sarcastica della situazione. Perché?

2 Architettura Transformer e il Ruolo dell'Attention nella Codifica del Contesto

Per comprendere il fenomeno è necessario risalire all'architettura. I modelli della famiglia GPT/Claude/Gemini sono TransformerArchitettura neurale introdotta da Vaswani et al. (2017) basata interamente su meccanismi di self-attention. Ha sostituito le RNN come paradigma dominante per i modelli linguistici su larga scala. decoder-only o encoder-decoder. Il meccanismo centrale è la Scaled Dot-Product AttentionFormulazione matematica dell'attention: Attention(Q,K,V) = softmax(QKᵀ/√d_k)·V. Il fattore di scala 1/√d_k previene la saturazione della softmax in spazi ad alta dimensionalità.:

Attention(Q, K, V) = softmax( QKT / √dk ) · V

Ogni token della sequenza in ingresso proietta tre vettori: Query (Q)Vettore che rappresenta "cosa sta cercando" il token corrente. Il prodotto scalare con le Key degli altri token determina il grado di rilevanza reciproca., Key (K)Vettore che rappresenta "cosa offre" un token agli altri. Viene confrontato con le Query per calcolare i pesi di attenzione tramite prodotto scalare., Value (V)Vettore che contiene l'informazione effettiva trasferita. Una volta calcolati i pesi di attenzione tramite Q e K, i Value vengono aggregati proporzionalmente a quei pesi. in spazi latenti di dimensione d_k. Il prodotto QKT produce una matrice di affinitàMisura di somiglianza o rilevanza tra due vettori nello spazio latente. Alta affinità tra due token significa che si "attraggono" reciprocamente nel meccanismo di attenzione. che, dopo softmaxFunzione che trasforma un vettore di valori reali in una distribuzione di probabilità (valori positivi che sommano a 1). Usata per normalizzare i pesi di attenzione., determina quanto ogni posizione attende alle altre. Il punto critico: l'intensità e la distribuzione degli attention weights dipende dalla ricchezza semantica del prompt.

2.1 Prompt A: degenerazione dell'attention nel sotto-grafo semantico

Nel Prompt A i token rilevanti sono: lavare, macchina, 40 metri, piedi, auto. Il modello costruisce un grafo di co-occorrenzaStruttura implicita appresa durante il pretraining: token che appaiono frequentemente insieme nello stesso contesto sviluppano rappresentazioni vettoriali simili e alta affinità reciproca nel meccanismo di attention. basato sulla statistica del pretrainingFase iniziale di addestramento su corpus massivi non etichettati. Il modello apprende distribuzioni statistiche del linguaggio, codifiche semantiche e pattern di ragionamento impliciti.. Il token 40 metri ha alta affinità con concetti di distanza breve e pedonalità; il cluster piedi vs auto attiva il frame classico "mezzo di trasporto per distanza breve/lunga". Il sotto-grafo semantico attivato è quello di un problema di mobilità personale, non di logistica di oggetti.

Il referenteL'entità nel mondo reale a cui un'espressione linguistica si riferisce. In "prendo l'auto?", il referente di "auto" è ambiguo: è l'oggetto del servizio o il mezzo di trasporto del soggetto? Il modello risolve questa ambiguità silenziosamente e in modo errato. implicito di "macchina" viene assegnato al soggetto come strumento di trasporto, non come oggetto del servizio. Questo errore di referent trackingCapacità di mantenere traccia dell'entità a cui ogni espressione si riferisce lungo l'arco di un testo. Nei LLM è implementato implicitamente attraverso il meccanismo di attention, con possibili derive in catene referenziali ambigue. non viene sanato perché non esiste nel prompt nessun segnale che attivi il ragionamento meta-logico.

2.2 Il problema dei token funzionali e l'assenza di frame meta-cognitivi

I modelli linguistici non "ragionano" per default nel senso computazionale del termine. Essi operano come motori di completamento probabilistico: data una sequenza, massimizzano la probabilità del token successivo condizionata all'intera storia:

P(tokent | token1, token2, …, tokent-1)

In assenza di token che attivino modalità di elaborazione riflessiva, il modello seleziona il percorso a minima resistenza nel manifoldIn geometria differenziale e machine learning, uno spazio a bassa dimensionalità immerso in uno spazio ad alta dimensionalità. I dati linguistici si distribuiscono su un manifold: il modello naviga questo spazio scegliendo percorsi di alta probabilità. delle distribuzioni apprese. Un errore di tipo shortcut reasoningFenomeno per cui il modello sfrutta correlazioni spurie o pattern superficiali invece di ragionare sulla struttura logica del problema. Corrisponde al "System 1 thinking" di Kahneman applicato ai LLM., ben documentato nella letteratura sull'allineamento.

3 Prompt B: Attivazione del Frame Meta-Cognitivo

L'istruzione "pensa alle implicazioni e alle co-implicazioni" non è una semplice aggiunta lessicale. È un operatore di frame-shift che agisce su più livelli dell'elaborazione.

3.1 Effetto sull'attention: redistribuzione dei pesi verso token di secondo ordine

La presenza di token come implicazioni e co-implicazioni, altamente correlati nel training con testi argomentativi e analitici, redistribuisce gli attention weightsI pesi prodotti dal meccanismo di attention: valori tra 0 e 1 (normalizzati via softmax) che indicano quanto ogni token influenza la rappresentazione di un altro token. verso token che altrimenti sarebbero stati marginalizzati.

Token / cluster semantico Peso attention — Prompt A Peso attention — Prompt B
macchina come oggetto del servizio Basso — sovrascritto da frame mobilità Alto — attivato dall'analisi implicazionale
Identità referenziale soggetto/oggetto Non risolta Esplicitamente investigata
Paradosso logico intrinseco Non rilevato Rilevato e nominato
Tono ironico/sarcastico Assente Emergente (frame argomentativi)

3.2 Chain-of-Thought implicita e scaffolding latente

Tecniche come Chain-of-ThoughtTecnica di prompting (Wei et al., 2022) che induce il modello a generare passaggi intermedi di ragionamento prima della risposta finale. Migliora significativamente l'accuracy su task di ragionamento multi-step. (Wei et al., 2022) e Tree of ThoughtsEstensione del CoT (Yao et al., 2023): il modello esplora più percorsi di ragionamento in parallelo, valutandoli e selezionando il più promettente. (Yao et al., 2023) dimostrano che l'esplicitazione del processo inferenziale aumenta significativamente l'accuracy su task di ragionamento. Il modello, guidato dal contesto, genera token intermedi che fungono da working memoryNei LLM, la "memoria di lavoro" viene simulata attraverso i token già generati nel contesto. Il CoT sfrutta questo: ogni token intermedio di ragionamento diventa parte del contesto che influenza i token successivi. esplicitata nella sequenza stessa.

La frase "pensa alle implicazioni e co-implicazioni" funge da trigger per questo scaffoldingStruttura di supporto fornita dal prompt che guida il modello nell'organizzare il proprio processo di ragionamento prima di produrre la risposta finale.: il modello è incentivato a generare una sequenza di token che articola la struttura del problema prima di arrivare alla risposta terminale, forzando la risoluzione dell'ambiguità referenzialeCondizione in cui un'espressione può riferirsi a più entità distinte. In "prendo l'auto?", il modello deve stabilire se "auto" è il mezzo di trasporto o l'oggetto da portare al lavaggio..

Nota tecnica: nei modelli con reasoning esplicito (es. OpenAI o1, Claude con extended thinking) questo processo è ancora più visibile: il chain of thoughtSequenza di token di ragionamento generati dal modello prima della risposta finale. Nei modelli con "extended thinking" questa catena è letterale: token effettivi prodotti internamente, anche se non sempre visibili all'utente. interno è letteralmente una sequenza di token generati prima della risposta. Un prompt solido aumenta la probabilità che questa catena contenga i passi logici corretti.

3.3 Temperatura effettiva e distribuzione di probabilità

Con il Prompt A il picco di probabilità su piedi è netto e dominante: la distribuzione è peakyUna distribuzione "peaky" ha la sua massa concentrata su pochi valori dominanti, con bassa entropia. Corrisponde a bassa varietà e alto determinismo nell'output del modello., con bassa entropiaIn teoria dell'informazione, misura dell'incertezza di una distribuzione. Alta entropia = molte opzioni equamente probabili. Bassa entropia = pochi token dominano. Un prompt ricco di contesto tende ad aumentare l'entropia locale, permettendo output più sfumati.. Con il Prompt B, l'attivazione del frame analitico appiattisce la distribuzione e consente la selezione di token semanticamente più ricchi, abilitando un comportamento analogo al passaggio da greedy decodingStrategia di generazione che seleziona ad ogni step il token con la probabilità massima. Produce output deterministici ma tendenzialmente banali e poco creativi. a un campionamento da una distribuzione più larga: emerge la sfumatura.

4 Tassonomia degli Errori da Prompt Debole

Il caso descritto è rappresentativo di una famiglia di errori sistematici che si manifestano quando il prompt non fornisce sufficiente struttura semantica:

Classe di errore Meccanismo sottostante Esempio tipico
Shortcut Reasoning Attivazione del pattern statisticamente dominante senza verifica di coerenza "Vai a piedi" per un problema che coinvolge l'auto
Referent Drift Perdita del tracking del referente corretto in catene pronominali o ellitticheUn'ellissi è l'omissione di elementi linguistici recuperabili dal contesto. "Prendo l'auto?" omette il referente esplicito, creando ambiguità che il modello deve risolvere implicitamente. Confusione soggetto/oggetto in scenari multi-entità
Frame Collapse Il contesto attiva un frameSchema cognitivo che organizza l'interpretazione di una situazione. Dalla Frame Semantics di Fillmore: ogni parola evoca un frame che attiva aspettative su ruoli, relazioni e scenari tipici. dominante che sopprime frame alternativi corretti Leggere una domanda di logistica come domanda di mobilità
Sycophantic Completion Il modello completa verso la risposta che percepisce attesa dall'utente Confermare una premessa falsa implicita nel prompt
Ambiguity Suppression L'ambiguità non viene segnalata ma risolta silenziosamente in modo errato Rispondere senza chiedere chiarimenti su premesse contraddittorie

5 Principi Operativi per la Costruzione di Prompt Solidi

5.1 Esplicitare il frame cognitivo richiesto

Non limitarsi a porre la domanda: definire il tipo di elaborazione attesa. Frasi come "analizza le implicazioni logiche", "identifica eventuali contraddizioni", "ragiona per casi" sono operatori di frame che redistribuiscono l'attenzione del modello verso strati semanticiRelativi al significato. Gli strati semantici più profondi includono relazioni logiche, implicazioni causali e strutture argomentative, rispetto alla superficie lessicale. più profondi.

5.2 Saturare le ambiguità referenziali in anticipo

Ogni pronome, ogni ellissi, ogni referente implicito è un vettore di deriva. Un prompt robusto nomina esplicitamente le entità e le relazioni: invece di "come la uso?" scrivere "come utilizzo la variabile X nella funzione Y?".

5.3 Fornire il contesto di dominio come prior

Il modello esegue un'inferenza bayesianaFramework probabilistico in cui una conoscenza a priori (prior) viene aggiornata alla luce di nuove evidenze. I LLM applicano implicitamente questo schema: il prior è la distribuzione appresa nel pretraining, il contesto del prompt è l'evidenza. implicita. Fornire il dominio — "in un contesto di architettura a microservizi", "da una prospettiva di diritto tributario italiano" — agisce come prior che orienta la distribuzione di probabilità verso lo spazio semantico corretto.

5.4 Catene di ragionamento esplicite (CoT Prompting)

Pattern consigliato: "Ragiona passo dopo passo. Prima identifica i presupposti del problema, poi verifica se sono coerenti tra loro, infine formula la risposta."

5.5 Meta-istruzioni di qualità

Aggiungere condizioni di qualità attese: "se rilevi ambiguità, segnalale prima di rispondere", "se il problema contiene contraddizioni logiche, nominale esplicitamente". Questi token agiscono come guard semanticiIstruzioni nel prompt che fungono da condizioni di controllo: inducono il modello a verificare determinate proprietà dell'input prima di generare la risposta, riducendo il rischio di ambiguity suppression e shortcut reasoning. che prevengono il silenziamento delle ambiguità.

5.6 Separazione strutturale del contesto dalla query

Pattern consigliato:

[CONTESTO]: definizione del dominio e dei vincoli
[OBIETTIVO]: ciò che si vuole ottenere
[VINCOLI]: limitazioni e criteri di accettabilità
[DOMANDA]: il quesito specifico

Questa separazione forza il modello a costruire rappresentazioniVettori nello spazio latente del modello che codificano il significato di un token o di una sequenza. Rappresentazioni distinte per contesto e query riducono l'interferenza tra i due livelli nell'elaborazione interna del Transformer. distinte per contesto e query, riducendo l'interferenza tra i due livelli.

6 Implicazioni per Sistemi in Produzione

In contesti enterprise, le conseguenze di prompt deboli non sono accademiche. In pipeline RAGRetrieval-Augmented Generation: architettura che combina un sistema di recupero documentale con un LLM generativo. Il modello risponde basandosi sui documenti recuperati, riducendo le allucinazioni su knowledge base specifiche. (Retrieval-Augmented Generation), un prompt di sintesi mal costruito può generare allucinazioniFenomeno per cui il modello genera output plausibile ma fattualmente errato. Non è un "bug" ma una conseguenza diretta del meccanismo di completamento probabilistico: il modello massimizza la coerenza della sequenza, non la sua veridicità. su documenti peraltro correttamente recuperati. In agenti autonomiSistemi in cui un LLM viene usato come controller centrale che pianifica ed esegue sequenze di azioni per raggiungere un obiettivo. La debolezza del prompt si amplifica ad ogni step dell'agente., la debolezza del prompt di sistema produce derive comportamentali che si amplificano ad ogni step. In sistemi di classificazione o triage, il frame collapse porta a categorizzazioni sistematicamente errate.

Principio fondamentale: la qualità dell'output di un LLM non è una proprietà del modello in isolamento. È una proprietà emergente del sistema (modello + prompt). Valutare un modello su benchmarkSuite di test standardizzati usati per misurare le capacità di un modello (es. MMLU, HumanEval, GSM8K). I benchmark usano prompt controllati: i risultati non sono direttamente trasferibili a contesti di uso reale con prompt non ottimizzati. con prompt standardizzati e poi deployarlo con prompt improvvisati è un errore metodologico che produce aspettative irrealistiche e fallimenti operativi prevedibili.

Il testing del prompt deve essere trattato con lo stesso rigore del testing del codice: casi limite, prompt adversarialiPrompt progettati per indurre il modello a comportamenti indesiderati. Il test con prompt adversariali è parte fondamentale della valutazione di robustezza di un sistema basato su LLM., variazioni di parafasi, test di regressione su campioni rappresentativi del dominio applicativo.

7 Conclusioni

Il paradosso dell'autolavaggio a 40 metri è, nella sua semplicità disarmante, un microscopio sulla struttura interna dei modelli linguistici. Rivela che l'architettura Transformer — potente quanto si vuole — opera in modo intrinsecamente reattivo al contesto fornito. Non esiste elaborazione "di default" corretta: esiste solo l'elaborazione che il prompt rende probabile.

Un prompt solido non è un luxury operativo né una buona pratica accessoria. È la condizione necessaria affinché la capacità parametricaRelativa al numero di parametri (pesi) del modello. Un modello da 70 miliardi di parametri ha maggiore capacità potenziale, ma questa capacità rimane latente senza un prompt che sappia attivare i percorsi computazionali corretti. del modello si traduca in output utile. La distanza tra un modello eccellente usato male e un modello mediocre usato bene è spesso minore di quanto i practitioner assumano.

L'ingegneria del prompt è, in ultima analisi, l'atto di costruire il contesto cognitivo dentro il quale il modello opera. Chi lo trascura non sta usando un LLM: sta usando una scatola nera sperando che la statistica faccia il lavoro al posto suo. A volte funziona. Spesso no. E la differenza, come abbiamo visto, può essere paradossalmente grande — tanto quanto quella tra andare a piedi all'autolavaggio e capire che l'auto deve venire con te.

© 2026 · Articolo tecnico per specialisti · LLM · Attention Mechanism · Prompt Engineering · CoT · Frame Semantics