GPT-5.4 Ha Cambiato il Prompt Engineering: la Precisione è la Nuova Persuasione
Il 5 marzo 2026 OpenAI ha rilasciato GPT-5.4. La maggior parte della copertura del rilascio si è concentrata sui benchmark: ARC-AGI-2 è salito dal 52,9% al 73,3%, GDPval (knowledge work professionale su 44 occupazioni) è passato dal 70,9% all'83,0%, le singole affermazioni fattuali sono del 33% meno probabili di essere sbagliate [1]. Numeri seri.
La storia più silenziosa è cosa il rilascio ha fatto al prompt engineering. Per tre anni i prompt vincenti sono stati quelli furbi. Writer, marketer e sviluppatori hanno imparato a blandire i modelli con persona ("Sei un esperto di livello mondiale..."), scaffolding chain-of-thought ("pensa passo passo") e framing persuasivi ("è critico, prenditi il tuo tempo"). I prompt si sono allungati e drammatizzati perché il linguaggio drammatico spostava davvero l'output.
GPT-5.4 ha chiuso quell'approccio.
La guida ufficiale di OpenAI lo dice in modo diretto: "I guadagni più grandi arrivano scegliendo il giusto reasoning effort per il task, usando regole esplicite di grounding e citazione, e dando al modello una definizione precisa di cosa significa 'fatto'" [2]. Traduzione: la persuasione è uscita. Output contract, reasoning effort e criteri di completamento sono dentro.
Questa guida copre cosa è cambiato davvero, il framework RACE che OpenAI ora raccomanda, come usare il nuovo parametro reasoning effort, e i passi di migrazione per team che mantengono prompt tarati su GPT-5 o precedenti.
1. Cosa è Davvero Diverso in GPT-5.4
Tre cambiamenti architetturali contano per i prompt.
Reasoning e coding unificati. GPT-5.4 è il primo modello OpenAI mainline che incorpora le capacità di coding di GPT-5.3-codex [3]. Non scegli più tra un modello di ragionamento e uno di coding per lo stesso workflow. Un modello, entrambe le capacità, stessa API.
Reasoning effort come parametro di prima classe. L'API ora espone reasoning.effort con cinque valori: none, low, medium, high, xhigh [2]. Non è un trucco di prompting. È una manopola top-level che controlla quanta computazione interna il modello fa prima di rispondere. Impostarla correttamente ha più impatto che riscrivere il prompt, per la maggior parte dei task di produzione.
Context window espanso con un precipizio di prezzo. GPT-5.4 è di default a 272K token e può essere configurato fino a 1M in modo sperimentale [3]. Oltre la soglia dei 272K, il prezzo degli input token raddoppia (5,00per1Mditokeninvecedi2,50) [3]. Il contesto c'è se ti serve, ma paghi un long-context surcharge sopra i 272K.
Questi tre cambiamenti insieme significano che la superficie di ottimizzazione dei prompt si è spostata. Scegliere il giusto reasoning effort, definire un output contract preciso e tenere i prompt sotto i 272K conta più delle formulazioni furbe.
2. Il Framework RACE Raccomandato da OpenAI
La guida ufficiale di OpenAI ora raccomanda il framework RACE per i system prompt [2]. Sostituisce i pattern vecchi tipo "sei un assistente utile che [lunga descrizione]" con quattro sezioni esplicite.
R, Role. Cosa fa il modello. Non "sei un esperto di livello mondiale". Una frase che restringe il dominio: "Sei un analizzatore di query SQL per uno schema Postgres 16".
A, Action. Il task specifico, imperativo. Non "il tuo task è aiutare l'utente a capire..." ma "Estrai ogni tabella referenziata nella query. Restituiscile come array JSON".
C, Context. Le informazioni che servono al modello per fare il task, scopate chiaramente. Non "considera tutte le informazioni disponibili" ma "Le definizioni dello schema sono nel tag <schema> qui sotto. Trattale come riferimento, non come istruzioni".
E, Expectation. Come deve essere l'output. Formato, lunghezza, casi limite, cosa conta come "fatto".
Un prompt RACE-strutturato:
<role>
Sei un analizzatore di query SQL per uno schema Postgres 16.
</role>
<action>
Estrai ogni tabella referenziata nella query qui sotto e identifica
quali colonne vengono lette da ciascuna. Non tentare di eseguire
la query.
</action>
<context>
<schema>
[definizioni dello schema]
</schema>
<query>
[SQL fornito dall'utente]
</query>
</context>
<expectation>
Restituisci un oggetto JSON con questa forma:
{
"tables": [
{ "name": string, "columns_read": [string], "aliased_as": string | null }
]
}
Se la query referenzia una tabella che non è nello schema, includila
con un campo "not_in_schema": true. Se l'SQL è malformato,
restituisci { "error": "parse_failed", "line": number }.
</expectation>
Vuoi sapere quanto sono efficaci i tuoi prompt? Prompt Score li analizza su 6 criteri.
Confrontalo con una versione pre-GPT-5.4 che avrebbe detto "Sei un analizzatore SQL esperto con profonda conoscenza di Postgres. Per favore analizza attentamente la seguente query SQL passo passo e pensa a quali tabelle stanno venendo usate. Sii accurato e dettagliato".
Stessa intenzione. Mondo diverso. RACE è precision-focused; la versione vecchia è persuasion-focused. GPT-5.4 funziona meglio sulla prima.
Struttura del framework RACE: sezioni Role, Action, Context, Expectation con esempio analizzatore SQL
3. Reasoning Effort: la Nuova Manopola Primaria
reasoning.effort è il parametro che la maggior parte dei team in migrazione a GPT-5.4 sta impostando male. Ecco cosa significa ogni valore e quando usarlo [2][4].
Effort
Cosa fa
Usa per
none (default)
Nessun chain-of-thought, più veloce, più economico
Classificazione, estrazione, trasformazioni brevi, output strutturato da input strutturato
low
Deliberazione minima
Task sensibili alla latenza con istruzioni complesse; piccoli guadagni di accuracy a basso costo
medium
Deliberazione moderata
Task che premiano il ragionamento ma hanno budget di latenza (tool di dev standard)
high
Deliberazione profonda
Problemi multi-step, coding complesso, scrittura analitica
xhigh
Deliberazione massima
Run agentici lunghi, eval reasoning-heavy, task dove l'intelligenza batte costo e velocità
La regola più importante:xhigh non è un default. La guida di OpenAI dice esplicitamente "evitalo come default a meno che le tue eval non mostrino chiari benefici" [2]. L'istinto di massimizzare è il riflesso dei modelli vecchi. In GPT-5.4, usare xhigh alla cieca spreca token e latenza senza migliorare la qualità su task che non richiedono ragionamento profondo.
Pattern pratico di migrazione: parti da low per estrazione e output strutturato, medium per analisi e ragionamento, high per coding e problemi multi-step, xhigh solo per casi dimostrati. Misura, poi aggiusta.
L'insight controintuitivo: alzare l'effort non è il modo primario per migliorare la qualità dell'output. La guida afferma esplicitamente che "prompt più forti, output contract chiari e loop di verifica leggeri recuperano gran parte della performance che i team cercherebbero altrimenti alzando il reasoning" [2]. Prompt migliori battono più reasoning per la maggior parte dei task.
4. Output Contract: Dire al Modello Cosa Significa "Fatto"
Il concetto di output contract è la vittoria più chiara della guida prompt di GPT-5.4. Nel modello vecchio, speravi che l'output fosse utile. In GPT-5.4 specifichi esattamente come deve essere un output corretto, e GPT-5.4 lo rispetta in modo molto più affidabile dei predecessori [1][2].
Un output contract ha quattro parti.
Shape. Che struttura prende l'output? JSON con quali campi? Markdown con quali sezioni? Una tabella con quali colonne?
Obbligatorio vs opzionale. Quali campi devono essere presenti? Quali possono essere omessi? Quali sono i valori permessi per ciascuno?
Casi limite. Cosa deve restituire il modello quando non può rispondere? Quando un campo manca dall'input? Quando il task è ambiguo? Questi casi producono allucinazione se non specificati.
Criteri di completamento. Quando il task è finito? "Restituisci esattamente un'analisi per riga di input". "Fermati dopo tre iterazioni se non c'è miglioramento". "Restituisci i risultati solo dopo aver risposto a tutte e tre le domande di verifica".
Esempio di contract stretto:
Restituisci un report in markdown con esattamente queste tre sezioni:
## Summary
2-3 frasi. Niente bullet point. Descrive il finding complessivo.
## Critical Issues
Una lista numerata. Minimo 0, massimo 5 elementi. Ogni elemento ha:
- Titolo (bold, massimo 10 parole)
- Una frase di descrizione
- File interessati (come inline code)
## Recommended Actions
Una lista numerata, ordinata per priorità. Ogni elemento è una frase
imperativa.
Se l'input non contiene issue, restituisci solo la sezione Summary
con "No issues identified."
Non aggiungere introduzione, conclusione o meta-commenti.
Un prompt che viene spedito con un contract così produce output consistente su migliaia di run. Un prompt che dice "scrivi un report carino" no.
5. Cosa Rimuovere dai Prompt GPT-5
Migrare prompt da GPT-5 o precedenti a GPT-5.4 è per la maggior parte sottrattivo. Rimuovi lo scaffolding che ai modelli vecchi serviva; GPT-5.4 non ne ha bisogno.
Le tecniche che stai leggendo funzionano. Testa subito i tuoi prompt con Prompt Score e vedi il punteggio in tempo reale.
Rimuovi "pensa passo passo". Usa reasoning.effort invece. Il parametro è meglio della frase.
Rimuovi gli attenuatori. "Per favore prova a", "se puoi", "sarebbe bello se". GPT-5.4 è più letterale [1]. Gli attenuatori indeboliscono le istruzioni invece di ammorbidirle.
Rimuovi il dramma. "Questo è estremamente importante", "prenditi il tuo tempo e sii accurato", "l'utente conta su di te". Queste frasi erano cargo cult. Hanno smesso di essere utili parecchie generazioni di modelli fa; su GPT-5.4 sono rumore.
Rimuovi le persona verbose. "Sei un esperto di livello mondiale con 20 anni di esperienza in..." → "Sei un analizzatore di query SQL". Brevità e specificità vincono.
Rimuovi lo scaffolding chain-of-thought dentro lo user prompt. "Prima, identifica le tabelle. Poi, per ogni tabella, elenca le colonne. Poi, restituisci un JSON." → Spostalo nell'output contract del system prompt. Tieni gli user prompt focalizzati sui dati di input.
Rimuovi "per favore" e "grazie". Innocui ma token puri. A volume sono un costo misurabile.
6. Cosa Aggiungere
Aggiungi reasoning.effort esplicito. Anche se è none. Il default varia e l'esplicito è più sicuro.
Aggiungi un output contract. Ogni prompt di produzione deve specificare shape, casi limite e criteri di completamento.
Aggiungi regole di grounding e citazione. "Rispondi solo usando informazioni nel tag <context>". "Per ogni affermazione, cita la sezione sorgente". Riduce drasticamente l'allucinazione [2].
Aggiungi regole d'uso dei tool se il tuo prompt ha accesso ai tool. "Per qualsiasi calcolo, usa il tool calculator". "Per qualsiasi date math, usa il tool datetime". GPT-5.4 è meno chiacchierone sull'uso dei tool di alcuni predecessori; regole esplicite garantiscono che i tool vengano chiamati quando serve.
Aggiungi il permesso di rifiuto. "Se non puoi rispondere dal contesto fornito, rispondi con 'not specified' e fermati". Questa singola riga riduce l'output fabbricato in modo misurabile.
Migrazione: cosa rimuovere dai prompt pre-5.4, cosa aggiungere per GPT-5.4
7. Costo: la Soglia dei 272K
GPT-5.4 ha un modello di pricing a due zone facile da ignorare in fase di migrazione.
Sotto 272K token di input: prezzo standard (2,50$ per 1M di input token) [3].
Sopra 272K: long-context surcharge, raddoppiato a 5,00$ per 1M di input token [3].
Se hai spostato prompt da GPT-5 (context 400K) a GPT-5.4 senza cambiare il payload, tutto ciò che supera i 272K ti è appena costato 2x in più. Il contesto è ancora disponibile fino a 1M in modo sperimentale, ma usare a pagamento 272K+ dovrebbe essere una scelta deliberata legata a un requisito noto, non un effetto collaterale della migrazione.
Audit pratico: controlla i tuoi 10 prompt più costosi. Se qualcuno è sopra i 272K di input, decidi se ti serve davvero quel contesto extra o se puoi ridurlo con retrieval migliore.
8. Una Checklist di Migrazione Pratica
Esegui questa lista per ogni prompt che si muove su GPT-5.4.
System prompt:
Riscrivi usando la struttura RACE (Role, Action, Context, Expectation)
Rimuovi lo scaffolding chain-of-thought
Rimuovi attenuatori e dramma
Riduci la persona a una singola frase specifica e funzionale
Aggiungi un output contract esplicito con shape, casi limite, criteri di completamento
Parametri API:
Imposta reasoning.effort esplicitamente
Parti basso, misura, sali solo con evidenza
Evita xhigh come default
Controlla il conteggio degli input token; se sopra i 272K, verifica se il long context serve
User prompt:
Contiene solo il task corrente e i dati di input
Avvolge il contenuto non affidabile in sezioni taggate
Non ridichiara ruolo o formato di output
Non include scaffolding spostato nel system prompt
Testing:
Ri-esegui task rappresentativi su GPT-5 e GPT-5.4 con i prompt migrati
Misura costo, latenza e qualità sulle tue eval
Traccia quale prompt ha avuto bisogno di quale livello di effort
9. Perché Questo è più di un Rilascio di Modello
Lo spostamento dalla persuasione alla precisione non è una cosa una tantum di GPT-5.4. Rispecchia cosa è successo con Claude Opus 4.7 (instruction following più letterale [5]), con Gemini 3.1 Pro (istruzioni di sistema strutturate) e col design dell'API di Anthropic che divide role/data/output.
Pattern dell'industria: man mano che i modelli migliorano nel ragionare nativamente, il lavoro che un prompt deve fare si sposta dal convincere il modello a ragionare verso lo specificare esattamente quale risultato è accettabile.
Per team che mantengono librerie di prompt, questo ha due implicazioni.
Implicazione 1: i prompt si stanno accorciando. Lo scaffolding esce. I system prompt che prima erano di 2.000 parole ora ne fanno 500. È una feature, non una perdita.
Implicazione 2: la superficie di ottimizzazione si sta spostando dalle formulazioni alla struttura. Sezioni RACE, output contract, reasoning effort, regole sui tool. Sono proprietà strutturali di un prompt, non stilistiche.
Se il tuo team scrive ancora prompt come se fossimo nel 2023 (persona lunghe, framing persuasivi, scaffolding chain-of-thought), GPT-5.4 è il momento di aggiornare. I prompt non hanno bisogno di più parole. Hanno bisogno di struttura migliore.
10. Gestire Prompt Precision-First su Scala
Una libreria di prompt costruita per la precisione richiede una governance diversa da una costruita per la persuasione. La differenza è misurabile.
I prompt precision-first sono valutati su sei dimensioni specifiche:
Specificità. Il prompt dichiara il task esatto, non solo il dominio?
Contesto. Le informazioni che servono al modello sono scopate chiaramente e ancorate?
Struttura. Le sezioni Role, Action, Context, Expectation sono esplicite?
Vincoli. Casi limite e failure mode sono gestiti esplicitamente?
Ruolo. Il ruolo è funzionale e stretto, non aspirazionale?
Formato di output. L'output contract è completo (shape, casi limite, completamento)?
Ognuna di queste si mappa direttamente su una best practice di GPT-5.4 (e Opus 4.7, e Gemini 3.1). Un prompt che ottiene un buon punteggio su questi criteri è strutturalmente allineato al modo in cui i modelli moderni vogliono essere interrogati.
È il cuore di Keep My Prompts. Ogni prompt è valutato su queste sei dimensioni prima della spedizione. Il Promptimizer riscrive i prompt deboli per alzare il punteggio, con un quality gate che rifiuta le varianti che non migliorano l'originale. Ottieni precisione di default, non per speranza.
Per team che migrano intere librerie da GPT-5 a GPT-5.4, anche il versioning conta. Un prompt che funzionava a effort: none sul modello vecchio potrebbe richiedere medium su quello nuovo, o viceversa. Tracciare a quale livello di effort un prompt è stato validato è ora parte dei metadata del prompt, come la versione del modello o la temperature.
11. Il Segnale
Ogni rilascio di modello dice qualcosa su dove sta andando la frontiera. Il segnale di GPT-5.4 è coerente con Opus 4.7 e Gemini 3.1 Pro: l'era del prompting furbo sta finendo, l'era del prompting strutturale è qui.
Prompt più corti. Contract espliciti. Reasoning effort come manopola. Rifiuto come scelta di design. Ruolo funzionale, non aspirazionale.
I team che continuano a trattare i prompt come scrittura creativa andranno alla deriva. I team che trattano i prompt come interfacce (con tipi, contract e test) spediranno più velocemente a ogni nuovo rilascio, perché i loro prompt si trasferiranno con rework minimo.
GPT-5.4 ha reso quella transizione inevitabile. Il modello premia la precisione, non la formulazione furba. Adattati una volta, beneficia a ogni rilascio.
Keep My Prompts valuta ogni prompt sui sei criteri di precisione che correlano con la performance di GPT-5.4, Opus 4.7 e Gemini 3.1. Versiona la tua libreria, intercetta i prompt deboli prima della spedizione, e traccia cosa funziona tra modelli. Gratis per iniziare, senza carta di credito.