Prompt Engineering

Claude Fable 5 è così capace che stai pagando il doppio per scaffolding che non gli serve. Eliminane 5 (tienine 1). (Giugno 2026)

Pubblicato il 10 giugno 2026·11 min di lettura

Il 9 giugno 2026 Anthropic ha rilasciato Claude Fable 5, il modello più capace che abbia mai reso disponibile al pubblico [1]. È un modello classe Mythos con classificatori di sicurezza sopra: una richiesta che tocca cybersecurity, biologia, chimica o distillazione riceve invece una risposta da Claude Opus 4.8, in meno del 5% delle sessioni [1]. Fa 80.3% su SWE-bench Pro dove GPT-5.5 si ferma a 58.6%, ricostruisce il codice sorgente di una web app dai soli screenshot, estrae valori precisi da figure scientifiche e ha finito Pokemon FireRed dai pixel grezzi senza strumenti di supporto [1]. La frase di Anthropic da tenere a mente è questa: "più il task è lungo e complesso, più ampio è il vantaggio di Fable 5 sugli altri nostri modelli" [1]. È già sull'API ed è gratuito sui piani Pro, Max e Team fino al 22 giugno, quindi questa settimana puoi verificarlo di persona.

È anche caro. 10 $per milione di token in input, 50$ in output, circa il doppio di Opus 4.8 e il modello major più costoso sul mercato [1][2]. Simon Willison ha speso 110,42$ in un solo giorno di test e lo ha definito "una bestia", lento e costoso [2].

Ecco la parte controintuitiva, e il motivo per cui scrivo questo invece dell'ennesimo riassunto di benchmark: una fetta consistente dei tuoi prompt è scaffolding che hai aggiunto per compensare modelli più deboli, e su Fable 5 quello scaffolding ora paga tariffe premium per non fare nulla. La mossa non è "cancella lo scaffolding". È separare lo scaffolding che compensava una debolezza da quello che impone un contratto di cui hai ancora bisogno, tagliare il primo e tenere il secondo.

Due motivi per cui esiste lo scaffolding, solo uno è ora obsoleto

Gran parte della struttura che aggiungiamo a un prompt nasce da uno di due motivi, e raramente diciamo quale.

Scaffolding di compensazione: esiste perché il modello non riusciva a fare qualcosa da solo. Hai spezzato un task in dieci prompt piccoli perché il modello perdeva il filo sull'intero. Hai fatto un passaggio OCR perché non leggeva la figura. Hai aggiunto un loop "ora ricontrolla il tuo lavoro" perché era inaffidabile. Questo scaffolding è un aggiramento di un buco di capacità, e quando il buco si chiude lo scaffolding diventa puro sovraccarico.

Scaffolding di contratto: esiste perché ti serve una garanzia indipendente da quanto è intelligente il modello. Uno schema JSON da cui dipende il codice a valle. Uno slot nullo che il modello deve restituire quando non c'è risposta. Un guard-rail di policy. Una memoria file-based che mantiene lo stato durante un task lungo. Un modello più forte non rende questi superflui, perché non riguardavano la capacità. Riguardavano un contratto.

Il salto di capacità di Fable 5 fa crollare molto scaffolding di compensazione e zero scaffolding di contratto. Tutto il lavoro sta nel distinguerli. Qui sotto trovi cinque pattern di compensazione che vale la pena tagliare, ancorati a una capacità specifica di Fable 5, e un pattern di contratto che molti taglieranno per sbaglio.

Compensazione contro contratto: a sinistra cinque scaffolding che Fable 5 rende obsoleti (decomposizione manuale del task, OCR e pre-parsing, loop difensivi di auto-verifica, esempi few-shot ridondanti, role-priming da esperto gonfiato) marcati TAGLIA; a destra gli scaffolding che impongono un contratto indipendente dalla forza del modello (schemi di output, memoria file-based, guard-rail di policy, slot nulli) marcati TIENI

I tuoi prompt possono migliorare. Promptimizer li riscrive e li testa automaticamente.

Prova gratis

Cinque scaffolding da tagliare

1. Decomposizione manuale in una catena di micro-prompt

L'aggiramento classico per un modello che perdeva il filo su un task lungo era spezzarlo in dieci prompt piccoli e incollare tu gli output. Fable 5 "può lavorare in autonomia più a lungo di qualsiasi Claude precedente" su milioni di token di contesto [1], e Anthropic dice esplicitamente che il suo vantaggio cresce proprio man mano che il task diventa più lungo e complesso [1]. L'orchestrazione che facevi a mano compensava un orizzonte corto che ora non è più corto. Passagli l'intero task e lascia che porti lo stato. Non è la stessa cosa della formula "pensa passo dopo passo" di cui ho parlato per GPT-5.5: quello era una frase. Questa è l'impalcatura manuale di sotto-task avvolta intorno al modello.

2. Passaggi OCR e pre-parsing su documenti e immagini

Se la tua pipeline fa un passaggio OCR, un estrattore di tabelle o una chiamata di pre-processing "descrivi questo grafico" prima del prompt vero, quella era compensazione per una vista debole. Fable 5 è lo stato dell'arte sulla vista: estrae numeri precisi direttamente dalle figure scientifiche e ricostruisce il sorgente di una web app dai soli screenshot [1]. Il livello di pre-estrazione è ora un intermediario con perdite, seduto tra il modello e i pixel che legge meglio del tuo estrattore. Manda l'immagine.

3. Loop difensivi di auto-verifica

"Ora rileggi la tua risposta e controlla gli errori, poi verifica di nuovo" era una toppa di affidabilità. Ti costa un intero passaggio di generazione extra ogni volta, e su un modello da 50$ per milione di output quel passaggio è caro. L'accuratezza di Fable 5 rende la ri-verifica generalizzata un cattivo affare: stai pagando token di output premium per ri-derivare una risposta che era già giusta nella maggior parte dei casi. Nota che è diverso dall'upgrade di onestà di cui ho scritto per Opus 4.8, dove il modello segnala da solo la propria incertezza senza che glielo chiedi; qui il punto è eliminare lo scaffolding di ri-verifica esterna, non fidarsi ciecamente. Tieni la verifica dove sbagliare è davvero costoso, e lì legala al task, non a ogni chiamata.

4. Esempi few-shot ridondanti

Impilare cinque o sei esempi per insegnare un pattern era compensazione per un modello che non inferiva la forma da uno solo. Un modello più capace la inferisce da un esempio pulito, e gli altri quattro diventano token di input che paghi a ogni chiamata, più un bias sottile che restringe l'output verso i tuoi campioni. La versione N=3 contro N=1 di questo l'avevo già proposta come trucco di costo; su Fable il caso è più forte perché è la capacità, non solo il conto, a dire che gli esempi extra sono rumore. Riduci a un buon esempio, o a una descrizione netta del contratto, e misura.

5. Role-priming difensivo gonfiato

"Sei un ingegnere senior meticoloso con vent'anni di esperienza che non sbaglia mai e ricontrolla tutto tre volte" è un incantesimo di fiducia lanciato a un modello che andava convinto a essere competente. Su un modello di frontiera è zavorra: consuma token, non cambia molto il comportamento, e la parte che cambia raramente è quella che volevi. Dichiara il ruolo reale e i vincoli che contano per il task e smettila di recitare rassicurazioni al modello.

Le tecniche che stai leggendo funzionano. Testa subito i tuoi prompt con Prompt Score e vedi il punteggio in tempo reale.

Testa i tuoi prompt

Quello da tenere: lo scaffolding di stato e di contratto

Stat card: Claude Fable 5 fa 80.3% su SWE-bench Pro contro 58.6% di GPT-5.5, costa circa 2x Claude Opus 4.8 a 10 in input e 50 in output per milione di token, e ha raggiunto la fine di Pokemon FireRed 3 volte più spesso quando gli è stata data una memoria file-based

Ecco la trappola. L'istinto dopo aver letto i cinque sopra è "ottimo, un modello più intelligente ha bisogno di meno di tutto, butta via tutto". Ed è esattamente sbagliato per una categoria, e Anthropic ci ha dato il contro-esempio più pulito possibile. Quando a Fable 5 è stata data una memoria file-based persistente durante la sessione di Pokemon, ha raggiunto gli stati di fine gioco tre volte più spesso che senza [1]. Il modello pubblicamente disponibile più intelligente ha comunque triplicato i risultati con lo scaffolding di stato.

Questo perché la memoria è scaffolding di contratto, non di compensazione. Non sta toppando una debolezza che il modello altrimenti supererebbe con più intelligenza; sta dando al task un posto dove tenere lo stato che nessuna quantità di capacità grezza sostituisce. Lo stesso vale per lo schema di output da cui dipende il tuo parser a valle, per lo slot nullo che previene un'allucinazione sicura di sé nel caso vuoto, e per i guard-rail di policy che codificano regole invece di abilità. Tagliali e non risparmi denaro: rimuovi una garanzia.

Quindi la lista del "tieni" è corta e di principio: tutto ciò che impone un contratto o mantiene uno stato sopravvive intatto all'upgrade del modello. Tutto ciò che era un aggiramento di un buco se ne va.

Perché il taglio conta di più a 50$ al milione

Su un modello economico, lo scaffolding di compensazione lasciato lì è sciatto ma quasi innocuo: pochi token di input sprecati a tariffa bassa. Su Fable 5 i conti cambiano. Ogni esempio few-shot ridondante, ogni passaggio difensivo di ri-verifica, ogni sotto-prompt decomposto in eccesso è ora fatturato a tariffa premium, gli output soprattutto a 50$ per milione [1]. Lo scaffolding che era gratis lasciare in piedi è ora la voce di costo che vedi davvero in fattura.

Questo è il contraltare del ragionamento sul routing che ho fatto quando xAI ha rilasciato un modello di coding da 1$: lì la mossa era partire dal tier economico e veloce per il lavoro di volume ed escalare verso l'alto il 10% difficile. Fable 5 è la cima di quella scala, il modello che tiri fuori per il task davvero difficile. E proprio perché è l'estremo costoso, il prompt che gli mandi dovrebbe fare una cosa sola: chiedere ciò che il modello non sa fare da solo. Tutto il resto è spesa premium su un aggiramento che non ti serve più.

La regola non è "modello più forte, prompt più lungo" e non è "modello più forte, prompt più corto". È "modello più forte, un prompt che fa solo ciò che il modello non sa fare da sé".

Cosa ho tagliato, e l'unico che ho dovuto rimettere

Ho passato la mia libreria attraverso questa lente il giorno in cui Fable 5 è uscito. Le vittorie facili sono state il pre-passaggio OCR su un prompt di analisi documenti e un blocco di quattro esempi few-shot su un prompt di classificazione; entrambi sono usciti, l'output ha tenuto, la chiamata è diventata più economica e più corta. È andato via anche il loop difensivo di ri-verifica su un prompt di sintesi, e andava bene così.

Quello su cui ho sbagliato era un lungo prompt di ricerca multi-step dove avevo infilato lo stato attraverso uno scaffolding fatto a mano di file intermedi. Il mio primo istinto è stato strappare via tutto e lasciare che Fable portasse il task da capo a fondo, dato che dovrebbe reggere orizzonti lunghi. Il ragionamento l'ha retto bene. Quello che è peggiorato è stata la continuità lungo la sessione: senza lo stato file-based esplicito, ri-derivava contesto che aveva già stabilito e andava alla deriva sui dettagli. Ho rimesso lo scaffolding di memoria ed era meglio di entrambe le versioni precedenti. È la linea compensazione-contro-contratto tracciata in produzione: la decomposizione era compensazione e meritava di morire, lo stato era un contratto e meritava di restare.

Se prendi un solo passo operativo da questo articolo, sia quell'audit. Tieni una versione canonica di ogni prompt, taglia lo scaffolding che sospetti fosse compensazione, e ri-testa sugli stessi input prima e dopo, così la decisione è basata sull'evidenza e non sulle sensazioni. Un salto di capacità è esattamente il momento in cui i tuoi prompt accumulano zavorra, perché la cosa che stavano aggirando ha appena smesso di essere un problema.

Il segnale

Fable 5 è un vero passo avanti, e la tentazione a ogni passo avanti è festeggiare il modello e lasciare stare i prompt. La mossa è l'opposto. Un modello più capace è un motivo per fare un audit dei tuoi prompt al ribasso, non al rialzo, perché gli aggiramenti che hai scritto per le debolezze dell'anno scorso sono ora sovraccarico, e su un modello così costoso sono sovraccarico che paghi a token. Taglia la compensazione, tieni i contratti, e manda al modello premium solo il lavoro che è davvero premium.

Keep My Prompts ti permette di tenere una versione canonica di ogni prompt, valutarlo su sei criteri di qualità e confrontare lo stesso prompt prima e dopo che ne tagli lo scaffolding sui tuoi input, così un upgrade di modello diventa un audit dei prompt invece di una scommessa. Gratis per iniziare, senza carta di credito.

Riferimenti

[1] Claude Fable 5 and Claude Mythos 5, Anthropic, 9 giugno 2026. https://www.anthropic.com/news/claude-fable-5-mythos-5

[2] Initial impressions of Claude Fable 5, Simon Willison, 9 giugno 2026. https://simonwillison.net/2026/Jun/9/claude-fable-5/

[3] Anthropic released Claude Fable 5, its most powerful model publicly, days after warning AI is getting too dangerous, TechCrunch, 9 giugno 2026. https://techcrunch.com/2026/06/09/anthropic-released-claude-fable-5-its-most-powerful-model-publicly-days-after-warning-ai-is-getting-too-dangerous/

#claude-fable-5#anthropic#scaffolding-prompt#prompt-engineering#upgrade-modello#costo-llm#mythos#swe-bench#solo-dev#2026

Pronto a organizzare i tuoi prompt?

Inizia gratis, senza carta di credito.

Inizia Gratis

Nessuna carta di credito richiesta