Il 30 giugno 2026 Anthropic ha rilasciato Claude Sonnet 5 e lo ha reso il modello di default per i piani Free e Pro su claude.ai, live lo stesso giorno in Claude Code, nell'API Claude, in Cursor, VS Code e GitHub Copilot [1][2]. Se usi uno di questi, lo stai già usando, che tu l'abbia scelto o no. Due cose sono cambiate sotto il cofano e toccano ogni prompt che invii: un nuovo tokenizer che trasforma lo stesso input in circa 1.0-1.35× token in più rispetto a Sonnet 4.6, e un adaptive thinking sempre attivo con effort impostato di default su high sull'API e in Claude Code [1][2].
Anthropic ha fissato il prezzo introduttivo (2permilioneditokenininput,10 in output) in modo che la transizione sia "roughly cost-neutral" fino al 31 agosto, poi sale a 3e15 [1]. Quella finestra introduttiva è tutta l'opportunità qui: hai tempo fino al 1 settembre per sistemare le cose prima che i token in più e la tariffa più alta arrivino sulla bolletta nello stesso momento. Ecco le cinque cose che ho controllato nella mia libreria il giorno in cui il default è cambiato.
Il default è cambiato, ed è questa la notizia
La solita domanda al lancio di un modello è "devo migrare". Quella domanda per te ha già una risposta. Se scrivi in Claude Code, lavori con Cursor o Copilot, o chiami l'API senza fissare una stringa di modello, i tuoi prompt sono passati a Sonnet 5 il 30 giugno. Nessun progetto di migrazione, nessuna checklist di cutover, nessuna finestra di A/B. Il modello sotto i tuoi prompt è cambiato mentre stavi facendo altro.
Ed è un modello davvero forte, ed è proprio per questo che nessuno tornerà indietro. Arriva vicino a Opus 4.8 a una frazione del prezzo: 63.2% su SWE-bench Pro contro il 69.2% di Opus 4.8, 81.2% su OSWorld-Verified contro 83.4%, e pareggia di fatto Opus sul benchmark di knowledge work GDPval-AA v2 con 1.618 Elo contro i 1.615 di Opus 4.8 [2]. Qualche punto sotto il modello di punta sul coding difficile, alla pari sul knowledge work, a un prezzo da Sonnet. Non c'è motivo di combattere questo default.
Quindi il lavoro non è "valutare il passaggio". È "sei già passato, ora adatta i prompt al modello che stai davvero usando". Due cambiamenti guidano tutti gli aggiustamenti qui sotto.
Schede statistiche di Claude Sonnet 5: è il nuovo default per i piani Free e Pro ed è live in Claude Code, Cursor, VS Code e Copilot; un nuovo tokenizer trasforma lo stesso input in fino a 1.35× token in più rispetto a Sonnet 4.6; e il prezzo introduttivo di 2 dollari input e 10 dollari output per milione di token sale a 3 e 15 dollari il 1 settembre 2026
I due cambiamenti sotto il cofano
Un nuovo tokenizer. Lo stesso prompt e la stessa risposta ora contano circa 1.0-1.35× token in più rispetto a Sonnet 4.6, a seconda del tipo di contenuto [1][2]. Parità di listino non vuol dire parità di spesa: stessi prezzi di listino con più token per task significa che il tuo costo reale per task può salire. Anthropic lo ha compensato con lo sconto introduttivo, quindi fino al 31 agosto in media la transizione è più o meno a costo invariato. Il 1 settembre la tariffa torna a 3/15 e i token in più non sono più compensati da una tariffa più bassa.
I tuoi prompt possono migliorare. Promptimizer li riscrive e li testa automaticamente.
Adaptive thinking, sempre attivo, effort high di default. Sonnet 5 dosa da solo la propria deliberazione, e l'effort di default è high sull'API e in Claude Code [2]. Non stai più scegliendo il ragionamento chiamata per chiamata; stai scegliendo di escluderlo quando non lo vuoi. Con un default a effort high, ogni chiamata, incluse quelle banali, può spendere più token di output a ragionare di quanto intendessi.
Diagramma a due pannelli di cosa è cambiato con Claude Sonnet 5. Pannello sinistro, il tokenizer: lo stesso input ora conta fino a 1.35× token in più, quindi la parità di listino non è parità di spesa, e lo sconto introduttivo che la compensa scade il 1 settembre. Pannello destro, adaptive thinking: è sempre attivo con effort di default su high, quindi le chiamate banali spendono token di output a ragionare a meno che tu non abbassi l'effort in modo esplicito
Cinque cose da sistemare
Una checklist di cinque cose da sistemare ora che Claude Sonnet 5 è il tuo default: rimisura i token sui tuoi prompt reali, ricontrolla i breakpoint della cache e i budget di contesto, abbassa l'effort sulle chiamate banali ad alto volume, elimina lo scaffolding di ragionamento ridondante e pianifica il rincaro del 1 settembre da 2 e 10 dollari a 3 e 15 dollari per milione di token
1. Rimisura i token sui tuoi prompt reali, non sul listino
L'affermazione "a costo invariato" è una media tra tipi di contenuto. I tuoi prompt non sono la media. Codice, tabelle e testo non inglese tendono a stare verso l'estremo 1.35× della forbice, quindi un workload ricco di prompt o di documenti può costare di più per task anche alla tariffa introduttiva. Passa i tuoi prompt reali attraverso entrambi i modelli e confronta i conteggi dei token e i totali in dollari, non le tariffe pubblicate. È la stessa lezione che aveva insegnato il cambio di tokenizer di Opus 4.7 la volta scorsa: il listino non è la bolletta.
2. Ricontrolla i breakpoint della cache e i budget di contesto
Un nuovo tokenizer sposta dove cadono i tuoi token, e questo sposta due cose che probabilmente avevi fissato sui vecchi conteggi. I breakpoint della cache che combaciavano su un prefisso stabile con Sonnet 4.6 possono spostarsi, abbassando in silenzio il tuo hit rate. E un prompt dimensionato per stare in un budget di contesto con un margine può ora arrivare vicino al limite o superarlo, perché lo stesso input tokenizza più grande. Rimisura entrambi sui nuovi conteggi invece di dare per scontato che i vecchi margini reggano ancora.
Le tecniche che stai leggendo funzionano. Testa subito i tuoi prompt con Prompt Score e vedi il punteggio in tempo reale.
3. Abbassa l'effort sulle chiamate banali ad alto volume
Con l'effort di default su high, un prompt di classificazione, estrazione o formattazione che lanci migliaia di volte al giorno ora paga per una deliberazione che non gli serve, in token di output fatturati a 10epresto15 per milione. Imposta l'effort esplicitamente su low sulle chiamate ad alto volume e a basso giudizio, e tieni high per il lavoro che ne beneficia davvero. È la trappola del default di thinking che avevo segnalato quando Gemini 3.5 Flash ha spostato il suo default: un cambio silenzioso di default è la classica causa di un workload diventato più lento e più caro senza motivo visibile.
4. Elimina lo scaffolding di ragionamento ora ridondante
Se i tuoi prompt portano un blocco "think step by step", un preambolo "ragiona con attenzione prima di rispondere" o un loop di auto-verifica costruito a mano, quello scaffolding ora fa un lavoro che il modello svolge in modo nativo e sempre. È zavorra che per di più spende due volte: paghi per il thinking nativo e poi paghi di nuovo per lo scaffolding che cerca di indurlo. È il taglio dello scaffolding di compensazione che ho fatto per Fable 5, e qui si applica in modo pulito: taglia i prompt di ragionamento manuale, tieni i contratti (schemi, slot nulli, guard-rail).
5. Pianifica il 1 settembre prima che arrivi
La finestra introduttiva nasconde un effetto che si somma. In questo momento la tariffa più bassa compensa i token in più. Il 1 settembre la tariffa torna a 3/15 mentre l'inflazione dei token resta, quindi la bolletta può muoversi per due motivi insieme, e nessuno dei due è un cambio che hai fatto tu. Decidi ora: accetta l'aumento a occhi aperti, instrada il lavoro ad alto volume verso un tier più economico, oppure blocca un budget. La versione peggiore è scoprire il rincaro a ottobre da una fattura.
Cosa ho controllato, e quello che mi ha sorpreso
Ho passato la mia libreria attraverso questo processo il giorno in cui il default è cambiato. L'affermazione a costo invariato ha retto per lo più: sui prompt in stile chat l'aumento di token era piccolo e la tariffa introduttiva lo assorbiva. Due cose non si sono comportate così. Un prompt di analisi documenti è finito vicino all'estremo 1.35× ed è diventato più caro per run anche al prezzo introduttivo, il che mi ha detto esattamente quali workload tenere d'occhio prima di settembre. E un prompt di classificazione ad alto volume era improvvisamente più lento e più caro perché ragionava a effort high su un task che non ne aveva bisogno; abbassare l'effort su low lo ha rimesso dove doveva stare.
Quello che mi ha sorpreso non riguardava il costo. Un prompt che avevo dimensionato con cura per stare nella finestra di contesto di Sonnet 4.6, con quello che credevo fosse un margine comodo, ha iniziato a troncare sugli input lunghi. Nel mio prompt non era cambiato nulla. Lo stesso input semplicemente tokenizza più grande su Sonnet 5, quindi il margine che avevo misurato era sparito. È tutta la lezione in un bug: quando il tokenizer si muove, ogni numero che avevi derivato dai conteggi dei token è vecchio, inclusi quelli a cui non stai pensando.
Se da qui porti via un solo passo operativo, che sia la rimisurazione. Tieni una versione canonica di ogni prompt, lanciala sugli stessi input sul modello che usavi e su quello che usi ora, e leggi i conteggi reali dei token. Un cambio di default è invisibile finché non si muove la bolletta o la latenza, e a quel punto stai facendo debug in produzione invece di adattarti di proposito.
Il segnale
Sonnet 5 è un upgrade reale, vicino a Opus per quel prezzo, e come default non se ne andrà. È proprio per questo che la mossa non è ammirare i benchmark e lasciare stare i prompt. Nel momento in cui il modello sotto i tuoi prompt cambia, ogni assunzione incorporata in quei prompt, budget di token, confini della cache, livelli di effort, scaffolding di ragionamento, merita un passaggio di misurazione. Questo passaggio non l'hai scelto tu, ma puoi scegliere di adattarti prima che settembre trasformi due cambiamenti silenziosi in un'unica bolletta visibile.
Keep My Prompts ti permette di tenere una versione canonica di ogni prompt, valutarla su sei criteri di qualità e confrontare lo stesso prompt su due modelli con i tuoi input, così un cambio di default diventa un aggiustamento misurato invece di una sorpresa. Gratis per iniziare, senza carta di credito.