Torna al blog
Trend

GLM-5.2 batte GPT-5.5 sul coding a 1/6 del costo: la migrazione 80/20 (e l'unica insidia) (Giugno 2026)

·11 min di lettura
GLM-5.2 batte GPT-5.5 sul coding a 1/6 del costo: la migrazione 80/20 (e l'unica insidia) (Giugno 2026)

Il 13 giugno 2026 Zhipu (Z.ai) ha rilasciato GLM-5.2, il modello open-weights più forte uscito finora e il primo a cui affiderei davvero del lavoro di coding in produzione [1][2]. Fa 62.1 su SWE-bench Pro dove GPT-5.5 si ferma a 58.6, raggiunge il 74.4% su FrontierSWE a circa un punto da Claude Opus 4.8 e va quasi pari a Opus sul benchmark di uso dei tool MCP-Atlas, con 77.0 [1][2]. Ha una finestra di contesto da 1M di token e una licenza MIT, quindi i pesi sono tuoi da scaricare [1]. Ed è economico: 1,40 dollari per milione di token in input e 4,40 in output sull'API Z.ai, contro i 5 e 30 di GPT-5.5, il che fa circa 6 volte di meno per token combinato [1].

Questo è il titolo. La mossa non è "sposta tutto su GLM-5.2". Sono due decisioni distinte che quasi tutti collassano in una sola: cosa migrare (l'80/20, perché GLM-5.2 batte GPT-5.5 sul coding ma non è un rimpiazzo universale di Opus) e per quale via farlo passare, perché la via più economica ha un'insidia. Ecco come ho tracciato entrambe le linee.


Cosa batte davvero GLM-5.2, e cosa no

I benchmark si dividono nettamente in due storie, e leggere solo la prima è il modo in cui ti convinci da solo a fare una migrazione di cui ti pentirai.

Sul coding e sul lavoro agentico a lungo orizzonte, GLM-5.2 è davvero alla porta della frontiera. Il 62.1 su SWE-bench Pro batte GPT-5.5 (58.6) e il suo stesso predecessore GLM-5.1 (58.4) [1]. Il 74.4% su FrontierSWE resta dietro a Opus 4.8 di circa un punto [2]. Terminal-Bench 2.1 è salito a 81 dal 63.5 di GLM-5.1, a quattro punti da Opus [2]. L'uso dei tool su MCP-Atlas, a 77.0, è davanti al 75.3 di GPT-5.5 e sfiora il 77.8 di Opus 4.8 [2]. Sul lavoro per cui la maggior parte di noi compra davvero un modello, cioè scrivere codice, fare refactoring, guidare tool lungo un task esteso, è competitivo con modelli che costano da sei a dieci volte tanto.

La seconda storia è quella che gli annunci di lancio saltano. Su Humanity's Last Exam resta nettamente dietro a Opus 4.8, sul Tool-Decathlon è dietro sia a Opus sia a GPT-5.5, e su SWE-Marathon arriva solo a circa metà del punteggio di Opus 4.8 [2]. Il suo indice composito Artificial Analysis Intelligence è 51, il migliore tra gli open-weights ma ben sotto il 61.4 di Opus 4.8 [2]. Tradotto: il reasoning più duro, più lungo e più ambiguo non è ancora la sua categoria.

Quindi la lettura onesta è ristretta e utile. GLM-5.2 è un modello open di livello coding che taglia il prezzo di GPT-5.5 e lo eguaglia o lo batte sul codice, restando un gradino sotto Opus 4.8 sul reasoning veramente difficile. È esattamente la forma che premia uno split 80/20, non uno scambio in blocco.

Schede statistiche: GLM-5.2 fa 62.1 su SWE-bench Pro contro 58.6 di GPT-5.5, costa circa 6 volte meno di GPT-5.5 con 1,40 dollari in input e 4,40 in output per milione di token contro 5 e 30, ed esce con licenza MIT e finestra di contesto da 1 milione di token, così i pesi aperti possono essere ospitati in proprio
Schede statistiche: GLM-5.2 fa 62.1 su SWE-bench Pro contro 58.6 di GPT-5.5, costa circa 6 volte meno di GPT-5.5 con 1,40 dollari in input e 4,40 in output per milione di token contro 5 e 30, ed esce con licenza MIT e finestra di contesto da 1 milione di token, così i pesi aperti possono essere ospitati in proprio

L'80/20: cosa spostare, cosa tenere

Lo split segue quello dei benchmark. Sposta il lavoro dove GLM-5.2 pareggia o vince, tieni la coda difficile dove Opus comanda ancora.

Sposta su GLM-5.2. Generazione e refactoring di codice ad alto volume, quelli che lanci centinaia di volte al giorno. Classificazione, estrazione e summarization, dove il task è ben specificato e a contare è il costo per chiamata. Coding a contesto medio e templating. Orchestrazione di tool dove i passi sono chiari, visto il risultato su MCP-Atlas. Task SWE a lungo orizzonte dove sta a un punto da Opus a una frazione del prezzo. Questo è il volume di una settimana normale, e sul volume il divario di prezzo di 6 volte si accumula nell'unica voce della fattura che sentirai davvero.

Vuoi sapere quanto sono efficaci i tuoi prompt? Prompt Score li analizza su 6 criteri.

Prova gratis

Tieni in frontiera. Il 10% difficile: i giudizi ambigui, il reasoning multi-tool con diramazioni, tutto ciò che è valutato con la difficoltà tipo HLE dove Opus ha un margine reale, e qualsiasi task in cui sbagliare costa abbastanza da rendere un punto di accuratezza più prezioso del risparmio. È la stessa logica di escalation che ho sostenuto quando xAI ha messo in campo un modello di coding da 1 dollaro: scendi di default al tier economico ma capace per il volume, sali alla frontiera per la coda difficile, e lascia che siano i tuoi test a tracciare la linea, non il grafico dei benchmark di un fornitore.

La differenza, stavolta, è che il tier economico è open-weights, e questo cambia del tutto la seconda decisione.

Matrice decisionale intitolata lo split 80/20 di GLM-5.2. Colonna sinistra SPOSTA SU GLM-5.2: generazione e refactoring di codice ad alto volume, classificazione ed estrazione, summarization, coding a contesto medio e templating, orchestrazione di tool a passi chiari, task SWE a lungo orizzonte a un punto da Opus. Colonna destra TIENI IN FRONTIERA: giudizi ambigui, reasoning multi-tool con diramazioni, problemi difficili di livello HLE, tutto ciò in cui sbagliare costa caro. Regola in basso: sposta il volume, fai escalation sulla coda difficile, lascia che siano i tuoi test a tracciare la linea
Matrice decisionale intitolata lo split 80/20 di GLM-5.2. Colonna sinistra SPOSTA SU GLM-5.2: generazione e refactoring di codice ad alto volume, classificazione ed estrazione, summarization, coding a contesto medio e templating, orchestrazione di tool a passi chiari, task SWE a lungo orizzonte a un punto da Opus. Colonna destra TIENI IN FRONTIERA: giudizi ambigui, reasoning multi-tool con diramazioni, problemi difficili di livello HLE, tutto ciò in cui sbagliare costa caro. Regola in basso: sposta il volume, fai escalation sulla coda difficile, lascia che siano i tuoi test a tracciare la linea

L'unica insidia: dove finisce il tuo codice

GLM-5.2 è fatto da un laboratorio cinese, e il modo più economico di usarlo, l'API ospitata da Z.ai, instrada i tuoi prompt e il tuo codice attraverso quella giurisdizione [3]. Per un progetto personale o un repo open-source è un non-problema. Per il codice proprietario di un cliente, un repo sotto NDA o qualunque cosa tocchi dati regolamentati, mandarlo a quell'endpoint è una decisione di data governance che dovresti prendere di proposito, non di default solo perché era la riga più economica nel listino.

Ecco perché la licenza MIT conta oltre al prezzo. Ti dà tre vie di accesso, non una, e si scambiano costo contro il punto in cui il tuo codice finisce fisicamente:

  1. API ospitata da Z.ai. La più economica e semplice, 1,40 / 4,40 dollari per milione [1]. Giusta per il lavoro non sensibile: progetti personali, OSS, dati pubblici, prototipi usa e getta.
  2. Gateway occidentale. OpenRouter e Cloudflare Workers AI servono entrambi GLM-5.2 [1]. Il tuo codice lascia comunque la tua macchina, ma resta presso un fornitore sotto una giurisdizione e un contratto che già conosci. Giusto per il normale lavoro commerciale non particolarmente sensibile.
  3. Ospita i pesi in proprio. I pesi e una variante FP8 sono su Hugging Face con licenza MIT [1], quindi per il codice più sensibile lo fai girare sulla tua GPU e niente esce dal tuo perimetro. È l'opzione che nessun modello chiuso ti dà a qualsiasi prezzo, ed è l'intera ragione per cui "open" vale più dello sconto.

Le tecniche che stai leggendo funzionano. Testa subito i tuoi prompt con Prompt Score e vedi il punteggio in tempo reale.

Testa i tuoi prompt

Abbina la via alla sensibilità del dato, non al fondo del listino. La via più economica è quella giusta sorprendentemente spesso, ma "sorprendentemente spesso" non è "sempre", e il modo in cui fallisce è silenzioso.

Albero decisionale intitolato scegli la via di accesso in base alla sensibilità del dato. Ramo uno: codice non sensibile, personale o OSS o pubblico, va all'API ospitata da Z.ai, la più economica a 1,40 e 4,40 per milione. Ramo due: codice commerciale normale, non particolarmente sensibile, va a un gateway occidentale come OpenRouter o Cloudflare Workers AI, stesso modello sotto una giurisdizione familiare. Ramo tre: codice proprietario, sotto NDA o regolamentato, ospita in proprio i pesi MIT in FP8 sulla tua GPU così niente esce dal perimetro. Regola in basso: abbina la via al dato, non al fondo del listino
Albero decisionale intitolato scegli la via di accesso in base alla sensibilità del dato. Ramo uno: codice non sensibile, personale o OSS o pubblico, va all'API ospitata da Z.ai, la più economica a 1,40 e 4,40 per milione. Ramo due: codice commerciale normale, non particolarmente sensibile, va a un gateway occidentale come OpenRouter o Cloudflare Workers AI, stesso modello sotto una giurisdizione familiare. Ramo tre: codice proprietario, sotto NDA o regolamentato, ospita in proprio i pesi MIT in FP8 sulla tua GPU così niente esce dal perimetro. Regola in basso: abbina la via al dato, non al fondo del listino

Il port dei prompt: cosa si rompe meccanicamente

Quando ho spostato i prompt, il contenuto è cambiato a malapena. Quello che si è rotto è l'involucro meccanico attorno al contenuto, e si è rotto sempre negli stessi quattro punti. Questa è la versione GLM-5.2 della checklist di migrazione che ho scritto per DeepSeek V4, e lo schema vale per qualsiasi spostamento tra fornitori.

  • Formato dei messaggi e ruoli. Un prompt costruito attorno all'array system di Anthropic con i blocchi cache_control, o alle convenzioni del ruolo developer di OpenAI, non si trasferisce alla lettera. GLM-5.2 ha il suo chat template; codifica al suo interno le stesse istruzioni invece di incollare di traverso lo scaffolding specifico del fornitore.
  • Schema delle tool-call. L'involucro del function calling differisce nei nomi dei campi e nella struttura. Le definizioni dei tool si riportano concettualmente, ma il formato sul filo no. Valida contro una vera tool-call di GLM-5.2 prima di fidarti del tuo parser, perché qui un quasi-centro fallisce in silenzio.
  • Controlli di reasoning e thinking. Le manopole specifiche del fornitore, come un thinking_budget o un parametro di effort, non hanno un equivalente uno-a-uno. Mappa l'intento (profondo contro veloce) sul controllo proprio di GLM-5.2 e ricontrolla il default, perché un cambio silenzioso del default è la classica origine di un workload "peggiorato senza motivo".
  • Sampling e stop sequence. Temperature, top-p e stop token messi a punto su un modello non sono assunzioni portabili. Ritarali su GLM-5.2 con i tuoi input invece di trascinarti dietro i vecchi valori.

La regola è la stessa che rende una migrazione economica anziché una riscrittura: il contenuto del prompt è l'asset e resta; l'involucro specifico del fornitore è impiantistica e lo sostituisci. Se i tuoi prompt sono aggrovigliati con l'envelope di un solo fornitore, il port è doloroso. Se sono scritti in modo indipendente dal modello, è un cambio di configurazione.


Cosa ho spostato, e l'unico che ho riportato indietro

Ho passato un blocco dei miei prompt attraverso questo processo la settimana in cui è uscito GLM-5.2. I prompt di estrazione e classificazione ad alto volume si sono spostati puliti: stesso contenuto, involucro ricodificato, output tenuto sugli stessi input e costo per chiamata sceso a una frazione. Anche un prompt di refactoring a contesto medio si è spostato e non sono riuscito a distinguere gli output sul mio set di test. Questo è l'80 dell'80/20, ed è stato privo di drammi, che è esattamente il punto.

Due non si sono spostati, per due ragioni diverse. Uno era un prompt di reasoning davvero difficile e ramificato dove ho confrontato gli output fianco a fianco e Opus era ancora visibilmente migliore sui casi ambigui; quello è rimasto in frontiera, e il risparmio non valeva l'accuratezza che avrei perso. L'altro si è spostato bene come qualità, ma toccava il codice proprietario di un cliente, quindi l'ho tolto dall'endpoint ospitato da Z.ai e l'ho messo dietro un'istanza self-hosted degli stessi pesi MIT. Modello identico, output identici, via diversa, perché a decidere la via è stato il dato e il benchmark non aveva nulla da dire al riguardo.

Se da qui porti via una sola abitudine operativa, che sia il confronto fianco a fianco. Tieni una versione canonica di ogni prompt, lanciala sugli stessi input sul vecchio modello e su GLM-5.2, e decidi sulle prove. Un modello economico che pareggia quello costoso sul tuo lavoro è un risparmio reale; un modello economico che perde in silenzio un punto proprio sui task dove il punto contava è una regressione che non noterai finché non ti costa.


Il segnale

Un modello open da 753 miliardi di parametri che batte GPT-5.5 sul coding a un sesto del prezzo, pareggia Opus sull'uso dei tool e può girare sul tuo hardware non è un'occasione isolata. È il segnale più chiaro finora dello schema su cui continuo ad atterrare: il modello è la commodity e il prompt è il moat. Quando un modello capace esce all'incirca ogni due settimane e almeno uno di questi è open ed economico, l'asset che mantiene il suo valore non è il modello che hai scelto, è la libreria di prompt che puoi spostare da un modello al successivo in un pomeriggio.

Quindi tratta GLM-5.2 come tratteresti qualsiasi nuovo backend: instrada il volume verso di lui, fai escalation della coda difficile oltre di lui, scegli la sua via di accesso in base alla sensibilità dei tuoi dati e tieni i tuoi prompt abbastanza portabili da rendere anche il prossimo modello economico di classe frontiera un cambio di configurazione e non una riscrittura.


Keep My Prompts ti permette di tenere una versione canonica di ogni prompt, valutarla su sei criteri di qualità e confrontare lo stesso prompt su due modelli con i tuoi input, così una migrazione diventa una decisione misurata invece di una scommessa. Gratis per iniziare, senza carta di credito.


Riferimenti

[1] Z.ai's open-weights GLM-5.2 beats GPT-5.5 on multiple long-horizon coding benchmarks for 1/6th the cost, VentureBeat, giugno 2026. https://venturebeat.com/technology/z-ais-open-weights-glm-5-2-beats-gpt-5-5-on-multiple-long-horizon-coding-benchmarks-for-1-6th-the-cost

[2] Zhipu AI's GLM-5.2 closes in on closed-source leaders in coding marathons, The Decoder, giugno 2026. https://the-decoder.com/zhipu-ais-glm-5-2-closes-in-on-closed-source-leaders-in-coding-marathons/

[3] GLM-5.2 open weights live: top coding benchmark, but API use carries China data risk, Tech Times, 17 giugno 2026. https://www.techtimes.com/articles/318543/20260617/glm-52-open-weights-live-top-coding-benchmark-api-use-carries-china-data-risk.htm

#glm-5-2#zhipu#z-ai#open-weights#gpt-5-5#migrazione-modelli#prompt-engineering#costo-llm#modelli-coding#2026

Pronto a organizzare i tuoi prompt?

Inizia gratis, senza carta di credito.

Inizia Gratis

Nessuna carta di credito richiesta

Articoli correlati