AI & Automazione

Anthropic Sonnet 4.6: prestazioni AI top a un quinto del costo

February 18, 2026

Anthropic Sonnet 4.6 rappresenta un punto di svolta nell’intelligenza artificiale aziendale. Infatti, il nuovo modello rilasciato martedì scorso offre prestazioni quasi identiche ai modelli flagship, ma a un costo cinque volte inferiore. Di conseguenza, migliaia di aziende che implementano agenti AI con milioni di chiamate API giornaliere possono finalmente ridurre drasticamente i costi operativi.

Grazie per avere letto questo articolo, non dimenticare di iscriverti al nostro feed!

Anthropic Sonnet 4.6: prestazioni flagship a prezzo medio

Il modello Anthropic Sonnet 4.6 mantiene il prezzo del predecessore — 3 dollari per milione di token in input e 15 in output — mentre i modelli Opus della stessa azienda costano 15/75 dollari per milione di token. Tuttavia, le performance su task reali di coding, automazione e ragionamento contestuale eguagliano quelle della linea Opus. Pertanto, le aziende non devono più scegliere tra risultati inferiori a basso costo o prestazioni superiori a costi proibitivi.

Inoltre, Anthropic ha integrato una finestra di contesto da 1 milione di token in versione beta. In altre parole, il modello può elaborare intere codebase, contratti lunghi o decine di paper di ricerca in una singola richiesta. Allo stesso modo, questa capacità apre scenari inediti per l’analisi documentale enterprise e la pianificazione strategica a lungo termine.

Benchmark reali: come Anthropic Sonnet 4.6 batte la concorrenza

Su SWE-bench Verified, lo standard industriale per il coding su problemi reali, Anthropic Sonnet 4.6 ha ottenuto il 79,6%, quasi identico all’80,8% di Opus 4.6. Analogamente, su OSWorld-Verified — il benchmark per l’uso autonomo del computer — Sonnet 4.6 ha raggiunto il 72,5%, praticamente alla pari con Opus 4.6 (72,7%). Nello specifico, sui task d’ufficio (GDPval-AA Elo), Sonnet 4.6 ha persino superato Opus 4.6 con un punteggio di 1633 contro 1606.

Ad esempio, nell’analisi finanziaria agenticale, Sonnet 4.6 ha registrato il 63,3%, battendo ogni modello concorrente incluso Opus 4.6 (60,1%). Per illustrare l’impatto pratico: un’azienda che processa 10 milioni di token al giorno risparmia migliaia di dollari mensili passando da Opus a Sonnet 4.6, senza sacrificare qualità.

Punteggio SWE-bench: 79,6% (vs 80,8% Opus 4.6)
Computer use OSWorld: 72,5% (vs 72,7% Opus 4.6)
Task d’ufficio GDPval-AA: 1633 (superiore a Opus 4.6)
Analisi finanziaria: 63,3% (miglior risultato assoluto)
Costo: 3/15 dollari per milione di token (5x meno di Opus)

Computer use: da sperimentale a quasi-umano in 16 mesi

Quando Anthropic introdusse la capacità di “computer use” nell’ottobre 2024, l’azienda la definì “ancora sperimentale, a volte goffa e soggetta a errori”. Tuttavia, i progressi sono stati straordinari. In primo luogo, Claude Sonnet 3.5 ottenne il 14,9% su OSWorld nell’ottobre 2024. Successivamente, Sonnet 3.7 raggiunse il 28% nel febbraio 2025. Quindi, Sonnet 4 arrivò al 42,2% a giugno, mentre Sonnet 4.5 salì al 61,4% in ottobre. Infine, Anthropic Sonnet 4.6 ha toccato il 72,5% — un miglioramento di quasi cinque volte in 16 mesi.

Questa capacità è cruciale perché sblocca l’automazione di software legacy privi di API moderne: portali assicurativi, database governativi, sistemi ERP, strumenti di scheduling ospedaliero. Di conseguenza, un modello che interagisce visivamente con qualsiasi interfaccia elimina la necessità di sviluppare connettori custom per ogni sistema.

Jamie Cuffe, CEO di Pace, ha dichiarato che Sonnet 4.6 ha raggiunto il 94% sul loro benchmark assicurativo complesso, il punteggio più alto mai registrato. Peraltro, Will Harvey di Convey lo ha definito “un chiaro miglioramento rispetto a qualsiasi altra cosa testata nelle nostre valutazioni”.

Sicurezza e resistenza al prompt injection

Anthropic ha evidenziato che l’uso del computer comporta rischi di prompt injection — attori malevoli che nascondono istruzioni nei siti web per dirottare il modello. Nonostante ciò, le valutazioni mostrano che Anthropic Sonnet 4.6 rappresenta un miglioramento significativo rispetto a Sonnet 4.5 nel resistere a tali attacchi. Per le aziende che implementano agenti che navigano il web, questo rafforzamento è fondamentale.

Feedback enterprise: Sonnet elimina la necessità di Opus

Le reazioni dei clienti sono state insolitamente specifiche riguardo al rapporto costo-prestazioni. In particolare, diversi early tester hanno esplicitamente affermato che Anthropic Sonnet 4.6 elimina la necessità di ricorrere al più costoso tier Opus.

Caitlin Colgrove, CTO di Hex Technologies, ha dichiarato che l’azienda sta spostando la maggior parte del traffico su Sonnet 4.6. Inoltre, ha notato che “con adaptive thinking e high effort, vediamo prestazioni di livello Opus su tutti i task analitici tranne i più difficili, con un profilo più efficiente e flessibile. Al prezzo di Sonnet, è una scelta facile per i nostri carichi di lavoro”.

Ben Kus, CTO di Box, ha affermato che il modello ha superato Sonnet 4.5 nel Q&A con ragionamento pesante di 15 punti percentuali su documenti enterprise reali. Allo stesso modo, Michele Catasta di Replit ha definito il rapporto prestazioni-costo “straordinario”. Ryan Wiggins di Mercury Banking è stato ancora più diretto: “Claude Sonnet 4.6 è più veloce, più economico e più propenso a centrare l’obiettivo al primo tentativo. Questa combinazione di miglioramenti è stata sorprendente, e non ci aspettavamo di vederla a questo prezzo”.

Dominanza nel coding e negli strumenti developer

I miglioramenti nel coding risuonano particolarmente dato il dominio di Claude Code nel mercato degli strumenti per sviluppatori. David Loker, VP of AI di CodeRabbit, ha affermato che il modello “colpisce ben al di sopra della sua categoria di peso per la stragrande maggioranza delle PR reali”. Pertanto, Leo Tchourakov di Factory AI ha confermato che il team sta “trasferendo il nostro traffico Sonnet su questo modello”.

Joe Binder, VP of Product di GitHub, ha verificato che il modello “sta già eccellendo nelle correzioni di codice complesse, specialmente quando la ricerca attraverso grandi codebase è essenziale”. Brendan Falk, Founder e CEO di Hercules, è andato oltre: “Claude Sonnet 4.6 è il miglior modello che abbiamo visto fino ad oggi. Ha accuratezza, instruction following e UI di livello Opus 4.6, tutto a un costo significativamente inferiore”.

Pianificazione strategica a lungo termine: il test Vending-Bench

Un dettaglio tecnico rivela dove si stanno dirigendo gli agenti AI autonomi. In effetti, la finestra di contesto da 1 milione di token di Anthropic Sonnet 4.6 può contenere intere codebase, contratti lunghi o dozzine di paper di ricerca in una singola richiesta. Anthropic afferma che il modello ragiona efficacemente su tutto quel contesto — una capacità dimostrata attraverso una valutazione insolita.

Il Vending-Bench Arena testa quanto bene un modello può gestire un’azienda simulata nel tempo, con diversi modelli AI in competizione per i profitti maggiori. Senza prompt umani, Sonnet 4.6 ha sviluppato una strategia innovativa: ha investito pesantemente in capacità per i primi dieci mesi simulati, spendendo significativamente più dei concorrenti, per poi virare bruscamente verso la redditività nella fase finale. Come risultato, il modello ha chiuso la simulazione di 365 giorni con circa 5.700 dollari di saldo, rispetto ai circa 2.100 dollari di Sonnet 4.6.

Questo tipo di pianificazione strategica multi-mese, eseguita autonomamente, rappresenta una capacità qualitativamente diversa dal rispondere a domande o generare snippet di codice. Ecco perché Anthropic posiziona Sonnet 4.6 non solo come un upgrade di chatbot, ma come il motore per una nuova generazione di sistemi autonomi.

Espansione enterprise e partnership strategiche

Questo rilascio non arriva nel vuoto. Infatti, Anthropic è nel mezzo del periodo più importante della sua storia, e il panorama competitivo si sta intensificando su ogni fronte. Lo stesso giorno del lancio, TechCrunch ha riportato che il gigante IT indiano Infosys ha annunciato una partnership con Anthropic per costruire agenti AI enterprise-grade, integrando i modelli Claude nella piattaforma Topaz AI di Infosys per banking, telecomunicazioni e manifatturiero.

Il CEO Dario Amodei ha dichiarato a TechCrunch che “c’è un grande divario tra un modello AI che funziona in una demo e uno che funziona in un’industria regolamentata”, e che Infosys aiuta a colmarlo. Inoltre, TechCrunch ha riportato che Anthropic ha aperto il suo primo ufficio in India a Bengaluru, e che l’India ora rappresenta circa il 6% dell’utilizzo globale di Claude, seconda solo agli Stati Uniti. L’azienda, valutata 183 miliardi di dollari secondo CNBC, sta espandendo rapidamente la sua presenza enterprise.

Nel frattempo, la presidente di Anthropic Daniela Amodei ha dichiarato ad ABC News la scorsa settimana che l’AI renderà le lauree umanistiche “più importanti che mai”, sostenendo che le competenze di pensiero critico diventeranno più preziose man mano che i large language model padroneggiano il lavoro tecnico. In sintesi, è il tipo di affermazione che un’azienda fa quando crede che la sua tecnologia stia per rimodellare intere categorie di impiego white-collar.

Confronto competitivo con GPT-5.2 e Gemini 3 Pro

Il quadro competitivo per Anthropic Sonnet 4.6 è notevole. Il modello supera Gemini 3 Pro di Google e GPT-5.2 di OpenAI su molteplici benchmark. Nello specifico, GPT-5.2 resta indietro nell’uso agenticale del computer (38,2% vs 72,5%), nella ricerca agentica (77,9% vs 74,7%) e nell’analisi finanziaria agentica (59,0% vs 63,3%). Gemini 3 Pro mostra prestazioni competitive sul ragionamento visivo e sui benchmark multilingue, ma resta indietro nelle categorie agentiche dove gli investimenti enterprise stanno crescendo.

In conclusione, la lezione più ampia potrebbe non riguardare un singolo modello. Si tratta di cosa accade quando l’intelligenza di classe Opus diventa disponibile per pochi dollari per milione di token anziché decine di dollari. Le aziende che stavano cautamente pilotando agenti AI con piccoli deployment ora affrontano un calcolo dei costi fondamentalmente diverso. Gli agenti che erano troppo costosi da eseguire continuamente a gennaio diventano improvvisamente accessibili a febbraio.

Claude Sonnet 4.6 è disponibile ora su tutti i piani Claude, Claude Cowork, Claude Code, l’API e tutte le principali piattaforme cloud. Anthropic ha anche aggiornato il suo tier gratuito a Sonnet 4.6 per impostazione predefinita. Per approfondire le strategie di implementazione AI enterprise, visita il blog di Digital Seeds.

Anthropic Sonnet 4.6: prestazioni AI top a un quinto del costo

Anthropic Sonnet 4.6: prestazioni flagship a prezzo medio

Benchmark reali: come Anthropic Sonnet 4.6 batte la concorrenza

Computer use: da sperimentale a quasi-umano in 16 mesi

Sicurezza e resistenza al prompt injection

Feedback enterprise: Sonnet elimina la necessità di Opus

Dominanza nel coding e negli strumenti developer

Pianificazione strategica a lungo termine: il test Vending-Bench

Espansione enterprise e partnership strategiche

Confronto competitivo con GPT-5.2 e Gemini 3 Pro

EDITOR PICKS

Agenti AI auto-evolutivi: il framework che rivoluziona l’IA

Infrastruttura cloud startup: consigli da Google Cloud

Qwen 3.5 di Alibaba: prestazioni superiori a costi ridotti

POPULAR POSTS

Qwen 3.5 di Alibaba: prestazioni superiori a costi ridotti

Modelli AI antifrode: lezioni da sistemi da 300 millisecondi

NanoClaw AI: l’assistente open source sicuro e leggero

POPULAR CATEGORY