AI & Automazione

Nvidia riduce i costi dei modelli LLM dell’800%

February 13, 2026

Nvidia riduce costi LLM con una tecnica rivoluzionaria che promette di trasformare l’economia dell’intelligenza artificiale aziendale. I ricercatori del colosso tecnologico hanno sviluppato un metodo chiamato Dynamic Memory Sparsification (DMS) che comprime la memoria temporanea dei modelli linguistici fino a otto volte, mantenendo intatta l’accuratezza delle risposte.

Grazie per avere letto questo articolo, non dimenticare di iscriverti al nostro feed!

Nvidia riduce costi LLM: la sfida della memoria nei modelli linguistici

Inoltre, i modelli linguistici di grandi dimensioni migliorano le loro prestazioni generando token di ragionamento intermedi, essenzialmente scrivendo i passaggi logici prima di arrivare a una risposta finale. Tuttavia, questo processo crea un collo di bottiglia significativo: la cache key-value (KV), una memoria temporanea che cresce linearmente con ogni token generato.

Di conseguenza, le applicazioni reali si scontrano con limiti hardware concreti. Per ogni catena di ragionamento che si allunga, la cache consuma quantità crescenti di memoria GPU, rallentando la generazione e aumentando la latenza. Pertanto, i sistemi possono servire meno utenti simultaneamente, poiché l’esaurimento della VRAM causa crash o rallentamenti drastici.

Secondo Piotr Nawrot, Senior Deep Learning Engineer di Nvidia, la questione non riguarda solo la quantità di hardware disponibile. In particolare, si tratta di capire se l’infrastruttura può processare 100 thread di ragionamento oppure 800 per lo stesso costo operativo.

Come funziona la tecnica Dynamic Memory Sparsification

A differenza dei metodi precedenti basati su euristiche rigide, DMS addestra il modello a identificare autonomamente quali token sono essenziali per il ragionamento futuro e quali possono essere eliminati. Nello specifico, la tecnica trasforma modelli pre-addestrati come Llama 3 o Qwen 3 in sistemi auto-compressivi senza richiedere un costoso riaddestramento completo.

Analogamente a tecniche come LoRA, il processo di retrofitting può congelare i pesi del modello, rendendo l’implementazione estremamente efficiente. Ad esempio, un modello enterprise standard come Qwen3-8B può essere equipaggiato con DMS in poche ore su un singolo sistema DGX H100.

Il meccanismo di eviction ritardata

Uno degli aspetti più innovativi è l'”eviction ritardata”. Invece di eliminare immediatamente i token ritenuti non importanti, DMS li mantiene accessibili per una breve finestra temporale. Ciononostante, questo intervallo permette al modello di estrarre eventuali informazioni residue e integrarle nel contesto corrente prima della cancellazione definitiva.

Come spiega Nawrot, molti token si collocano in una zona grigia: trasportano informazioni, ma non abbastanza da giustificare l’occupazione permanente di uno slot in memoria. Pertanto, mantenerli temporaneamente in una finestra locale consente al modello di ridistribuire le loro informazioni nei token futuri, eliminando la ridondanza senza perdere dati critici.

Risultati concreti: Nvidia riduce costi LLM mantenendo le prestazioni

I ricercatori hanno testato DMS su diversi modelli di ragionamento, inclusi Qwen-R1 (distillato da DeepSeek R1) e Llama 3.2, utilizzando benchmark complessi come AIME 24 (matematica), GPQA Diamond (scienze) e LiveCodeBench (programmazione).

In primo luogo, i risultati dimostrano che DMS sposta efficacemente la frontiera di Pareto, ottimizzando il compromesso tra costo e prestazioni. Sul benchmark matematico AIME 24, un modello Qwen-R1 32B equipaggiato con DMS ha ottenuto un punteggio superiore di 12 punti rispetto alla versione standard, a parità di budget di memoria e larghezza di banda.

Inoltre, contrariamente alle aspettative comuni, DMS ha migliorato la comprensione di contesti lunghi. Nei test “needle-in-a-haystack”, che misurano la capacità di trovare informazioni specifiche in documenti estesi, le varianti DMS hanno superato i modelli standard gestendo attivamente la memoria invece di accumulare passivamente rumore.

Vantaggi per le infrastrutture enterprise

Per le aziende, i guadagni di efficienza si traducono direttamente in throughput superiore e risparmi hardware. I test con Qwen3-8B mostrano che DMS raggiunge l’accuratezza del modello vanilla offrendo fino a 5 volte più throughput. In altre parole, un singolo server può gestire cinque volte più query simultanee senza compromettere la qualità delle risposte.

Le principali metriche di miglioramento includono:

Riduzione della memoria cache fino a 8 volte
Throughput aumentato fino a 5 volte su modelli da 8B parametri
Latenza ridotta grazie a minori accessi alla memoria GPU
Compatibilità con architetture standard senza kernel CUDA personalizzati
Retrofitting completabile in sole 1.000 iterazioni di training

Implementazione pratica e disponibilità

Successivamente, Nvidia ha rilasciato DMS come parte della libreria open-source KVPress. Secondo Nawrot, la barriera d’ingresso è minima: l’infrastruttura minima richiesta consiste in pipeline standard Hugging Face, senza necessità di kernel CUDA personalizzati. Il codice è completamente compatibile con FlashAttention standard.

Allo stesso modo, DMS funziona con architetture più recenti come Multi-Head Latent Attention (MLA) utilizzata nei modelli DeepSeek. La combinazione di questi approcci potrebbe generare guadagni di efficienza ancora maggiori, aprendo nuove possibilità per sistemi agentici complessi che richiedono ragionamento esteso.

Prospettive future per l’ottimizzazione dei modelli linguistici

Infine, mentre le aziende passano da semplici chatbot a sistemi agentici complessi, il costo dell’inferenza diventa una preoccupazione primaria. Tecniche come DMS forniscono un percorso sostenibile per scalare queste capacità senza compromettere le prestazioni o esplodere i budget operativi.

Come sottolinea Nawrot, abbiamo appena scalfito la superficie di ciò che è possibile. Il team di Nvidia vede DMS come parte di un cambiamento più ampio dove la gestione della memoria diventa uno strato intelligente e distinto dello stack AI. Di conseguenza, ci aspettiamo che lo scaling a tempo di inferenza continui a evolversi rapidamente nei prossimi mesi.

Per concludere, questa innovazione rappresenta un passo significativo verso un’intelligenza artificiale più efficiente ed economicamente sostenibile per le applicazioni enterprise su larga scala.

Nvidia riduce i costi dei modelli LLM dell’800%

Nvidia riduce costi LLM: la sfida della memoria nei modelli linguistici

Come funziona la tecnica Dynamic Memory Sparsification

Il meccanismo di eviction ritardata

Risultati concreti: Nvidia riduce costi LLM mantenendo le prestazioni

Vantaggi per le infrastrutture enterprise

Implementazione pratica e disponibilità

Prospettive future per l’ottimizzazione dei modelli linguistici

EDITOR PICKS

Agenti AI auto-evolutivi: il framework che rivoluziona l’IA

Infrastruttura cloud startup: consigli da Google Cloud

Qwen 3.5 di Alibaba: prestazioni superiori a costi ridotti

POPULAR POSTS

Qwen 3.5 di Alibaba: prestazioni superiori a costi ridotti

Modelli AI antifrode: lezioni da sistemi da 300 millisecondi

NanoClaw AI: l’assistente open source sicuro e leggero

POPULAR CATEGORY