La riduzione costi LLM rappresenta oggi una delle sfide più urgenti per le aziende che implementano intelligenza artificiale avanzata. Nvidia ha sviluppato una tecnica innovativa chiamata Dynamic Memory Sparsification (DMS) che abbatte i consumi di memoria fino a otto volte senza compromettere l’accuratezza dei modelli linguistici di grandi dimensioni.
Grazie per avere letto questo articolo, non dimenticare di iscriverti al nostro feed!
Il problema della memoria nei modelli di ragionamento

I large language model migliorano le prestazioni su compiti complessi generando token di “chain-of-thought”, scrivendo essenzialmente i loro passaggi di ragionamento prima di arrivare a una risposta finale. Tuttavia, questo approccio comporta costi computazionali significativi. Di conseguenza, man mano che il modello genera più token, costruisce una cache chiave-valore (KV cache) che cresce linearmente.
Inoltre, questa cache rappresenta un collo di bottiglia critico per le applicazioni reali. Per le infrastrutture aziendali, il problema non è solo tecnico ma fondamentalmente economico. Come spiega Piotr Nawrot, Senior Deep Learning Engineer di Nvidia: “La questione non riguarda solo la quantità di hardware, ma se la vostra infrastruttura elabora 100 thread di ragionamento o 800 thread allo stesso costo”.
I tentativi precedenti di risolvere questo problema si sono concentrati su approcci basati su euristiche. Ad esempio, metodi come la “finestra scorrevole” mantengono in cache solo i token più recenti eliminando il resto. Tuttavia, questi sistemi spesso costringono il modello a scartare informazioni critiche necessarie per risolvere il problema, degradando l’accuratezza dell’output.
Come funziona il Dynamic Memory Sparsification per la riduzione costi LLM
Il DMS adotta un approccio radicalmente diverso “retrofittando” i modelli esistenti per gestire intelligentemente la propria memoria. Invece di applicare una regola fissa su cosa eliminare, il DMS addestra il modello a identificare quali token sono essenziali per il ragionamento futuro e quali sono eliminabili.
Pertanto, il processo trasforma un LLM standard pre-addestrato come Llama 3 o Qwen 3 in un modello auto-compressivo. Nello specifico, questo non richiede l’addestramento del modello da zero, operazione che sarebbe proibitivamente costosa. Il DMS riutilizza invece i neuroni esistenti all’interno dei livelli di attenzione del modello per produrre un segnale “mantieni” o “elimina” per ciascun token.
Una caratteristica fondamentale del DMS è il meccanismo di “eviction ritardata”. Nella sparsificazione standard, se un token viene ritenuto non importante, viene eliminato immediatamente. Ciononostante, questo approccio è rischioso perché il modello potrebbe aver bisogno di una frazione di secondo per integrare il contesto di quel token nel suo stato attuale.
Il DMS mitiga questo problema contrassegnando un token per l’eliminazione ma mantenendolo accessibile per una breve finestra temporale. In altre parole, questo ritardo consente al modello di “estrarre” qualsiasi informazione necessaria rimanente dal token e unirla al contesto corrente prima che il token venga cancellato dalla cache KV.
Come illustra Nawrot: “Il meccanismo di ‘eviction ritardata’ è cruciale perché non tutti i token sono semplicemente ‘importanti’ (mantieni per sempre) o ‘inutili’ (elimina immediatamente). Molti si trovano nel mezzo”.
Risultati concreti della riduzione costi LLM con DMS
Per validare la tecnica, i ricercatori hanno applicato il DMS a diversi modelli di ragionamento, tra cui la serie Qwen-R1 e Llama 3.2, testandoli su benchmark difficili come AIME 24 (matematica), GPQA Diamond (scienza) e LiveCodeBench (programmazione).
I risultati dimostrano che il DMS sposta efficacemente la frontiera di Pareto, il compromesso ottimale tra costo e prestazioni. Sul benchmark matematico AIME 24, un modello Qwen-R1 32B equipaggiato con DMS ha ottenuto un punteggio superiore di 12 punti rispetto a un modello standard quando vincolato allo stesso budget di larghezza di banda della memoria.
Analogamente, comprimendo la cache, il modello può permettersi di “pensare” molto più in profondità e ampiezza rispetto a quanto potrebbe fare un modello standard con lo stesso budget di memoria e calcolo. Le principali metriche di miglioramento includono:
- Riduzione della memoria fino a 8 volte rispetto ai modelli vanilla
- Aumento del throughput fino a 5 volte con il modello Qwen3-8B
- Miglioramento di 12 punti su AIME 24 a parità di budget computazionale
- Prestazioni superiori nei test “needle-in-a-haystack” per la comprensione di contesti lunghi
Sorprendentemente, il DMS ha sfidato la saggezza comune secondo cui la compressione danneggia la comprensione di contesti lunghi. Nei test “needle-in-a-haystack”, che misurano la capacità di un modello di trovare informazioni specifiche sepolte in un documento di grandi dimensioni, le varianti DMS hanno effettivamente superato i modelli standard.
Implementazione pratica per le aziende
Nvidia ha rilasciato il DMS come parte della sua libreria KVPress. Per quanto riguarda come le aziende possono iniziare con il DMS, Nawrot ha sottolineato che la barriera all’ingresso è bassa. “L’infrastruttura minima necessaria sono le pipeline standard di Hugging Face: non sono richiesti kernel CUDA personalizzati”, ha affermato Nawrot.
In aggiunta, il codice è completamente compatibile con FlashAttention standard. Un modello aziendale standard come Qwen3-8B può essere retrofittato con DMS in poche ore su un singolo DGX H100. Il processo di retrofitting è altamente efficiente: i ricercatori sono riusciti a equipaggiare un LLM pre-addestrato con DMS in soli 1.000 passaggi di addestramento.
Per le infrastrutture aziendali, i guadagni di efficienza si traducono direttamente in throughput e risparmi hardware. Poiché la cache di memoria è significativamente più piccola, la GPU trascorre meno tempo a recuperare dati, riducendo i tempi di attesa per gli utenti. Questo significa che un singolo server può gestire cinque volte più query di clienti al secondo senza calo di qualità.
Prospettive future della riduzione costi LLM
Guardando al futuro, il team di Nvidia considera il DMS come parte di un cambiamento più ampio in cui la gestione della memoria diventa un livello distinto e intelligente dello stack AI. Nawrot ha anche confermato che il DMS è “completamente compatibile” con architetture più recenti come la Multi-Head Latent Attention (MLA) utilizzata nei modelli di DeepSeek.
Man mano che le aziende passano da semplici chatbot a sistemi agentici complessi che richiedono ragionamento esteso, il costo dell’inferenza sta diventando una preoccupazione primaria. Tecniche come il DMS forniscono un percorso per scalare queste capacità in modo sostenibile. Come conclude Nawrot: “Abbiamo appena scalfito la superficie di ciò che è possibile”.
Infine, per approfondire ulteriori strategie di ottimizzazione dei modelli AI, visita il blog di Digital Seeds dove troverai analisi dettagliate sulle ultime innovazioni nel campo dell’intelligenza artificiale.








