Durante l’evento “AMD Advancing AI” dello scorso giugno, Lisa Su, CEO di AMD, ha descritto l’IA agentica come una nuova categoria di utenti: sistemi che lavorano in modo continuativo, accedendo a dati, applicazioni e servizi per prendere decisioni e portare a termine compiti complessi. Questi sistemi utilizzano GPU ad alte prestazioni per generare analisi in tempo reale, ma l’infrastruttura circostante è altrettanto fondamentale. Con l’aumento dell’attività dell’IA autonoma, i processori coordinano i flussi di lavoro, elaborano e trasferiscono i dati, gestendo tutte le operazioni attorno al modello.
Anche se gli acceleratori eccellono nell’elaborazione parallela – usata per l’addestramento e molte attività di inferenza – le implementazioni moderne richiedono sistemi bilanciati. Processori, GPU, reti e software contribuiscono ciascuno in modo specifico alle prestazioni su larga scala.
Secondo dati recenti, un sistema basato su AMD EPYC di quinta generazione offre prestazioni per core fino a 2,1 volte superiori rispetto a sistemi comparabili con il superchip Nvidia Grace1 e fino a 2,26 volte superiori nel benchmark SPECpower2 – che misura le operazioni per watt. Altrettanto importante è l’ecosistema software consolidato dell’architettura x86: la stragrande maggioranza dei carichi di lavoro aziendali funziona già nativamente su questa piattaforma, senza rifattorizzazione, ricompilazione o gestione di versioni multiple del codice, operazioni spesso necessarie con sistemi basati su Arm.
Come collaborano CPU e GPU
Il rapporto tra processori e acceleratori nei data center per l’IA è simile a quello tra un allenatore e una squadra di atleti specializzati. Il processore definisce le strategie, coordina le azioni e monitora i tempi; le GPU sono gli atleti, ognuno efficiente nell’eseguire compiti specifici ad alta velocità.
Addestramento e inferenza: ruoli diversi
È nell’addestramento che gli acceleratori danno il meglio, elaborando ripetutamente grandi matrici di dati per permettere al sistema di apprendere. I processori, in questa fase, preparano e trasferiscono i dati, gestendo sistema operativo, memoria e organizzazione delle attività.
Con l’inferenza, il loro ruolo si fa più strategico: le GPU continuano a gestire i calcoli complessi delle reti neurali, ma il processore raccoglie dati, interpreta i risultati e decide le azioni finali, con attività di controllo e coordinamento che avvengono tutte in parallelo. Ed è qui che emerge la centralità dell’architettura. AMD utilizza la progettazione a chiplet: un approccio modulare che ottimizza potenza di calcolo, I/O, banda della memoria e consumi, offrendo configurazioni adatte a scenari diversi – dalle applicazioni aziendali critiche ai flussi di lavoro di IA agentica multifase.
L’IA agentica si affida ai processori
Con l’IA agentica – sistemi capaci di pianificare, decidere e agire con minimo intervento umano – i processori assumono responsabilità crescenti: analizzano i risultati, gestiscono chiamate agli strumenti, richieste API e interrogazioni alla memoria, rimandando operazioni alle GPU per nuove elaborazioni prima del risultato finale. Le decisioni del “processore-coach” determinano l’utilizzo delle GPU, la produttività complessiva e – elemento cruciale per i provider – il costo totale di proprietà.
Il sistema conta più dei singoli componenti
L’IA agentica allarga le possibilità dell’intelligenza artificiale, ma conferma un principio chiave: i migliori risultati richiedono sistemi bilanciati. Gli acceleratori continueranno a fornire la potenza di calcolo, ma i processori assumono un ruolo sempre più centrale nell’orchestrazione e nell’efficienza complessiva, permettendo di aumentare la densità dei sistemi senza espandere spazio fisico o consumi energetici.
L’ottimizzazione coordinata di processori, acceleratori, reti e software garantisce il miglior rapporto tra prestazioni e consumi. Le nuove generazioni di processori server sono progettate con questa filosofia: prestazioni elevate, alta densità ed efficienza energetica in architetture scalabili a livello di rack e cluster — la base per orchestrare un numero crescente di acceleratori e assicurare che l’intero sistema funzioni in modo efficiente.
A cura di Julien Ruiz, Director, Commercial Sales di AMD
Note
1 9xx5-210: SPECrate®2017_int_base comparison based on published and estimated results as of 06/01/2025. Configurations: 2P AMD EPYC™ 9755 (2840 SPECrate®2017_int_base, 256 total cores, https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250407-47519.html) and 2P AMD EPYC™ 9575F (1700 SPECrate®2017_int_base, 128 total cores, https://www.spec.org/cpu2017/results/res2025q1/cpu2017-20250310-46819.html) versus 2P Grace CPU Superchip (estimated 740 SPECrate® 2017_int_base, 144 total cores as per NVIDIA claim: https://developer.nvidia.com/blog/inside-nvidia-grace-cpu-nvidia-amps-up-superchip-engineering-for-hpc-and-ai/).
2 9xx5-217: As of May 29, 2025, a 2P AMD EPYC™ 9755 system (128 cores) delivers a 2.26x SPECpower_ssj® 2008 overall ssj_ops/watt uplift versus a 2P NVIDIA Grace™ CPU Superchip system (144 cores), and a 2P AMD EPYC™ 9965 system (192 cores) delivers a 3.34x uplift versus the same Grace system.
