Google Cloud inaugura l’era dell’inferenza con le nuove TPU Ironwood e le CPU Axion
Google Cloud ha annunciato la disponibilità generale di Ironwood, la settima generazione delle sue TPU (Tensor Processing Unit), e di Axion, la nuova linea di CPU basate su architettura Arm. Due progetti che rappresentano una tappa chiave nella strategia di sviluppo dell’azienda per l’intelligenza artificiale e che segnano il passaggio dall’AI sperimentale a quella industriale.
Secondo Google, il settore è ormai entrato in quella che definisce “era dell’inferenza”: una fase in cui i modelli non devono solo essere addestrati, ma operare in modo continuo, scalabile e reattivo, gestendo milioni di richieste in tempo reale. Per farlo serve un’infrastruttura su misura, capace di coniugare potenza, efficienza e sostenibilità, e in grado di affrontare anche i nuovi “agentic workloads”, i flussi di lavoro autonomi che richiedono una stretta integrazione tra calcolo general-purpose e acceleratori AI.
Ironwood: la TPU più avanzata mai realizzata da Google
Ironwood rappresenta la punta di diamante dell’hardware AI di Google. Progettata per modelli di nuova generazione come Gemini, Veo, Imagen e Claude di Anthropic, la TPU Ironwood copre l’intero ciclo di vita dell’intelligenza artificiale: dall’addestramento su larga scala all’inferenza a bassa latenza, fino alla gestione di carichi multimodali.
Google dichiara prestazioni fino a dieci volte superiori rispetto alla TPU v5p e oltre quattro volte la potenza per chip della precedente v6e (Trillium), con un miglioramento superiore al quadruplo anche in termini di efficienza energetica.
Dal punto di vista architetturale, Ironwood introduce un design profondamente rinnovato: ogni pod può collegare fino a 9.216 chip attraverso la rete proprietaria Inter-Chip Interconnect (ICI), che raggiunge velocità di 9,6 Terabit al secondo. Il sistema dispone inoltre di 1,77 Petabyte di memoria HBM condivisa, che consente a tutti i chip di accedere ai dati senza colli di bottiglia.
Grazie a questa architettura, un pod Ironwood raggiunge fino a 118 volte più potenza FP8 ExaFLOPS rispetto ai principali sistemi concorrenti. La continuità operativa è garantita dalla tecnologia Optical Circuit Switching, che ridirige automaticamente il traffico in caso di interruzioni, mantenendo attivi i servizi anche nei momenti di picco.
Ironwood è integrata nella piattaforma AI Hypercomputer di Google Cloud, che combina hardware, rete, storage e software in un unico ecosistema co-progettato. Tra le novità software spiccano Cluster Director, che ottimizza la gestione dei cluster Kubernetes, e le evoluzioni del framework open source MaxText, con nuove tecniche di ottimizzazione come Supervised Fine-Tuning e Generative Reinforcement Policy Optimization.
Inoltre, il supporto esteso a vLLM consente di passare da GPU a TPU con modifiche minime, mentre il nuovo GKE Inference Gateway riduce la latenza del 96% e i costi fino al 30%, bilanciando automaticamente i carichi di lavoro.
Axion: la nuova famiglia di CPU Arm per l’AI industriale
Accanto alle TPU, Google presenta Axion, la sua prima famiglia di CPU basate su architettura Arm, pensata per i carichi di lavoro general purpose che supportano i modelli di AI: pipeline di dati, microservizi, database e ambienti di sviluppo.
La nuova istanza N4A, ora in anteprima, offre fino al doppio del rapporto prezzo/prestazioni rispetto alle macchine x86 di ultima generazione. Supporta fino a 64 vCPU, 512 GB di memoria DDR5 e connessioni di rete fino a 50 Gbps, garantendo elevata flessibilità di configurazione.
In arrivo anche C4A metal, la prima istanza bare-metal della linea Axion, con fino a 96 vCPU e 768 GB di RAM, pensata per ambienti specializzati come sviluppo Android, sistemi automotive o simulazioni complesse. Completa la gamma la serie C4A standard, che offre prestazioni costanti con storage locale Titanium fino a 6 TB e connettività fino a 100 Gbps.
Un ecosistema unificato per l’intelligenza artificiale
Per Google, Ironwood e Axion non rappresentano due linee separate, ma i due pilastri di un’unica visione architetturale: le TPU elaborano e servono i modelli, mentre le CPU gestiscono i processi di supporto. Insieme formano una piattaforma coesa che copre l’intero ciclo di vita dell’AI, dal training all’inferenza fino alla distribuzione in produzione.
Questa integrazione è resa possibile da dieci anni di investimenti nel silicio personalizzato, che hanno portato alla nascita della prima TPU, dei chip Tensor per dispositivi mobili e dell’architettura Transformer che ha rivoluzionato il settore.
Sul piano infrastrutturale, Google conferma l’impiego di raffreddamento a liquido su scala di gigawatt e una disponibilità di rete del 99,999% mantenuta dal 2020. Sono inoltre aperti i programmi di test per Ironwood, Axion N4A e C4A metal, offrendo alle imprese la possibilità di sperimentare in anteprima la nuova generazione della piattaforma AI di Google Cloud.
Dall’AI di laboratorio a quella industriale
Con Ironwood e Axion, Google Cloud segna l’inizio di una nuova fase: l’intelligenza artificiale come infrastruttura produttiva, solida e affidabile quanto qualsiasi altro sistema critico. Un’evoluzione che trasforma l’AI da tecnologia di ricerca a motore industriale, progettato per operare con continuità, efficienza e precisione su scala planetaria.










