Amazon Web Services (Aws) e Anthropic stanno costruendo un supercomputer che sarà cinque volte più grande e avrà cinque volte le prestazioni di quello utilizzato da Anthropic per addestrare la sua attuale generazione di modelli di Intelligenza Artificiale.
Si tratta del “Project Rainier”. L’EC2 UltraCluster di Trn2 UltraServers utilizzerà centinaia di migliaia di chip Trainium2 per l’addestramento del modello, cinque volte più grande del suo cluster precedente.
“Trainium2 è stato creato appositamente per supportare i carichi di lavoro AI generativi più grandi e all’avanguardia, sia per la formazione che per l’inferenza, e per offrire il miglior rapporto prezzo/prestazioni su AWS – ha affermato David Brown, vicepresidente di Compute and Networking presso AWS – Con modelli che si avvicinano a trilioni di parametri, comprendiamo che i clienti hanno anche bisogno di un nuovo approccio per addestrare ed eseguire questi enormi carichi di lavoro. I nuovi Trn2 UltraServer offrono le prestazioni di formazione e inferenza più rapide su AWS e aiutano le organizzazioni di tutte le dimensioni ad addestrare e distribuire i modelli più grandi del mondo più velocemente e a un costo inferiore“.
Man mano che i modelli aumentano di dimensioni, stanno spingendo i limiti dell’infrastruttura di elaborazione e di rete, poiché i clienti cercano di ridurre i tempi di formazione e la latenza di inferenza, ovvero il tempo che intercorre tra il momento in cui un sistema di intelligenza artificiale riceve un input e quello in cui genera l’output corrispondente. AWS offre già la più ampia e profonda selezione di istanze EC2 accelerate per intelligenza artificiale/apprendimento automatico, comprese quelle basate su GPU e chip di apprendimento automatico.
Tuttavia, anche con le istanze accelerate più rapide disponibili oggi, i clienti desiderano maggiori prestazioni e scalabilità per addestrare questi modelli sempre più sofisticati più velocemente, a un costo inferiore. Man mano che la complessità del modello e i volumi di dati aumentano, il semplice aumento delle dimensioni del cluster non riesce a produrre tempi di formazione più rapidi a causa dei vincoli di parallelizzazione. Allo stesso tempo, le esigenze di inferenza in tempo reale spingono le architetture a istanza singola oltre le loro capacità.
Trn2 offre un rapporto prezzo/prestazioni migliore del 30-40% rispetto all’attuale generazione di istanze EC2 basate su GPU. Una singola istanza Trn2 combina sedici chip Trainium2 interconnessi con interconnessione chip-to-chip NeuronLink ultraveloce ad alta larghezza di banda e bassa latenza per fornire 20,8 petaflop di picco di elaborazione, ideali per l’addestramento e la distribuzione di modelli di dimensioni pari a miliardi di parametri.
Per i modelli più grandi che richiedono ancora più elaborazione, i Trn2 UltraServer consentono ai clienti di scalare la formazione oltre i limiti di una singola istanza Trn2, riducendo i tempi di formazione, accelerando il time-to-market e consentendo una rapida iterazione per migliorare l’accuratezza del modello. I Trn2 UltraServer sono un’offerta EC2 completamente nuova che utilizza l’interconnessione NeuronLink ultraveloce per collegare quattro server Trn2 insieme in un unico server gigante. Con i nuovi Trn2 UltraServer, i clienti possono scalare i loro carichi di lavoro AI generativi su 64 chip Trainium2.
Per i carichi di lavoro di inferenza, i clienti possono utilizzare i Trn2 UltraServer per migliorare le prestazioni di inferenza in tempo reale per modelli da trilioni di parametri in produzione. Insieme ad Anthropic, AWS sta costruendo un UltraCluster EC2 di UltraServer Trn2, denominato Project Rainier, che scalerà l’addestramento di modelli distribuiti su centinaia di migliaia di chip Trainium2 interconnessi con reti EFA di terza generazione a bassa latenza e petabit, ovvero più di 5 volte il numero di exaflop che Anthropic ha utilizzato per addestrare la sua attuale generazione di modelli AI leader. Una volta completato, si prevede che sarà il più grande cluster di elaborazione AI al mondo finora segnalato disponibile per Anthropic su cui costruire e distribuire i suoi modelli futuri.
Anthropic è un’azienda di sicurezza e ricerca sull’intelligenza artificiale che crea sistemi di intelligenza artificiale affidabili, interpretabili e gestibili. Il prodotto di punta di Anthropic è Claude, un LLM di cui si fidano milioni di utenti in tutto il mondo. Come parte della collaborazione ampliata di Anthropic con AWS, hanno iniziato a ottimizzare i modelli Claude per l’esecuzione su Trainium2, l’hardware di intelligenza artificiale più avanzato di Amazon fino ad oggi. Anthropic utilizzerà centinaia di migliaia di chip Trainium2, più di cinque volte le dimensioni del loro cluster precedente, per offrire prestazioni eccezionali ai clienti che utilizzano Claude in Amazon Bedrock.
Mosaic AI di Databricks consente alle organizzazioni di creare e distribuire sistemi di agenti di qualità. È costruito in modo nativo sulla base del data lakehouse, consentendo ai clienti di personalizzare facilmente e in modo sicuro i propri modelli con dati aziendali e di fornire output più accurati e specifici per dominio. Grazie alle elevate prestazioni e alla convenienza di Trainium, i clienti possono scalare l’addestramento del modello su Mosaic AI a un costo contenuto. La disponibilità di Trainium2 sarà un vantaggio importante per Databricks e i suoi clienti, poiché la domanda di Mosaic AI continua a crescere in tutti i segmenti di clientela e in tutto il mondo. Databricks, una delle più grandi aziende di dati e intelligenza artificiale al mondo, prevede di utilizzare Trn2 per fornire risultati migliori e ridurre il TCO fino al 30% per i propri clienti.
Hugging Face è la piattaforma aperta leader per i costruttori di IA, con oltre 2 milioni di modelli, set di dati e applicazioni di IA condivisi da una comunità di oltre 5 milioni di ricercatori, data scientist, ingegneri di apprendimento automatico e sviluppatori di software. Hugging Face ha collaborato con AWS negli ultimi due anni, rendendo più facile per gli sviluppatori sperimentare i vantaggi in termini di prestazioni e costi di AWS Inferentia e Trainium tramite la libreria open source Optimum Neuron, integrata in Hugging Face Inference Endpoints e ora ottimizzata all’interno del nuovo servizio di auto-distribuzione HUGS, disponibile su AWS Marketplace. Con il lancio di Trainium2, gli utenti di Hugging Face avranno accesso a prestazioni ancora più elevate per sviluppare e distribuire modelli più rapidamente.
Poolside è pronta a costruire un mondo in cui l’intelligenza artificiale guiderà la maggior parte del lavoro economicamente prezioso e del progresso scientifico. poolside ritiene che lo sviluppo software sarà la prima grande capacità nelle reti neurali che raggiungerà l’intelligenza di livello umano. Per abilitarlo, stanno creando FM, un’API e un assistente per portare la potenza dell’intelligenza artificiale generativa nelle mani degli sviluppatori. Una chiave per abilitare questa tecnologia è l’infrastruttura che stanno utilizzando per creare ed eseguire i loro prodotti. Con AWS Trainium2, i clienti di poolside saranno in grado di scalare il loro utilizzo di poolside a un rapporto prezzo-prestazioni diverso da altri acceleratori di intelligenza artificiale. Inoltre, poolside prevede di addestrare modelli futuri con Trainium2 UltraServer, con risparmi previsti del 40% rispetto alle istanze EC2 P5.
AWS ha presentato Trainium3, il suo chip di formazione AI di nuova generazione. Trainium3 sarà il primo chip AWS realizzato con un nodo di processo a 3 nanometri, stabilendo un nuovo standard per prestazioni, efficienza energetica e densità. Si prevede che gli UltraServer basati su Trainium3 saranno 4 volte più performanti degli UltraServer Trn2, consentendo ai clienti di iterare ancora più velocemente durante la creazione di modelli e di fornire prestazioni in tempo reale superiori durante la loro distribuzione. Si prevede che le prime istanze basate su Trainium3 saranno disponibili verso la fine del 2025.
Neuron SDK include compilatore, librerie runtime e strumenti per aiutare gli sviluppatori a ottimizzare i loro modelli per l’esecuzione su Trainium. Offre agli sviluppatori la possibilità di ottimizzare i modelli per prestazioni ottimali sui chip Trainium. Neuron è integrato in modo nativo con framework popolari come JAX e PyTorch, così i clienti possono continuare a utilizzare il loro codice e i flussi di lavoro esistenti su Trainium con meno modifiche al codice. Neuron supporta anche oltre 100.000 modelli sull’hub modello Hugging Face. Con Neuron Kernel Interface (NKI), gli sviluppatori hanno accesso ai chip Trainium bare metal, consentendo loro di scrivere kernel di elaborazione che massimizzano le prestazioni per carichi di lavoro impegnativi.
Il software Neuron è progettato per semplificare l’utilizzo di framework popolari come JAX per addestrare e distribuire modelli su Trainium2, riducendo al minimo le modifiche al codice e il collegamento a soluzioni specifiche del fornitore. Google supporta gli sforzi di AWS per consentire ai clienti di utilizzare JAX per l’addestramento e l’inferenza su larga scala tramite la sua integrazione nativa OpenXLA, offrendo agli utenti un percorso di codifica semplice e portatile per iniziare rapidamente con le istanze Trn2. Con la collaborazione open source a livello di settore e la disponibilità di Trainium2, Google prevede di vedere una maggiore adozione di JAX nella comunità ML, una pietra miliare significativa per l’intero ecosistema ML.