EuroWire , SAN FRANCISCO : Il 26 gennaio Microsoft ha presentato Maia 200, la seconda generazione del suo acceleratore di intelligenza artificiale interno, progettato per eseguire modelli di intelligenza artificiale in produzione nei data center di Azure. L'azienda ha affermato che Maia 200 è progettato per l'inferenza, la fase in cui i modelli addestrati generano risposte a richieste in tempo reale, e sarà utilizzato per supportare una gamma di servizi di intelligenza artificiale Microsoft.

Maia 200 è prodotto con il processo a 3 nanometri di TSMC e include oltre 140 miliardi di transistor, ha affermato Microsoft . Le coppie di chip elaborano con un nuovo sistema di memoria che include 216 gigabyte di memoria HBM3e ad alta larghezza di banda e circa 272 megabyte di SRAM on-chip, progettato per supportare la generazione di token su larga scala e altri carichi di lavoro ad alta intensità di inferenza.
Microsoft ha affermato che Maia 200 offre prestazioni superiori a 10 petaflop con una precisione a 4 bit e circa 5 petaflop con una precisione a 8 bit, formati comunemente utilizzati per eseguire in modo efficiente l'intelligenza artificiale generativa moderna. L'azienda ha inoltre affermato che il sistema è progettato per una potenza di 750 watt ed è dotato di funzionalità di rete scalabili, in modo che i chip possano essere collegati tra loro per implementazioni più ampie.
L'azienda ha affermato che il nuovo hardware ha iniziato a essere operativo in un data center Azure US Central in Iowa, con un'ulteriore sede prevista in Arizona. Microsoft ha descritto Maia 200 come il suo sistema di inferenza più efficiente finora implementato, segnalando un miglioramento del 30% delle prestazioni per dollaro rispetto ai suoi sistemi di inferenza esistenti.
Focus sull'inferenza dell'IA e distribuzione di Azure
Microsoft ha affermato che Maia 200 è progettato per supportare prodotti e servizi di intelligenza artificiale che si basano sull'esecuzione di modelli ad alto volume e bassa latenza, inclusi carichi di lavoro in esecuzione su Azure e sulle applicazioni Microsoft. L'azienda ha affermato di aver progettato il chip e il sistema circostante come parte di un approccio infrastrutturale end-to-end che include silicio, server, reti e software per la distribuzione di modelli di intelligenza artificiale su larga scala.
Insieme al chip, Microsoft ha annunciato l'accesso anticipato a un kit di sviluppo software Maia per sviluppatori e ricercatori che lavorano all'ottimizzazione dei modelli. L'azienda ha affermato che lo strumento è progettato per aiutare i team a compilare e ottimizzare i modelli per i sistemi basati su Maia ed è strutturato per adattarsi ai comuni flussi di lavoro di sviluppo di intelligenza artificiale utilizzati per l'implementazione dell'inferenza nel cloud.
Dichiarazioni sulle prestazioni e supporto del modello
Microsoft ha affermato che Maia 200 è progettato per eseguire modelli linguistici di grandi dimensioni e sistemi di ragionamento avanzati e che verrà utilizzato per distribuzioni di modelli interne e ospitate in Azure. L'azienda ha posizionato il chip come acceleratore di inferenza di produzione, distinguendolo dai sistemi incentrati sull'addestramento, tipicamente utilizzati per creare modelli prima della distribuzione.
Microsoft ha accelerato il lavoro sui chip personalizzati, in risposta alla crescente domanda di capacità di calcolo per applicazioni di intelligenza artificiale generativa, dove i costi e la disponibilità degli acceleratori possono influire sulla rapidità di scalabilità dei servizi. Maia 200 segue Maia 100, introdotto da Microsoft nel 2023, e rappresenta l'ultima versione della linea di acceleratori di intelligenza artificiale dedicati all'inferenza nei data center.
L'articolo Maia 200 potenzia Microsoft Azure con un nuovo silicio per l'inferenza dell'intelligenza artificiale è apparso per la prima volta su Situationist Times .
