Dall’IA ai supercomputer: dove si arriverà?

Foto di Gerd Altmann da Pixabay

L’IA generativa sta divorando il mondo”. È così che Andrew Feldman, CEO di Cerebras, produttore di computer con intelligenza artificiale (AI) della Silicon Valley, ha iniziato la sua introduzione all’ultimo risultato cronologico della sua azienda: un supercomputer AI in grado di eseguire 2 miliardi di miliardi di operazioni al secondo (2 exaflop)! Il sistema, chiamato “Condor Galaxy 1”, è sulla buona strada per raddoppiare le sue dimensioni entro 12 settimane. All’inizio del 2024 verrà affiancato da altri due sistemi di dimensioni doppie. L’azienda della Silicon Valley prevede di continuare ad aggiungere installazioni Condor Galaxy il prossimo anno, fino a quando non gestirà una rete di nove supercomputer in grado di gestire 36 exaflop in totale.

Se i modelli in linguaggio esteso e altre IA generative stanno “divorando” il mondo, il piano di Cerebras è di aiutarli a digerirlo. E la compagnia di Sunnyvale, in California, non è sola… Altri produttori di computer, incentrati sull’intelligenza artificiale, stanno costruendo enormi sistemi attorno ai propri processori specializzati o all’ultima GPU di Nvidia, l’H100. Sebbene sia difficile giudicare le dimensioni e le capacità della maggior parte di questi sistemi, Feldman afferma che Condor Galaxy 1 è già tra i più grandi.

Condor Galaxy 1, assemblato e avviato in soli 10 giorni, è composto da 32 computer Cerebras CS-2 ed è destinato a espandersi a 64. I prossimi due sistemi, che saranno costruiti ad Austin, Texas, e Ashville, N.C., ospiteranno anch’essi 64 CS-2 ciascuno.

Il cuore di ogni CS-2 è il “Waferscale Engine-2”, un processore specifico per l’IA con 2,6 trilioni di transistor e 850.000 core AI realizzati da un intero prezzo di silicio. Il chip è così grande che scala di memoria, larghezza di banda, risorse di calcolo e altre cose nei nuovi supercomputer diventano rapidamente un po’ ridicole!

“Uno dei maggiori vantaggi di Cerebras nella costruzione di grandi supercomputer IA è la sua capacità di aumentare le risorse in modo semplice”, afferma Feldman. “Ad esempio, una rete da 40 miliardi di parametri può essere addestrata all’incirca nello stesso tempo di una rete da 1 miliardo di parametri se le si dedicano 40 volte più risorse hardware. È importante sottolineare che un tale aumento non richiede ulteriori righe di codice”. La dimostrazione del “ridimensionamento lineare”, fenomeno troppo complesso da descrivere, è stata storicamente molto problematica a causa della difficoltà di dividere le grandi reti neurali in modo che funzionino in modo efficiente. “Scaliamo linearmente da 1 a 32 [CS-2] con una pressione di un tasto”, afferma.

La serie Condor Galaxy è di proprietà di G42, con sede ad Abu Dhabi, una holding con nove aziende basate sull’intelligenza artificiale tra cui G42 Cloud, uno dei maggiori fornitori di cloud computing in Medio Oriente. Tuttavia, Cerebras gestirà i supercomputer e potrà noleggiare risorse che G42 non utilizza per il lavoro interno.

La domanda per l’addestramento di grandi reti neurali è aumentata vertiginosamente, secondo Feldman. Il numero di aziende che addestrano modelli di reti neurali con 50 miliardi o più di parametri è passato da 2 nel 2021 a più di 100 quest’anno, afferma.

Ovviamente, Cerebras non è l’unico… Grandi player come Amazon, Google, Meta e Microsoft hanno, ormai, già le loro offerte. I cluster di computer costruiti attorno alle GPU Nvidia dominano gran parte di questo business, ma alcune di queste aziende hanno sviluppato il proprio silicio per l’intelligenza artificiale, come la serie TPU di Google e Trainium di Amazon. Ci sono anche startup concorrenti di Cerebras, che realizzano i propri acceleratori e computer AI, tra cui Habana (ora parte di Intel), Graphcore e Samba Nova.

Meta, ad esempio, ha creato il suo AI, “Research SuperCluster”, utilizzando più di 6.000 GPU Nvidia A100. Una seconda fase pianificata spingerebbe il cluster a 5 exaflop. Google ha costruito un sistema contenente 4.096 dei suoi acceleratori TPU v4 per un totale di 1,1 exaflop. Quel sistema ha attraversato la rete neurale del processore di linguaggio naturale “BERT”, che è molto più piccola degli LLM di oggi, in poco più di 10 secondi. Google sfrutta anche “Compute Engine A3”, basato su GPU Nvidia H100 e un’unità di elaborazione dell’infrastruttura personalizzata realizzata con Intel. Il fornitore di servizi cloud, CoreWeave, in collaborazione con Nvidia, ha testato un sistema di 3.584 GPU H100 che ha addestrato un benchmark che rappresenta il modello di linguaggio di grandi dimensioni GPT-3 in poco più di 10 minuti. Inoltre, nel 2024, sappiamo già che Graphcore prevede di costruire un sistema a 10 exaflop chiamato “Good Computer”, composto da oltre 8.000 dei suoi processori Bow. Dove si arriverà?