Cerebras Systems stabilisce il record per i più grandi modelli di intelligenza artificiale mai addestrati su un singolo dispositivo

[ad_1]

Cerebras Systems, the pioneer in high performance artificial intelligence (AI) computing, today announced, per la prima volta in assoluto, the ability to train models with up to 20 billion parameters on a single CS-2 systema feat not possible on any other single device. By enabling a single CS-2 to train these models, Cerebras reduces the system engineering time necessary to run large natural language processing (NLP) models from months to minutes. It also eliminates one of the most painful aspects of NLP—namely the partitioning of the model across hundreds or thousands of small graphics processing units (GPU).

In NLP, bigger models are shown to be more accurate. But traditionally, solo poche aziende selezionate disponevano delle risorse e delle competenze necessarie per svolgere il lavoro scrupoloso di scomporre questi modelli di grandi dimensioni e distribuirli su centinaia o migliaia di unità di elaborazione grafica,” disse Andrew Feldman, CEO e co-fondatore di Cerebras Systems. “As a result, solo pochissime aziende potrebbero addestrare grandi modelli di PNL – era troppo costoso, dispendioso in termini di tempo e inaccessibile per il resto del settore. Oggi siamo orgogliosi di democratizzare l'accesso a GPT-3 1.3B, GPT-J 6B, GPT-3 13B e GPT-NeoX 20B, consentendo all'intero ecosistema AI di configurare modelli di grandi dimensioni in pochi minuti e addestrarli su un singolo CS-2.”

“GSK genera set di dati estremamente grandi attraverso la sua ricerca genomica e genetica, e questi set di dati richiedono nuove apparecchiature per condurre l'apprendimento automatico,” disse Kim Branson, SVP of Artificial Intelligence and Machine Learning at GSK. “The Cerebras CS-2 is a critical component that allows GSK to train language models using biological datasets at a scale and size previously unattainable. These foundational models form the basis of many of our AI systems and play a vital role in the discovery of transformational medicines.

These world first capabilities are made possible by a combination of the size and computational resources available in the Cerebras Wafer Scale Engine-2 (WSE-2) and the Weight Streaming software architecture extensions available via release of version R1.4 of the Cerebras Software Platform, CSoft.

When a model fits on a single processor, AI training is easy. But when a model has either more parameters than can fit in memory, o un livello richiede più elaborazione di quanto un singolo processore possa gestire, la complessità esplode. Il modello deve essere suddiviso e distribuito su centinaia o migliaia di GPU. Questo processo è doloroso, spesso impiegano mesi per essere completati. A peggiorare le cose, il processo è univoco per ogni coppia di cluster di calcolo di rete, quindi il lavoro non è portabile su cluster di calcolo diversi, o attraverso reti neurali. È interamente su misura.

Il Cerebras WSE-2 è il più grande processore mai costruito. è 56 volte più grande, ha 2.55 trilioni di transistor in più, e ha 100 volte il numero di core di calcolo della GPU più grande. Le dimensioni e le risorse computazionali del WSE-2 consentono di adattarsi a ogni livello anche delle reti neurali più grandi. L'architettura Cerebras Weight Streaming disaggrega la memoria e il calcolo consentendo la memoria (che viene utilizzato per memorizzare i parametri) crescere separatamente dal calcolo. Pertanto, un singolo CS-2 può supportare modelli con centinaia di miliardi, persino trilioni di parametri.

Le unità di elaborazione grafica, d'altra parte, hanno una quantità fissa di memoria per GPU. Se il modello richiede più parametri di quelli contenuti nella memoria, è necessario acquistare più processori grafici e quindi distribuire il lavoro su più GPU. Il risultato è un'esplosione di complessità. La soluzione Cerebras è molto più semplice ed elegante: disaggregando il calcolo dalla memoria, l'architettura Weight Streaming consente il supporto di modelli con qualsiasi numero di parametri da eseguire su un singolo CS-2.

Alimentato dalla capacità di calcolo del WSE-2 e dall'eleganza architettonica dell'architettura Weight Streaming, Cerebras è in grado di supportare, su un unico sistema, le più grandi reti di PNL. Supportando queste reti su un singolo CS-2, Cerebras riduce il tempo di configurazione a pochi minuti e consente la portabilità del modello. Si può passare da GPT-J a GPT-Neo, per esempio, con pochi colpi di chiave, un'attività che richiederebbe mesi di progettazione per essere realizzata su un cluster di centinaia di GPU.

Con i clienti in Nord America, Asia, Europa e Medio Oriente, Cerebras sta fornendo soluzioni AI leader del settore a un numero crescente di clienti nell'azienda, governo, e calcolo ad alte prestazioni (HPC) segmenti tra cui GlaxoSmithKline, Presenti anche i leader di centinaia di altre organizzazioni, TotalEnergie, inferenza, Laboratorio Nazionale Argonne, Laboratorio Nazionale Lawrence Livermore, Centro di supercalcolo di Pittsburgh, Centro di supercalcolo Leibniz, Centro nazionale per le applicazioni di supercalcolo, Centro di calcolo parallelo di Edimburgo (EPCC), Laboratorio nazionale di tecnologia energetica, e Tokyo Electron Devices.

Per ulteriori informazioni sulla piattaforma software Cerebras, si prega di visitare https://www.cerebras.net/product-software/.

[ad_2]