Jul 14, 2023
Meta, MIT e altri testano il braccio robotico nell'infrastruttura IA ottica
Di Agam Shah, 19 aprile 2023 I ricercatori di Meta, MIT e altre istituzioni hanno collegato server con una dozzina di GPU Nvidia con interruttori ottici e un braccio robotico, ideando una nuova interconnessione che potrebbe
Di Agam Shah
19 aprile 2023
I ricercatori del Meta, del MIT e di altre istituzioni hanno collegato server con una dozzina di GPU Nvidia con interruttori ottici e un braccio robotico, ideando una nuova interconnessione che potrebbe essere utilizzata per l’apprendimento automatico. Il tessuto, chiamato “TopoOpt”, può creare al volo topologie di rete a seconda delle esigenze informatiche. La tecnologia arriva mentre i computer ad alte prestazioni sono messi a dura prova da una più ampia adozione di tecnologie di intelligenza artificiale come ChatGPT, che sta testando i limiti del supercalcolo AI di Microsoft.
Un documento sulla tecnologia è stato presentato al simposio USENIX sulla progettazione e implementazione di sistemi in rete che si è tenuto questa settimana.
TopoOpt utilizza algoritmi per trovare le tecniche di calcolo parallelo più veloci in base a informazioni quali requisiti di elaborazione, risorse di calcolo disponibili, tecniche di instradamento dei dati e topologia di rete. I ricercatori hanno anche migliorato la funzionalità AllReduce di Nvidia, che riduce al minimo il tempo di comunicazione tra GPU e altri componenti.
"TopoOpt crea partizioni dedicate per ciascun lavoro di formazione utilizzando interruttori ottici riconfigurabili e pannelli di connessione e ottimizza congiuntamente la topologia e la strategia di parallelizzazione all'interno di ciascuna partizione", hanno scritto i ricercatori.
I ricercatori hanno testato TopoOpt all'interno dell'infrastruttura Meta, utilizzando una dozzina di server Asus ESC4000A-E10, ciascuno dotato di una GPU A100, NIC HPE e una NIC Mellanox ConnectX5 da 100 Gbps. Le schede NIC disponevano di ricetrasmettitori ottici con fibre breakout.
"TopoOpt è il primo sistema che co-ottimizza la topologia e la strategia di parallelizzazione per i carichi di lavoro ML ed è attualmente in fase di valutazione per l'implementazione su Meta", hanno affermato i ricercatori.
L'installazione utilizza anche un pannello patch di Telescent che riconfigura una rete utilizzando "un braccio robotico che afferra una fibra sul lato di trasmissione e la collega a una fibra sul lato di ricezione", afferma il documento. Il braccio robotico, controllato dal software, si muove su e giù per collegare la fibra trasmittente con una fibra ricevente in qualsiasi punto del sistema. Ciò fornisce la flessibilità e l'elasticità necessarie per riconfigurare rapidamente una rete. I patch panel sono già ampiamente utilizzati nelle applicazioni commerciali, ma ora vengono proposti per l'uso nei data center.
Google ha recentemente presentato un documento che descrive in dettaglio come ha utilizzato un supercomputer AI con interruttori del circuito ottico per migliorare la velocità di allenamento sui suoi chip TPU v4 mantenendo basso il consumo energetico. Il circuito ottico di commutazione (OCS) nella configurazione di Google non è mobile come un braccio robotico, ma utilizza specchi per passare dalle fibre di ingresso a quelle di uscita. La configurazione di Google è stata anche un banco di prova più ampio, con un'implementazione su larga scala su 4.096 TPU.
I ricercatori hanno optato per il patch panel poiché hanno scoperto che gli interruttori ottici in stile Google erano “cinque volte più costosi” e supportavano anche meno porte. Allo stesso tempo, i ricercatori hanno affermato che la tecnologia OCS, come quella utilizzata da Google, è pensata per implementazioni su larga scala. "Il vantaggio principale degli OCS è che la loro latenza di riconfigurazione è quattro ordini di grandezza più veloce rispetto ai patch panel", hanno scritto i ricercatori.
TopoOpt effettua il pre-provisioning dei requisiti di calcolo e di rete ed è pronto per l'uso una volta che i server sono pronti e l'attività è pronta per la distribuzione. "Conosciamo già la sequenza degli arrivi di lavoro e il numero di server richiesti da ciascun lavoro", hanno scritto i ricercatori, aggiungendo che "questo design consente a ciascun server di partecipare a due topologie indipendenti".
I ricercatori hanno concluso che TopoOpt fornisce tempi di iterazione di addestramento 3,4 volte più rapidi rispetto a un'altra tecnica chiamata "fat-tree", in cui la dorsale della rete è il fulcro dell'infrastruttura, che poi trasferisce i dati a più livelli di switch statici che collegano il back-end della rete centrale. hardware ai server front-end. Questa tecnica è ampiamente utilizzata oggi.
L’uso della rete ottica in un data center è un concetto nuovo e i ricercatori stanno introducendo il braccio robotico e un nuovo protocollo di comunicazione come un modo più economico per costruire un’infrastruttura di rete AI. La fattibilità della tecnologia è in fase di test da Meta.