Demo Intel8

Blog

CasaCasa / Blog / Demo Intel8

Jun 14, 2023

Demo Intel8

Il chip da 7 nm ha 66 thread per core e spinge 1 TB/s di I/O ottico. Intel ha presentato il suo primo tessuto fotonico mesh-to-mesh alla conferenza sui chip Hot Chips 2023, evidenziando i suoi progressi verso

Il chip da 7 nm ha 66 thread per core e spinge 1 TB/s di I/O ottico.

Intel ha presentato il suo primo tessuto fotonico mesh-to-mesh alla conferenza sui chip Hot Chips 2023, evidenziando i suoi progressi verso un futuro di interconnessioni ottiche chip-to-chip sostenute anche da aziende del calibro di Nvidia e Ayar Labs. Tuttavia, il chip a otto core e 528 thread utilizzato da Intel per la dimostrazione ha attirato l'attenzione grazie alla sua architettura unica che prevede 66 thread per core per consentire fino a 1 TB/s di throughput dati. Sorprendentemente, il chip consuma solo 75 W di potenza, con circa il 60% della potenza utilizzata dalle interconnessioni ottiche, ma il design potrebbe eventualmente consentire la connessione diretta di sistemi con due milioni di core con una latenza inferiore a 400 ns.

Il chip PUMA (Programmable Unified Memory Architecture) di Intel fa parte del programma DARPA HIVE che si concentra sul miglioramento delle prestazioni nel lavoro di analisi dei grafici su scala petabyte per sbloccare un miglioramento di 1000 volte nelle prestazioni per watt nei carichi di lavoro iper-sparsi.

Sorprendentemente per un'azienda incentrata su x86 come Intel, il chip di test utilizza un'architettura RISC personalizzata per prestazioni ottimizzate nei carichi di lavoro di analisi dei grafici, offrendo un miglioramento 8 volte nelle prestazioni a thread singolo. Anche il chip viene creato utilizzando il processo a 7 nm di TSMC, non i nodi interni di Intel.

Dopo aver caratterizzato i carichi di lavoro target, Intel ha concluso che era necessario creare un'architettura in grado di risolvere le sfide associate allo stress estremo sul sottosistema di memoria, alle pipeline profonde, ai predittori di diramazione e alla logica fuori ordine creata dal carico di lavoro.

Il core personalizzato di Intel utilizza un parallelismo estremo per un totale di 66 thread hardware per ciascuno degli otto core, grandi cache di istruzioni e dati L1 e 4 MB di SRAM per appunti per core. Il chip a otto core presenta 32 porte I/O ottiche che funzionano a 32 GB/s/dir ciascuna, per un totale di 1 TB/s di larghezza di banda totale. I chip vengono inseriti in una slitta server OCP a otto socket, che offre fino a 16 TB/s di throughput ottico totale per il sistema e ciascun chip è alimentato da 32 GB di DRAM DDR5-4000 personalizzata.

Intel ha realizzato il chip utilizzando il processo produttivo a 7 nm di TSMC con 27,6 miliardi di transistor su un die da 316 mm^2. Gli otto core, che consumano 1,2 miliardi di transistor, si trovano al centro del die, fiancheggiati da otto controller di memoria personalizzati con una granularità di accesso di 8 byte. I router di comunicazione popolano il centro "vuoto" del chip. Il chip presenta anche quattro chiplet I/O ottici a otto canali ad alta velocità, due ciascuno nella parte superiore e inferiore del die, che collegano i segnali elettrici interni alle interconnessioni ottiche esterne . Queste unità sono collegate tramite il packaging EMIB di Intel e utilizzano il protocollo AIB. Il chip ha anche una connessione PCIe 4.0 x8 per comunicare con il sistema host.

Lo spostamento dell'incredibile quantità di dati generati da 528 thread attorno al die richiede un'interconnessione ottimizzata, quindi Intel ha progettato una mesh 2D sul die con 16 router per mescolare i dati tra i core, i controller di memoria e le interconnessioni fotoniche del silicio (otto router sono integrati nel i core della CPU, mentre sei router sono dedicati interamente al solo spostamento dei dati).

Come puoi vedere nell'album qui sopra, i connettori fotonici sono integrati nel pacchetto del chip e pendono dai lati del chip per il collegamento esterno ad altri chip. Il chip è collegato a una rete ottica esterna "HyperX" che fornisce connessioni all-to-all per i singoli core di elaborazione. Questa incredibile rete consente di connettere direttamente fino a due milioni di core tutti a tutti con una latenza inferiore a 400 ns.

Il risultato finale è impressionante: il chip consuma solo 75 W, con il 59% del budget dedicato alla fotonica del silicio e il 21% dedicato ai core. Intel afferma che le prestazioni migliorate della rete ottica consentono uno scaling lineare quasi perfetto da uno a 1000 core.

La promessa delle interconnessioni ottiche ha alimentato un numero crescente di ricerche mentre il settore guarda ai futuri metodi di trasporto dei dati che offrono caratteristiche di larghezza di banda, latenza e consumo energetico superiori rispetto alle tradizionali tecniche di comunicazione chip-to-chip. Mentre le implementazioni tradizionali di interconnessioni di chip ottici rimangono all’orizzonte, implementazioni specializzate, come quelle sostenute da Intel, Nvidia e Ayar Labs, sono quasi pronte per implementazioni su larga scala nel prossimo futuro.