Na konferenci Hot Chips 31 se objevila novinka v oblasti výkonných čipů, která nemá doposud žádné obdoby. Pokud považujete nové 64jádrové serverové čipy AMD EPYC za extrémní nebo si ani nedokážete představit 21,1 miliardy tranzistorů u největšího grafického čipu od Nvidie, v případě Cerebras WSE vám zkrátka nutně musí dojít slova. A možná i dech.
Nový obří superpočítač s neuročipy funguje podobně jako mozek. Tvůrci ho poprvé spustili
Standardní postup výroby je takový, že na jeden obvykle 300mm wafer se vyrobí několik desítek či stovek čipů podle druhu a velikosti, které se posléze nařežou a umístí do samostatných balení s rozvaděčem tepla a případně i dalšími dodatečnými čipy. Cerebras ale zcela boří tento přístup a systém.
Nápad na obří čipy o velikosti waferu není zcela nový, první pokusy se uskutečnily už v devadesátých letech, ale tehdy to vše skončilo fiaskem. Tentokrát je ale situace zcela jiná a stejně tak technologie a potřeby.
Velký přehled neuročipů aneb i umělá inteligence potřebuje efektivní mozek
Jeden wafer, jeden čip
Cerebras WSE (Wafer Scale Engine) se nevyrábí v několika kusech na jednom waferu, ale jeden celý wafer je určen přímo pro jeden obří čip. Ten má díky tomu opravdu úctyhodné parametry. V současné podobě Cerebras WSE tvoří 1,2 bilionu tranzistorů, což je 57× více, než má nejsložitější a největší čip v současnosti - grafický čip GV100 od Nvidie, který má 21,1 miliardy tranzistorů.
Extrémní je i velikost čipu, která je 46 225 mm2, zatímco zmíněný největší současný čip od Nvidie má „pouhých“ 815 mm2. Na co je ale potřeba tak velký čip?
Parametry čipu
- Počet tranzistorů: 1,2 bilionu
- Velikost čipu: 46 225 mm2
- Počet AI jader: 400 tisíc
- Velikost paměti: 18 GB (on-chip)
- Propustnost paměti: 9 PB/s
- Propustnost v čipu: 100 Pb/s
- Výrobní technologie: 16 nm (TSMC)
- Spotřeba: 15 kW
Umělá inteligence „bez omezení“
Čip je určen pro akceleraci a běh umělé inteligence a s tím spojených algoritmů. Právě v této oblasti totiž vývojáři často naráží na limity, které jsou spojené s velikostí a rychlostí a škálování pomocí serverů není tak efektivní, protože to významně zpomaluje výkon. To že máme kompaktní lidský mozek a nikoli rozplizlé cosi široko daleko, má svůj důvod. Aby neuronová síť byla efektivní, musí mít jednotlivé části, ze kterých je složená, co nejblíže a co nejrychleji propojené.
Čip Cerebras WSE tak zahrnuje celkem 400 tisíc jader optimalizovaných právě pro AI a tensor operace. Zároveň ale obsahuje i velmi důležitou paměť o kapacitě 18 GB, která je přímo součástí čipu. Propustnost samotné paměti je 9 PB/s a v rámci celého spojení uvnitř čipu je to neuvěřitelných 100 Pb/s. Díky tomu může docházet k velkému a rychlému přesunu dat, což je pro umělou inteligenci kritické. To co dříve bylo nemožné vyřešit i nejlepším serverovým clusterem, je snadné pomocí Cerebras WSE.
Že se nejedná o nějaký výmysl šílených vědců svědčí fakt, že se prototypy čipu už vyrábí v TSMC, konkrétně pomocí 16nm technologie.
Se zmetky se počítá
Při výrobě čipů vznikají v rámci celého waferu menší rozdíly v kvalitě jednotlivých čipů. Nejlepší kousky se tak stávají výkonnějšími modely a horší pak těmi slabšími, ale objevují se samozřejmě i velmi špatné nebo dokonce nefunkční kusy, které je nutné zahodit. Jak to ale řešit, když celou plochu waferu tvoří celý čip?
Tvůrci designu Cerebras WSE s vadami rovnou počítají a přímo v konstrukci čipu jsou připravené ochrany, které dokáží detekovat chyby v konkrétních jádrech i částech a obejít je i když už je čip vyroben. Díky tomu není problém, když je určité procento čipu nekvalitní nebo poškozené. Architektura s tím v rámci redundantních jader a redundantních spojení (1,5 % z celé struktury) zkrátka počítá a čip jako celek funguje i poté bez problémů.
Teploty, napájení a chlazení
S takto velkým čipem samozřejmě přichází i řada dalších problémů. Jedním z nich je například tepelná roztažnost materiálu, která je na takové ploše už poměrně znatelná a může způsobovat komplikace. Tvůrci s tím rovněž počítají a pro minimalizaci roztažnosti používají dodatečnou speciální vrstvu mezi křemíkem a PCB a rovněž vrstvu nad křemíkovou vrstvou, která rychle odvádí teplo.
To je u tak velkého čipu pochopitelně enormní a použití vzduchového chlazení by bylo nedostatečné. V tomto případě se ale nemusí používat žádné složitosti, ale pouze upravené výkonné vodní chlazení, které rychle odvádí teplo mimo čip.
Kromě speciálního balení museli tvůrci vymyslet i pokročilý typ trojrozměrného napájení (direct perpendicular power delivery) a chlazení, takže je horizontálně přizpůsobené, aby po celé ploše bylo vše rovnoměrně rozložené.
Cerebras WSE vs Nvidia GV100
- 57× větší
- 78× více jader
- 3 000× více paměti
- 35 000× větší paměťová propustnost
Efektivita pro budoucnost
Spotřeba čipu se dle informací pohybuje kolem 15 kW, ale je třeba si uvědomit, že při porovnání počtu tranzistorů a komponent se jedná o několikanásobně efektivnější systém, než cokoli co je aktuálně na trhu. Marže veškerých komponent mimo čipy a k tomu přidaná síťová infrastruktura u klasických serverů a clusterů je obrovská a do budoucna neúnosná. Alespoň pro stále náročnější úlohy, které přináší například obří datové modely, které je nutné zpracovat v jednom běhu a rozdělování je neefektivní.
Toto řešení navíc poskytuje nesrovnatelně lepší odezvu a propustnost, která je o několik řádů lepší, než cokoli co se doposud ve světě čipů vyrobilo. Takže pokud vám někdo bude tvrdit nesmysl, že Moorův zákon se blíží ke konci, povězte mu o čipu Cerebras WSE.
Pokud jde o byznysový pohled, dle odhadů má startup Cerebras založený v roce 2016 v tomto směru náskok kolem tří let oproti ostatním firmám v oboru, což se vzhledem ke zcela novému přístupu dá předpokládat. Takže možná jsme svědky zrození nového křemíkového obra, který bude jedním z vládců v příštích dekádách. Firma už začala dodávat prototypy čipu prvním zákazníkům, takže bychom se finální verze mohli dočkat třeba už v roce 2020.