Na letošním GTC (GPU Technology Conference) představila Nvidia spoustu novinek, především z oblasti hardwaru. Tou nejdůležitější byl nový čip GV100 postavený na architektuře Volta.
Jedná se o obří a komplexní čip, který má celkem 21,1 miliardy tranzistorů a je vyroben 12nm technologií. Čip obsahuje i speciální jádra pro akceleraci hlubokých neuronových sítí. V rámci tohoto čipu představila Nvidia několik produktů, které jsou zaměřené právě na strojové učení a hluboké neuronové sítě.
Nvidia: strojové učení není segment, je to budoucnost všeho
Už minulý rok se nechal šéf Nvidie Jensen Huang slyšet, že strojové učení není žádný segment, ale že je to budoucnost všeho. Vzhledem k tomu, u jakých věcí a segmentů jsme jen za pouhých několik posledních měsíců mohli vidět použití umělé inteligence, začíná se to jen potvrzovat.
Nvidia obrovsky roste, příjem se meziročně zvedl téměř o polovinu a zisk více než dvojnásobně
Nvidia patří k výrobcům nejpokročilejších a nejvýkonnějších grafických a výpočetních čipů na světě a sázka na strojové učení přispívá k tomu, že i z pohledu finančních výsledků roste neuvěřitelně rychle. Tento rok dostane na trh spoustu nových produktů – jak hardwarových, tak i softwarových a celé platformy. Vše zaměřeno na umělou inteligenci, simulace či virtuální realitu.
Nejkomplexnější čip v historii
Nvidia na GTC představila zcela nový čip GV100, který je postavený na architektuře Volta (nástupce Pascalu) a poprvé se objeví ve výpočetní kartě Tesla V100.
Čip GV100 ma rekordních 21,1 miliardy tranzistorů rozložených na 815 mm2
Jedná se o obří čip, který na ploše 815 mm2 obsahuje rekordních 21,1 miliardy tranzistorů, vyrobených novým 12nm FFN procesem. Čip s frekvencí až 1 455 MHz má celkem 5 376 CUDA jader a nově také 672 specializovaných Tensor jader, které jsou určené speciálně pro akceleraci zpracování části hlubokých neuronových sítí s nižší přesností. Díky tomu disponuje nový čip výkonem, který může snadno konkurovat řešení typu Google TPU a podobně (ASIC, FPGA).
Porovnání parametrů výpočetní karet Tesla, nejnovější generace má název V100
Ostatně čísla hovoří za vše – karta Tesla V100 se pyšní výpočetní výkonem 7,5 TFLOPS v DP (FP64), 15 TFLOPS v SP (FP32) a masivních 120 TFLOPS při využití Tensor jader. Pro tyto případy je tak možné rychle a jednoduše dosáhnout více než desetinásobného zrychlení zpracování dat, pochopitelně po optimalizaci a pro konkrétní část výpočtů, kde není potřeba taková přesnost.
Nvidia v případě Tesla V100 opět použila rychlé paměti HBM2 s šířkou paměťové sběrnice 4 096 bitů s vyšší propustností 900 GB/s, přičemž kapacita je u tohoto modelu 16 GB. TDP karty je 300 W.
Nvidia DGX-1 pro nejvýkonnější servery
S uvedením karty Tesla V100 představila Nvidia také novější generaci serverového řešení DGX-1, které obsahuje celkem osm těchto karet. Pokud tedy sečteme výpočetní výkon s použitím Tensor jader, jedná se celkem o 960 TFLOPS v jednom relativně malém boxu. Cena je už nyní v předprodeji 149 tisíc dolarů.
Nvidia ale myslí i na méně náročné profesionály, kteří nechtějí mít u sebe hlučný serverový box a nabídne jim DGX Station, což je řešení o velikosti klasického počítače, které ukrývá celkem čtyři karty Tesla V100 chlazené vodou, takže je box zcela tichý. Cena je v tomto případě stanovená na 69 tisíc dolarů.
Speciálně pro cloud computing je připravené řešení HGX-1, které obsahuje osm karet Tesla V100 a umožňuje propojení pomocí rychlého rozhraní NVLink Hybrid Cube.
Všechna tato řešení lze očekávat až ve třetím či čtvrtém čtvrtletí tohoto roku.
Xavier AI pro autonomní auta
Nvidia už v roce 2015 představila první řešení pro autonomní vozidla – Drive CX a Drive PX. V minulém roce se jednalo o druhou generaci v podobě Drive PX 2, kterou mají například všechny elektromobily Tesla vyrobené od roku 2016.
Tento rok ale představila hybridní novinku v podobě Xavier AI Car Supercomputer. Hlavní změnou je, že si Nvidie uvědomila rozdílnost neuronových sítí pro autonomní ovládání vozidle. Řešení tak obsahuje nejen klasický „sériový“ procesor s osmi jádry ARM64 a 512 CUDA procesorů s architekturou Volta, ale také specializovanou akcelerační část, kterou označuje jako DLA.
Xavier AI je složen ze tří různých architektur
Díky tomu je řešení nejen snadno a obecně programovatelné na různé účely, ale i vysoce výkonné a efektivní pro specializované výpočetní s hlubokými neuronovými sítěmi. Celková spotřeba celé krabičky pro zpracování dat ze všech senzorů automobilu je přitom jen 30 W (při výkonu 30 TOPS DL - 30 bilionů operací pro hluboké sítě).
Roboti, simulace a zrychlení času
Jednou z hlavních výhod Nvidie je v tom, že pro všechna tato řešení má k dispozici kompletní softwarový stack, který má několik úrovní. Nově navíc umožňuje konkrétní konfiguraci stáhnout z webu v dockeru, takže není nutné vše složitě nastavovat a podobně, můžete začít pracovat se strojovým učením doslova během pár minut. To samé platí i pro cloudovém použití.
Nvidie také ukázala, jak rychle probíhá učení nových umělých inteligencí, které ovládají například roboty. Ne vždy lze roboty učit v reálném prostředí, protože to nedovolují podmínky a nelze udělat třeba stonásobné opakování stejného zákroku, než se to umělá inteligence naučí – typicky třeba nějaká forma operace člověka.
Je tak nutné vytvořit co možná nejrealističtější simulaci světa a fyziky, ve které se tyto umělé inteligence budou učit dostatečně přesně na to, aby je bylo možné použít i v reálném světě. Skrývá to navíc jednu výhodu – v simulaci lze s vyšším výpočetním výkonem pochopitelně výrazně zrychlit čas, takže třeba to, co by reálně trvalo několik let či měsíců, může být za pár hodin hotové.
A v tom se opět ukazuje exponenciální vývoj, který budeme v tomto směru pozorovat i v následujících letech. Protože učení umělých inteligencí, které budou ovládat různé stroje i roboty, bude stále rychlejší.