Microsoft | Umělá inteligence | Strojové učení

Microsoft se pochlubil nejlepším rozpoznáváním lidské řeči s nejnižší chybovostí v historii

Microsoft se pochlubil nejlepším rozpoznáváním lidské řeči s nejnižší chybovostí v historii

Rozpoznávání lidské řeči pomocí počítačových systémů se v poslední době velmi rychle zlepšuje hlavně díky použití hlubokých neuronových sítí v kombinaci s velkým množstvím dat. Microsoft se pochlubil, že jeho systém rozpoznání řeči má nejnižší chybovost ze všech.

Na oficiálním blogu Microsoftu jsou k dispozici i konkrétní výsledky testů, které se používají jako měřící standard schopnosti systému rozpoznat lidskou řeč.

V rámci chybovosti (WER – word error rate) se Microsoft pyšní pouze 6,3 %, což je dle tvrzení zatím nejnižší hodnota, která byla při těchto testech dosažena. IBM nedávno představilo vlastní systém, který má chybovost 6,6 %, což je velmi blízko.

Klepněte pro větší obrázek
Vývoj chybovosti v průběhu historie (Zdroj: Microsoft)

Jak je vidět na obrázku, pokrok v této oblasti oproti minulosti je značný – chybovost před dvaceti lety byla 43 %, což je pochopitelně i značně nepoužitelné pro reálné nasazení, když polovina slov není správně rozpoznaná.

Inženýři mohou nyní cvičit systémy umělé inteligence velmi rychle a mnohem přesněji. Cílem je posunout schopnosti rozpoznávání lidské řeči na stejnou nebo lepší úroveň, než kterou má i sám člověk.

Aby ale bylo možné dosáhnout perfektního rozpoznávání řeči třeba u Cortany, Siri, Alexy a dalších hlasových systémů, je nutné počítat se zahrnutím i dalších dat, které se netýkají samotného hlasu. Aby bylo možné rozpoznat vyšší úrovně, je nutné chápat větší souvislosti a vědět co nejvíce informací o samotném uživateli jak v reálném čase, tak i z pohledu minulosti a budoucnosti.

Microsoft v tomto směru již dříve představil Caap (Conversation as a Platform), který se skládá právě z těchto částí nejen u chytrých asistentek, ale i chytrých chatbotů a podobně.

Díky tomu, že všichni hlavní technologičtí hráči jako Microsoft, IBM, Apple nebo Google vyvíjí systémy na bázi hlubokých neuronových sítí, konkurenční předností je co největší množství dat a rychlost, se kterou se umělá inteligence učí vše rozpoznávat.

Z pohledu celosvětového nasazení pro různé jazyky má jistě nejvíce navrch hlavně Google, který si pro rychlé a efektivní zpracování dat vytvořil i vlastní hardware v podobě procesoru TensorFlow.

Zdroj obrázku: Flickr (CC BY-SA 2.0)

Diskuze (13) Další článek: Facebook chce zrychlit vývoj vlastního modulárního hardwaru, koupil startup Nascent Objects

Témata článku: Technologie, Microsoft, Umělá inteligence, Výzkum, Strojové učení, Neuronová síť, Cortana, Řeč, Hlasový systém, Nejnižší hodnota, Rate, Oficiální blog, Efektivní zpracování, Počítačový systém, Chytrý asistent, Reálné nasazení, Největší množství, Flickr.com, Nejnižší úroveň, Chybovost, Google Photos, Milestone, Rozpoznávání, M/s, REC


Určitě si přečtěte

Windows 10 podle našich čtenářů: Poslali jste nám skoro 300 nápadů, jak je vylepšit

Windows 10 podle našich čtenářů: Poslali jste nám skoro 300 nápadů, jak je vylepšit

** Microsoft aktualizuje Windows 10 dvakrát ročně ** Jenže praktických novinek už není tolik jako dříve ** Poslali jste nám skoro 300 tipů, co by se měly Desítky ještě naučit

Jakub Čížek | 139

16 tipů a vychytávek, se kterými dokonale ovládnete komunitní navigaci Waze

16 tipů a vychytávek, se kterými dokonale ovládnete komunitní navigaci Waze

** Waze není jen navigace – je to i sociální síť s dopravními informacemi ** Mobilní aplikace skýtá široké možnosti nastavení ** Vybrali jsme pro vás 16 nejzajímavějších tipů a triků

Karel Kilián | 48