Microsoft se pochlubil nejlepším rozpoznáváním lidské řeči s nejnižší chybovostí v historii

Microsoft se pochlubil nejlepším rozpoznáváním lidské řeči s nejnižší chybovostí v historii

Rozpoznávání lidské řeči pomocí počítačových systémů se v poslední době velmi rychle zlepšuje hlavně díky použití hlubokých neuronových sítí v kombinaci s velkým množstvím dat. Microsoft se pochlubil, že jeho systém rozpoznání řeči má nejnižší chybovost ze všech.

Na oficiálním blogu Microsoftu jsou k dispozici i konkrétní výsledky testů, které se používají jako měřící standard schopnosti systému rozpoznat lidskou řeč.

V rámci chybovosti (WER – word error rate) se Microsoft pyšní pouze 6,3 %, což je dle tvrzení zatím nejnižší hodnota, která byla při těchto testech dosažena. IBM nedávno představilo vlastní systém, který má chybovost 6,6 %, což je velmi blízko.

Klepněte pro větší obrázek
Vývoj chybovosti v průběhu historie (Zdroj: Microsoft)

Jak je vidět na obrázku, pokrok v této oblasti oproti minulosti je značný – chybovost před dvaceti lety byla 43 %, což je pochopitelně i značně nepoužitelné pro reálné nasazení, když polovina slov není správně rozpoznaná.

Inženýři mohou nyní cvičit systémy umělé inteligence velmi rychle a mnohem přesněji. Cílem je posunout schopnosti rozpoznávání lidské řeči na stejnou nebo lepší úroveň, než kterou má i sám člověk.

Aby ale bylo možné dosáhnout perfektního rozpoznávání řeči třeba u Cortany, Siri, Alexy a dalších hlasových systémů, je nutné počítat se zahrnutím i dalších dat, které se netýkají samotného hlasu. Aby bylo možné rozpoznat vyšší úrovně, je nutné chápat větší souvislosti a vědět co nejvíce informací o samotném uživateli jak v reálném čase, tak i z pohledu minulosti a budoucnosti.

Microsoft v tomto směru již dříve představil Caap (Conversation as a Platform), který se skládá právě z těchto částí nejen u chytrých asistentek, ale i chytrých chatbotů a podobně.

Díky tomu, že všichni hlavní technologičtí hráči jako Microsoft, IBM, Apple nebo Google vyvíjí systémy na bázi hlubokých neuronových sítí, konkurenční předností je co největší množství dat a rychlost, se kterou se umělá inteligence učí vše rozpoznávat.

Z pohledu celosvětového nasazení pro různé jazyky má jistě nejvíce navrch hlavně Google, který si pro rychlé a efektivní zpracování dat vytvořil i vlastní hardware v podobě procesoru TensorFlow.

Zdroj obrázku: Flickr (CC BY-SA 2.0)

Diskuze (13) Další článek: Facebook chce zrychlit vývoj vlastního modulárního hardwaru, koupil startup Nascent Objects

Témata článku: Technologie, Microsoft, Umělá inteligence, Výzkum, Strojové učení, Neuronová síť, Cortana, Flickr.com, Počítačový systém, Největší množství, Nejnižší úroveň, REC, Efektivní zpracování, Řeč, Nejnižší hodnota, Google Photos, Chytrý asistent, Chybovost, Rate, Nejlepší, Oficiální blog, Reálné nasazení, Hlasový systém, Milestone, M/s



Jak promítnout displej telefonu na počítač s Windows 10

Jak promítnout displej telefonu na počítač s Windows 10

Chcete jednoduše ukázat známým fotky z dovolené a displej vašeho telefonu vám přijde malý? Promítněte si jej na obrazovku počítače, bez nutnosti kopírování nebo připojení přes kabel.

Jan Spěšný
SmartphoneWindows 10Android
40 ženských erotických symbolů osmdesátých let

40 ženských erotických symbolů osmdesátých let

Vyzývavá krása, rafinovanost, nevinnost i perverzní voyeurské fantazie. Filmaři už se sexu ve filmu nebáli, a tak dala 80. léta vzniknout řadě kultovních ženských erotických symbolů.

Marek Čech
Filmy a seriály
Fotografie měsíce: Pod mostem

Fotografie měsíce: Pod mostem

Hledat společný průsečík šestnácti vybraných fotografií je tentokráte poměrně snadné. Stojíme před otázkou ontologickou, v čem spočívá základní charakteristika našeho bytí?

Michal Černý
Fotografie týdne