VUT patří ke světové špičce v rozpoznávání řeči

Brněnské VUT patří mezi světovou špičku v rozpoznávání řeči. Aktuálně pracuje pro americkou vládní agenturu DARPA a propojuje akademický výzkum s byznysem.
VUT patří ke světové špičce v rozpoznávání řeči

„Tak to vážně nevím. Každopádně je to zvláštní, že se to děje zrovna v takovéto malé zemi,“ zamýšlí se s úsměvem Igor Szöke z Fakulty informatiky na Vysokém učení technickém v Brně nad tím, proč zrovna Česko plodí tolik výzkumníků a projektů souvisejících s rozpoznávání mluveného slova. Při rozhovoru v kavárně naproti škole se jen tak mimochodem zmiňuje o tom, že je teď zrovna u nich „někdo z Microsoft Research“ a ukazuje na kolegu, který „byl také na Stanfordu a pracoval pro tu firmu, která udělala Siri“.

Naučit stroje, aby uměly rozpoznávat lidskou řeč, a na základě toho vykonávaly zadané úkoly, je v současné době velikým trendem. Viditelné je to zejména u firem jako Apple, Google a Microsoft, jež své „umělé inteligence“ integrují přímo do mobilních operačních systémů (Siri a další), ale možnosti reálného využití jsou ještě daleko větší – zajímají se třeba armády, call centra a podobně. A právě Česko patří mezi velké tahouny celého oboru. Kromě VUT se výzkumy zabývají také na univerzitách v Liberci a Plzni a IBM v Praze provozuje vlastní výzkumnou laboratoř.

Mladý výzkumník působí velice skromně a namísto toho, aby okamžitě začal oslňovat úspěchy jednotlivých projektů, na kterých se podílel, se nejdříve novinářské návštěvy začne vyptávat na to, zda by žurnalisté dokázali v praxi využívat technologii automatického přepisu mluveného slova na text. Pečlivě si zapisuje zpětnou vazbu a prosí o šíření mezi kolegy.

To, co dělá Google

Igor Szöke se totiž společně se svými kolegy snaží o to, o co se příliš zdejších akademických výzkumníků nesnaží – přenést na univerzitě vytvořené technologie do reálného prostředí a vytvořit z nich produkt, o něhož budou mít zákazníci zájem. Takzvaný transfer technologií byl při jeho začátcích hodně velká životní zkušenost. „Vymysleli jsme si hromadu funkcí, o kterých jsme si mysleli, že je lidé budou chtít. Obrovsky jsme narazili a teď postupně zjišťujeme, že je lepší přijít s méně funkcemi, jednoduchým ovládáním a postupně pak dodělávat zbytek,“ popisuje Szöke svá zjištění.

Klepněte pro větší obrázek
Propojujeme univerzitu s byznysem. Igor Szöke z VUT FIT a SpokenData.com.

„To, co teď děláme, je v podstatě to samé, co dělá Google. Učíme se na obrovském množství uživatelských a specifických dat tak, aby se technologie mohla co nejlépe adaptovat,“ vysvětluje Szöke. To už popisuje projekt, který má být právě přenesením výzkumu na reálný trh. Během podzimu by měla být k dispozici aktualizovaná verze služby SpokenData.com, jejíž vize je jednoduchá: lidé si budou moci přes webový prohlížeč nahrát libovolné video či zvukový soubor a během chvilky dostat co možná nejlepší přepis textu. Vše půjde ovládat v jednoduchém editoru, a pokud na něco nebudou stačit stroje, postarají se o to najatí editoři.

SpokenData v současné době zvládá kromě angličtiny také češtinu, prozatím se však musí počítat s tím, že musí být pořízen kvalitní záznam zvuku – například přepis rozhovoru z hlučné kavárny je prozatím problém. Právě o tom je ono zmiňované učení se na specifických datech. „Můžeme tu technologii postupně naučit například na specifické vlastnosti diktafonů v mobilních telefonech, takže pak automaticky dojde k jejich rozpoznání a co nejlepší detekci zvuku,“ nastiňuje Igor Szöke.

Učení stroje takovýmto „kouzlům“ je poměrně náročná věc, zejména co se výpočetního výkonu týče. Na VUT nevytváří žádnou umělou inteligenci, která by jednoduše byla schopná, podobně jako lidský mozek, naučit se nové věci bez nějakého základu „tvrdých“ dat a informací. Ty se musí dodat a vše tedy funguje na principu „machine learning“.

Na VUT vyvinutý systém tak pracujeme s velkými databázemi zvukových .wav souborů, které jsou porovnávány s frázemi v textových .txt souborech. Tedy žádné in-memory databáze, Hadoop a další moderní vymoženosti, prostě adresáře se soubory. To všechno se děje na serverovém clusteru s 2500 procesorovými jádry, který na brněnské univerzitě postavili z velké části právě „řečaři“ za pomocí financování z fondů EU a akademického CESNETu.

Náročná čeština

Bez tohoto clusteru by údajně nebylo možné takto náročný výzkum provádět. „Světovou konkurenci jsme schopní překonat hrubým výpočetním výkonem,“ vysvětluje Szöke a poukazuje na to, že 120TB diskové pole je možné díky různým zvukovým vzorkům zaplnit během velice krátké chvilky. K trénování a cvičení stroje se navíc používají neuronové sítě. „Myslím si, že malá laboratoř s pár počítači a lidmi z tohoto důvodu nemá šanci,“ věří Szöke. Pronajímat si například cloud od Amazonu by bylo finančně rovněž velice náročné.

Klepněte pro větší obrázek
Do SpokenData.com jde přidat i video z YouTube, případně lze nahrát soubory z disku.

Jenže zatímco škola disponuje chytrými vědeckými mozky a technologiemi, s přenosem technologií do komerčního prostředí tradičně bývá problém. Je to dáno i tím, že v Česku ještě nestihla vyrůst potřebná kultura propojení akademického a komerčního světa, což vede například k legislativním starostem, či prostě střetem dvou odlišných myšlení. Na VUT proto z tohoto důvodu před několika lety vznikl prostředník, který začal výzkum do byznysu přenášet.

Výzkumná řečová skupina na brněnské škole vznikla zhruba před 10 lety a zprvu se soustředila na různé evropské projekty, třeba přepis mluveného slova na text ze zaznamenávaných schůzek a kulatých stolů. VUT na projektu spolupracovalo s univerzitou v britském Sheffieldu a postupně se začal formovat tým se specializací na takzvané složité prostředí – tedy žádné čisté zvukové záznamy ze studia, ale rušné nahrávky z veřejného prostředí a podobně.

Následně se výzkum rozšířil o další projekty. S velkým přišlo tuzemské ministerstvo obrany, které velice zajímaly telefonní hovory. Výzkumníci z VUT tak dostali zakázky, na základě kterých vytvořili technologii na rozpoznávání jazyků. Ministerstvo tak mohlo automaticky poznat, v jaké řeči se vede sledovaný hovor.

Díky tomu pak výzkumníci z VUT založili společnost Phonexia, jejíž hlavní úkolem bylo „vzít na škole vytvořené technologie, vytvořit z nich spustitelný a upravený program a ten následně přenést do komerčního prostředí“. Phonexia za užívání technologií platila licenční poplatky a škola tento projekt dodnes považuje za ukázku praktické přenosu technologií. Firma ostatně funguje do dneška a produkty na rozpoznávání řeči dodává například americkým tajným službám.

Na VUT se mezitím dostali k dalšímu projektu – ministerstvo vnitra potřebovalo technologii pro identifikaci řečníka. Díky tomu se na škole dostali k práci s českým jazykem. „Do té doby prakticky nebylo možné češtinou se zabývat. Potřebovali jsme projekt, který by se zaplatil, protože jenom nákup databáze jazykových vzorků vyjde i na milion korun,“ vzpomíná Szöke. „Čeština je navíc hodně náročná. Zatímco v angličtině stačí pracovat s 50 až 100 tisíci slovy, v naší mateřštině jsou to miliony.“

Lepší než Google

Na Fakultě informatiky už se tou dobou spustilo nahrávání přednášek, které si pak studenti mohli zpětně prohlížet online. Zvukoví výzkumníci proto své výzkumy češtiny aplikovali právě na tyto záznamy, díky čemuž dokázali automaticky přepsat text z přednášek a umožnit v něm vyhledávání.

Igor Szöke se postupně dal do spolupráce s Janem Všianským, jež založil a prodal úspěšnou společnost Lingea a nyní působí jako andělský investor. Vznikla tak firma ReplayWell, která funguje dodnes a provozuje projekt SuperLectures. Technologie umožňuje přepis řeči, vyhledávání v textu, synchronizaci „slajdů“ s přednáškami a tak dále. Typickým zákazníkem jsou různé konference, díky nimž SuperLectures vydělává a dokáže zaplatit start SpokenData, na němž se pracuje od letošního ledna.

SpokenData v současné době prochází zejména laděním a hledají se nejlepší možné obchodní modely. Igor Szöke a jeho tým spolupracují například s portálem mojemedicina.cz (a dalšími pilotními zákazníky). Tam je k dispozici velká databáze přednášek z různých zdravotnických akcí. Redakční systém portálu je přes aplikační rozhraní (API) napojený na SpokenData a jakmile se přidá nové video, SpokenData ho automaticky přeloží a vloží do databáze.

Vstup VUT FIT a ReplayWell do oblasti těchto služeb rozhodně nebude úplně jednoduchý. Podobná konkurence už totiž ve světě existuje a automatické titulkování videí nabízí na YouTube i Google. „Byla doba, kdy jsme YouTube rozpoznávali lépe, než samotný Google. Uměli bychom to i dnes, ale aktuálně se soustředíme na to najít ve SpokenData obchodní modely,“ věří si Szöke.

Zatímco Phonexia a ReplayWell nadále slouží jako „nástroje“ pro transfer z univerzitního prostředí do světa byznysu, na VUT se i nadále do práce s řečí zapojují noví studenti a pracuje se na projektech světového významu. „Aktuálně jsme se zapojili do projektu DARPA, což je agentura amerického ministerstva obrany,“ popisuje Szöke. „Pracujeme na technologiích pro identifikaci řečníka a řeči ve velmi těžkém prostředí,“ uzavírá.

Diskuze (21) Další článek: Crackovací programy dokážou nově odhalit i heslo s 55 znaky

Témata článku: Technologie, Byznys, Startupy, Náročné prostředí, Zvuková technologie, Verze služby, Svět, Různé prostředí, Igor, Velká databáze, Reálný trh, Kvalitní záznam, Mladý výzkum, Diktafon, Aktualizovaná verze, Zvukový soubor, Typický zákazník, SE, Transfer, Mobilní vyhledávání, Mluvené slovo, Řeč, Americká škola, Veřejné prostředí, Mobilní telefony liberec, Mobilní telefony apple na Mall.cz


Určitě si přečtěte

DeOldify: Téměř zázračná technologie, která obarvuje 2. světovou válku, nebo vaše fotky z dětství

DeOldify: Téměř zázračná technologie, která obarvuje 2. světovou válku, nebo vaše fotky z dětství

** Neuronová síť DeOldify obarvuje fotky ** Můžete si ji vyzkoušet sami i bez superpočítače ** YouTube je plný obarvených ikonických videí

Jakub Čížek | 21

Jakub Čížek
PythonHistorieProgramování
Internet poslední naděje. Kdo má nejlepší tarif „LTE na doma“?

Internet poslední naděje. Kdo má nejlepší tarif „LTE na doma“?

** Srovnali jsme fixní LTE připojení od tuzemských operátorů ** Liší se rychlostmi, cenou i podmínkami ** Na co všechno dát pozor?

Lukáš Václavík | 43

Lukáš Václavík
LTEPoskytovatelé internetuPřipojení k internetu
Trapas celníků: Zadrželi „padělaná“ sluchátka AirPods, šlo ale o pravé OnePlus Buds
Markéta Mikešová
OnePlusSluchátkaAirPodsApple
Vybrali jsme 12 programovatelných hraček a stavebnic pro děti a jejich rodiče

Vybrali jsme 12 programovatelných hraček a stavebnic pro děti a jejich rodiče

** Získejte děti pro matematiku a základy techniky ** Kupte jim hračku nebo stavebnici, které vdechnou vlastní život ** Vybrali jsme stavebnice pro malé caparty i budoucí experty

Jakub Čížek | 9

Jakub Čížek
Stavebnice
10 míst na mapách Googlu, která nesmíte vidět. Nahradily je čtverečky

10 míst na mapách Googlu, která nesmíte vidět. Nahradily je čtverečky

** Deset míst, které nesmíte vidět ve webových mapách ** Jsou to letiště, základny i elektrárny ** Nejvíce míst tají Francie

Jakub Čížek | 21

Jakub Čížek
Mapy GoogleMapy
Jak se šíří Covid v Česku: Čerstvá data, mapy okresů a obcí. Každý den aktualizované grafy

Jak se šíří Covid v Česku: Čerstvá data, mapy okresů a obcí. Každý den aktualizované grafy

** Vývoj COVID-19 v Česku: nakažení, úmrtí, testovaní, hospitalizovaní ** Mapa podle okresů, přehled podle věku, situace v Evropě i ve světě ** Každý den aktualizované grafy a mapy

Marek Lutonský | 169

Marek Lutonský
COVID-19Koronavirus
Zanedlouho vyjde podzimní verze Windows 10. Podívejte se, co je nového
Vladislav Kluska
Fluent DesignAktualizaceWindows 10Operační systémy
Vyšel Windows 10 October 2020 Update. Poradíme, jak je stáhnout a co je nového
Vladislav Kluska
October 2020 UpdateWindows 10