VUT patří ke světové špičce v rozpoznávání řeči

Brněnské VUT patří mezi světovou špičku v rozpoznávání řeči. Aktuálně pracuje pro americkou vládní agenturu DARPA a propojuje akademický výzkum s byznysem.

„Tak to vážně nevím. Každopádně je to zvláštní, že se to děje zrovna v takovéto malé zemi,“ zamýšlí se s úsměvem Igor Szöke z Fakulty informatiky na Vysokém učení technickém v Brně nad tím, proč zrovna Česko plodí tolik výzkumníků a projektů souvisejících s rozpoznávání mluveného slova. Při rozhovoru v kavárně naproti škole se jen tak mimochodem zmiňuje o tom, že je teď zrovna u nich „někdo z Microsoft Research“ a ukazuje na kolegu, který „byl také na Stanfordu a pracoval pro tu firmu, která udělala Siri“.

Naučit stroje, aby uměly rozpoznávat lidskou řeč, a na základě toho vykonávaly zadané úkoly, je v současné době velikým trendem. Viditelné je to zejména u firem jako Apple, Google a Microsoft, jež své „umělé inteligence“ integrují přímo do mobilních operačních systémů (Siri a další), ale možnosti reálného využití jsou ještě daleko větší – zajímají se třeba armády, call centra a podobně. A právě Česko patří mezi velké tahouny celého oboru. Kromě VUT se výzkumy zabývají také na univerzitách v Liberci a Plzni a IBM v Praze provozuje vlastní výzkumnou laboratoř.

Mladý výzkumník působí velice skromně a namísto toho, aby okamžitě začal oslňovat úspěchy jednotlivých projektů, na kterých se podílel, se nejdříve novinářské návštěvy začne vyptávat na to, zda by žurnalisté dokázali v praxi využívat technologii automatického přepisu mluveného slova na text. Pečlivě si zapisuje zpětnou vazbu a prosí o šíření mezi kolegy.

To, co dělá Google

Igor Szöke se totiž společně se svými kolegy snaží o to, o co se příliš zdejších akademických výzkumníků nesnaží – přenést na univerzitě vytvořené technologie do reálného prostředí a vytvořit z nich produkt, o něhož budou mít zákazníci zájem. Takzvaný transfer technologií byl při jeho začátcích hodně velká životní zkušenost. „Vymysleli jsme si hromadu funkcí, o kterých jsme si mysleli, že je lidé budou chtít. Obrovsky jsme narazili a teď postupně zjišťujeme, že je lepší přijít s méně funkcemi, jednoduchým ovládáním a postupně pak dodělávat zbytek,“ popisuje Szöke svá zjištění.

Klepněte pro větší obrázek
Propojujeme univerzitu s byznysem. Igor Szöke z VUT FIT a SpokenData.com.

„To, co teď děláme, je v podstatě to samé, co dělá Google. Učíme se na obrovském množství uživatelských a specifických dat tak, aby se technologie mohla co nejlépe adaptovat,“ vysvětluje Szöke. To už popisuje projekt, který má být právě přenesením výzkumu na reálný trh. Během podzimu by měla být k dispozici aktualizovaná verze služby SpokenData.com, jejíž vize je jednoduchá: lidé si budou moci přes webový prohlížeč nahrát libovolné video či zvukový soubor a během chvilky dostat co možná nejlepší přepis textu. Vše půjde ovládat v jednoduchém editoru, a pokud na něco nebudou stačit stroje, postarají se o to najatí editoři.

SpokenData v současné době zvládá kromě angličtiny také češtinu, prozatím se však musí počítat s tím, že musí být pořízen kvalitní záznam zvuku – například přepis rozhovoru z hlučné kavárny je prozatím problém. Právě o tom je ono zmiňované učení se na specifických datech. „Můžeme tu technologii postupně naučit například na specifické vlastnosti diktafonů v mobilních telefonech, takže pak automaticky dojde k jejich rozpoznání a co nejlepší detekci zvuku,“ nastiňuje Igor Szöke.

Učení stroje takovýmto „kouzlům“ je poměrně náročná věc, zejména co se výpočetního výkonu týče. Na VUT nevytváří žádnou umělou inteligenci, která by jednoduše byla schopná, podobně jako lidský mozek, naučit se nové věci bez nějakého základu „tvrdých“ dat a informací. Ty se musí dodat a vše tedy funguje na principu „machine learning“.

Na VUT vyvinutý systém tak pracujeme s velkými databázemi zvukových .wav souborů, které jsou porovnávány s frázemi v textových .txt souborech. Tedy žádné in-memory databáze, Hadoop a další moderní vymoženosti, prostě adresáře se soubory. To všechno se děje na serverovém clusteru s 2500 procesorovými jádry, který na brněnské univerzitě postavili z velké části právě „řečaři“ za pomocí financování z fondů EU a akademického CESNETu.

Náročná čeština

Bez tohoto clusteru by údajně nebylo možné takto náročný výzkum provádět. „Světovou konkurenci jsme schopní překonat hrubým výpočetním výkonem,“ vysvětluje Szöke a poukazuje na to, že 120TB diskové pole je možné díky různým zvukovým vzorkům zaplnit během velice krátké chvilky. K trénování a cvičení stroje se navíc používají neuronové sítě. „Myslím si, že malá laboratoř s pár počítači a lidmi z tohoto důvodu nemá šanci,“ věří Szöke. Pronajímat si například cloud od Amazonu by bylo finančně rovněž velice náročné.

Klepněte pro větší obrázek
Do SpokenData.com jde přidat i video z YouTube, případně lze nahrát soubory z disku.

Jenže zatímco škola disponuje chytrými vědeckými mozky a technologiemi, s přenosem technologií do komerčního prostředí tradičně bývá problém. Je to dáno i tím, že v Česku ještě nestihla vyrůst potřebná kultura propojení akademického a komerčního světa, což vede například k legislativním starostem, či prostě střetem dvou odlišných myšlení. Na VUT proto z tohoto důvodu před několika lety vznikl prostředník, který začal výzkum do byznysu přenášet.

Výzkumná řečová skupina na brněnské škole vznikla zhruba před 10 lety a zprvu se soustředila na různé evropské projekty, třeba přepis mluveného slova na text ze zaznamenávaných schůzek a kulatých stolů. VUT na projektu spolupracovalo s univerzitou v britském Sheffieldu a postupně se začal formovat tým se specializací na takzvané složité prostředí – tedy žádné čisté zvukové záznamy ze studia, ale rušné nahrávky z veřejného prostředí a podobně.

Následně se výzkum rozšířil o další projekty. S velkým přišlo tuzemské ministerstvo obrany, které velice zajímaly telefonní hovory. Výzkumníci z VUT tak dostali zakázky, na základě kterých vytvořili technologii na rozpoznávání jazyků. Ministerstvo tak mohlo automaticky poznat, v jaké řeči se vede sledovaný hovor.

Díky tomu pak výzkumníci z VUT založili společnost Phonexia, jejíž hlavní úkolem bylo „vzít na škole vytvořené technologie, vytvořit z nich spustitelný a upravený program a ten následně přenést do komerčního prostředí“. Phonexia za užívání technologií platila licenční poplatky a škola tento projekt dodnes považuje za ukázku praktické přenosu technologií. Firma ostatně funguje do dneška a produkty na rozpoznávání řeči dodává například americkým tajným službám.

Na VUT se mezitím dostali k dalšímu projektu – ministerstvo vnitra potřebovalo technologii pro identifikaci řečníka. Díky tomu se na škole dostali k práci s českým jazykem. „Do té doby prakticky nebylo možné češtinou se zabývat. Potřebovali jsme projekt, který by se zaplatil, protože jenom nákup databáze jazykových vzorků vyjde i na milion korun,“ vzpomíná Szöke. „Čeština je navíc hodně náročná. Zatímco v angličtině stačí pracovat s 50 až 100 tisíci slovy, v naší mateřštině jsou to miliony.“

Lepší než Google

Na Fakultě informatiky už se tou dobou spustilo nahrávání přednášek, které si pak studenti mohli zpětně prohlížet online. Zvukoví výzkumníci proto své výzkumy češtiny aplikovali právě na tyto záznamy, díky čemuž dokázali automaticky přepsat text z přednášek a umožnit v něm vyhledávání.

Igor Szöke se postupně dal do spolupráce s Janem Všianským, jež založil a prodal úspěšnou společnost Lingea a nyní působí jako andělský investor. Vznikla tak firma ReplayWell, která funguje dodnes a provozuje projekt SuperLectures. Technologie umožňuje přepis řeči, vyhledávání v textu, synchronizaci „slajdů“ s přednáškami a tak dále. Typickým zákazníkem jsou různé konference, díky nimž SuperLectures vydělává a dokáže zaplatit start SpokenData, na němž se pracuje od letošního ledna.

SpokenData v současné době prochází zejména laděním a hledají se nejlepší možné obchodní modely. Igor Szöke a jeho tým spolupracují například s portálem mojemedicina.cz (a dalšími pilotními zákazníky). Tam je k dispozici velká databáze přednášek z různých zdravotnických akcí. Redakční systém portálu je přes aplikační rozhraní (API) napojený na SpokenData a jakmile se přidá nové video, SpokenData ho automaticky přeloží a vloží do databáze.

Vstup VUT FIT a ReplayWell do oblasti těchto služeb rozhodně nebude úplně jednoduchý. Podobná konkurence už totiž ve světě existuje a automatické titulkování videí nabízí na YouTube i Google. „Byla doba, kdy jsme YouTube rozpoznávali lépe, než samotný Google. Uměli bychom to i dnes, ale aktuálně se soustředíme na to najít ve SpokenData obchodní modely,“ věří si Szöke.

Zatímco Phonexia a ReplayWell nadále slouží jako „nástroje“ pro transfer z univerzitního prostředí do světa byznysu, na VUT se i nadále do práce s řečí zapojují noví studenti a pracuje se na projektech světového významu. „Aktuálně jsme se zapojili do projektu DARPA, což je agentura amerického ministerstva obrany,“ popisuje Szöke. „Pracujeme na technologiích pro identifikaci řečníka a řeči ve velmi těžkém prostředí,“ uzavírá.

Diskuze (21) Další článek: Crackovací programy dokážou nově odhalit i heslo s 55 znaky

Témata článku: Technologie, Byznys, Startupy, Lingea, Jednoduché vyhledávání, Zvuková technologie, Mladý výzkum, Úspěšný editor, SE, Americká škola, Český jazyk, Veřejné prostředí, Malý tým, VÚT, Mobilní telefony liberec, Náročné prostředí, Lidský mozek, Svět, Vyvinutý systém, Odlišné zjištění, Sheffield, Pilotní zákazník, Igor, Diktafony, Různé prostředí



Bude to o prsa. Facebook a Instagram pořád neví, kdy jsou zobrazené bradavky porno

Bude to o prsa. Facebook a Instagram pořád neví, kdy jsou zobrazené bradavky porno

**Meta má zjednodušit pravidla a být ke všem spravedlivá **Facebook s Instagram věnují samostatný odstavec bradavkám **Pravidla ale neřeší nebinární, transsexuální a intersexuální osoby

Petr Urban
InstagramFacebookSociální sítě
Za WhatsApp se bude platit! Za předplatné dostanete funkci, která je u konkurence zadarmo

Za WhatsApp se bude platit! Za předplatné dostanete funkci, která je u konkurence zadarmo

** Bylo to jen otázkou času ** Už i WhatsApp nabízí prémiové předplatné ** Za poplatek dostanete funkci, která je u konkurence zadarmo

Martin Chroust
předplatnéWhatsAppMobilní aplikace
Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

** Nelibí se vám, když cizí lidé okukují váš dům? ** Všechny mapové aplikace nabízejí možnost rozmazání snímku ** Máme návod pro Apple Maps, Bing Maps, Mapy Google a Mapy.cz

Karel Kilián
SoukromíNávodyMapy
Telefon jako kapesní skener v klubech. Vědci přišli se snadnou metodou pro detekci drog v nápojích

Telefon jako kapesní skener v klubech. Vědci přišli se snadnou metodou pro detekci drog v nápojích

** Drogy nasypané do nápojů jsou stále velkým problémem ** Jejich odhalení a dokázání je časově i technicky velmi náročné ** K detekci GHB v nápoji nově poslouží jakýkoliv smartphone

Martin Chroust
StudieDrogySmartphony
Šedý trh s předplatným se vymyká kontrole. Spotify, Netflix nebo Disney+ můžete mít doslova za pár korun

Šedý trh s předplatným se vymyká kontrole. Spotify, Netflix nebo Disney+ můžete mít doslova za pár korun

** Sdílení účtů mezi kamarády je jen začátek ** Dnes letí nákupy předplatných v Indii nebo na Aliexpressu ** Superlevné „netflixy“ ale mohou nakonec spíš škodit

Lukáš Václavík
PředplatnéNetflixSpotify
Návod, jak dostat maximum z Peněženky Google

Návod, jak dostat maximum z Peněženky Google

Služba Google Wallet (Peněženka Google) schlamstla před několika měsíci platební aplikaci Google Pay. Díky tomu se původní platforma rozrostla o další funkce. Je zde však i prostor pro zlepšení.

Jan Spěšný
Pět důvodů, proč si nekupovat bezdrátová Bluetooth sluchátka. A dva důležité, proč ano

Pět důvodů, proč si nekupovat bezdrátová Bluetooth sluchátka. A dva důležité, proč ano

Bezdrátová sluchátka jsou skvělá. Ale mají i spoustu nevýhod, o kterých byste měli vědět a připravit se na ně.

Jaromír Puk
Sluchátka
Co s novým počítačem: Tohle udělejte, než ho začnete používat

Co s novým počítačem: Tohle udělejte, než ho začnete používat

**Každý nový počítač si zaslouží počáteční péči **Odinstalujte bloatware a nezapomeňte na vhodné nastavení **Poradíme, jaký software do nového počítače nainstalovat

Petr UrbanDavid Polesný
TipyPočítače
Recenze hry One Piece Odyssey. Trhlí piráti na nepříliš zajímavém dobrodružství

Recenze hry One Piece Odyssey. Trhlí piráti na nepříliš zajímavém dobrodružství

One Piece Odyssey zachycuje věrně obrazový styl a potřeštěnost knižní předlohy, ale jen s obtížemi dokáže zaujmout hráče tímto svérázným pokusem o akční RPG.

Michal Polok
One Piece OdysseyRecenze