Česká technologie Eyedentity rozpozná obličeje teroristů, ale poradí si i s modely aut [rozhovor]

  • Eyedea Recognition začal jako školní startup tří kluků z ČVUT se specializací na rozpoznávání obrazu
  • Technologie Eyedentity používá i Europol pro detekci nebezpečných osob
  • Jaké jsou s tím spojené problémy a co nás čeká v budoucnu?

Využívání strojového učení k rozpoznávání obrazu není žádnou novinkou a dnes jsme touto technologií doslova obklopeni ze všech stran – v rámci sociálních sítí, aplikací, mobilních telefonů, fotoaparátů a podobně.

Výzkum rozpoznávání obrazu od tří kluků z katedry kybernetiky ČVUT ale začal už v roce 2004, přičemž v roce 2006 si založili dohromady společnost s desetiprocentním podílem univerzity.

Vize byla jasná – počítačové „vidění“, ve kterém viděli budoucnost a vše začalo prvním produktem, který se zaměřoval na čtení SPZ.

Po automatickém čtení SPZ je stále poptávka

I když už je to téměř deset let, v oblasti prvního produktu společnosti Eyedea Recognition – rozpoznávání státních poznávacích značek, je stále co zlepšovat. To, co začalo jednoduchým rozpoznáváním pro konkrétní zemi a v konkrétním formátu značky, je dnes univerzální řešení, které si poradí s různými zdroji dat.

K SPZ už je pochopitelně kousek i k rozpoznávání výrobce samotného Klepněte pro větší obrázekautomobilu a v nejnovější verzi už dokonce dochází k detekci i konkrétního modelu auta a barvy. Systém funguje s různým hardwarem a poradí si tak s různou kvalitou snímků. Pokud jde o typické rozlišení kamer, které jsou používané u silnic, tak ironií je, že je nižší než u mnohých moderních smartphonů – od 0,5 MPix až 2 MPix. Typickým standardem je 1 000 × 1 000 pixelů.

Podle zakladatele a ředitele Martina Urbana ale rozlišení není v případě silničního provozu to hlavní, mnohem důležitější je schopnost vyrovnávat expozici, ostrost a poradit si tak s proměnlivým světlem od rána až do večera.

A pro tyto případy jsou používané kamery připravené. Celý proces funguje tak, že o vyfocení se stará samotný kamerový systém, rozpoznávání je dodatečné řešení právě od Eyedea Recognition, která na začátku pouze přijímá fotografii a na výstupu dodá všechny informace a tagy.

Frameworků pro rozpoznávání obrazu je hodně

Pokud jde o rozpoznávání obličejů a obecně využívání strojového učení, existuje mnoho frameworků, které jsou navíc open source. Liší se ale často nejen zaměřením, ale především kvalitou a efektivitou. Eyedea Recognition sice ještě nezkoušela nový TensorFlow od Googlu, ale dle vyjádření používá už osvědčený framework pro deep learning – Caffe.

Jak Martin Urban upozornil, problém je, že musí využívat řešení na vlastních serverech, protože obvykle trénují systém na citlivých datech od externích dodavatelů, která nemohou jen tak nahrát na nějaký cloud. Každopádně pokud jde o samotné využívání produktu třetími stranami, které používají software pro rozpoznávání a sami si tak vytváří biometrické údaje pro vlastní použití, musí daná společnost jednat s výsledky jako s citlivými údaji.

Eyedea Recognition ale nabízí produkt i v oblasti anonymizace, kde spolupracuje například se Seznam.cz, kterému dodává systém pro rozmazávání obličejů na fotografiích z Mapy.cz.

Základní tři produkty – auta, obličeje a identita

Společnost nabízí tři hlavní produkty – o systému rozpoznávání značek a automobilů jsme popsali výše. Druhým důležitým produktem je rozpoznávání tváří, které se v průběhu let také postupně vyvíjelo.

Vše začalo s jednoduchou a rychlou detekcí umístění obličeje na snímku, později se přidaly další charakteristiky jako například věk nebo pohlaví. Určení pohlaví z obličeje je relativně jednoduché na rozpoznávání, problém je pouze u menších dětí, kde ale mají stejně problém i lidé.

Klepněte pro větší obrázek
Martin Urban a detekce obličeje pomocí Eyedentity

Typickými klienty v této oblasti jsou třeba reklamní agentury, které chtějí vědět, jaký profil lidí se pohybuje kolem reklam na displejích. S těmito informacemi dokážou v reálném čase upravovat typ reklamy a dosáhnout tak lepšího cílení pro jednotlivce i skupiny.

K této vrstvě došlo k finálnímu vylepšení, které rozpoznává konkrétní identitu člověka dle dostupné databáze. Tento případ je typicky použitelný právě pro bezpečnostní účely jednotlivých států například na letištích a dalších kritických místech, kde je potřeba rychle zjistit přítomnost nebezpečného či hledaného člověka.

Správná detekce se pochopitelně odvíjí od kvality zdrojových fotografií v databázi, například pasové fotografie jsou obvykle velmi kvalitní a mají poměrně jasnou specifikaci. Díky tomu dokáže systém rychle a efektivně vyfiltrovat pro analytiky případné shody.

Ve výsledku tak systém slouží pro usnadnění práce, kdy se lidští analytici zabývají už předfiltrovaným vzorkem podezřelých lidí, kterých už je mnohem menší počet. V lidských možnostech není možné porovnávat například shodu s milionem fotografií v reálném čase, počítač to zvládne relativně snadno a s poměrně nízkou chybovostí.

Učení je těžší, ale porovnávání zvládne i notebook

První fází celého systému (kromě přípravy obrazových sad pro rozpoznávání identity) je výpočet deskriptoru, který na několika grafických kartách zabere maximálně několik dní a je tak nejnáročnější fází. Záleží na výkonu, v tomto případě je efektivní použití grafických čipů, které jsou rychlejší než obecné procesory.

Klepněte pro větší obrázek
Software Eyedentity je určen hlavně jako pomocný nástroj pro analytiky

Jak ale ukázal Google s vlastním hardwarem pro TensorFlow, dokáže být ještě mnohonásobně efektivnější než nejlepší grafický čip na trhu. V tomto směru se tak dočkáme pravděpodobně ještě velkých změn, pomocí čeho a jak efektivně se hluboké neuronové sítě budou učit. Učení je totiž takřka neustálé a s každým kolem dochází k mírnému zlepšení modelu.

Samotné porovnávání už je jednoduché a v reálném čase běží i na běžném notebooku, který má většina z nás doma nebo v práci. Deskriptor jedné tváře trvá na zpracování 50 až 300 ms na procesoru, u grafickém čipu jde pak o jednotky milisekund (1-5 ms). Těžší je detekce polohy obličeje v celém snímku, protože záleží na jeho rozlišení a jak malé obličeje chcete hledat. Na běžném notebooku jde o rychlost zpracování kolem 15 snímků za sekundu.

Dřívější matematická kouzla nahradila černá skříňka

Jak popisuje Martin Urban, zatímco dříve byla práce s rozpoznáváním obrazu a obličejů o matematice, postupné hierarchii a kompenzaci, otáčení stínů, obličejů, složitém programování všech těchto částí, poslední roky se to téměř zcela zrušilo.

Klepněte pro větší obrázek
Eyedea Recognition tvoří relativně malý tým, který je složen hlavně z vývojářů

Nyní už je více méně jedna vrstva, která vyřeší všechno. To, co dříve složitě konstruoval člověk, teď hluboké neuronové sítě vyřeší samy a mnohem lépe, než to dříve zvládali udělat lidé. I když je možné stále částečně ovlivňovat výstup, vnitřek systému je vlastně taková černá skříňka, do které „nikdo nevidí“. Vše vyřeší a naprogramuje sama dle vstupů a nastavení.

Rozpoznávání zákazníků v obchodě jako budoucnost?

Jako jedna z možností, kde by podobný systém bylo možné využít jinak než k hledání teroristů, jsou třeba obchody a rozpoznávání zákazníků. Kromě zmíněného marketingového použití, například pro podrobnější statistiky o návštěvnících a se svolením o využívání údajů také třeba na konkrétní slevy a bližší propojení s daným zákazníkem.

Pokud by třeba pan Tomáš každý den chodil kupovat rohlíky, může mu obchod nabídnout jeden den slevu přímo pro něj a podobně. Podle slov Martina Urbana s tím ale souvisí problémy s využíváním soukromých dat a odsouhlasení od zákazníka.

Kdo ví, třeba se jednou dočkáme plakátů na dveřích obchodů, které budou oznamovat, že vstupem do obchodu souhlasíte s podmínkami a se sledováním s využíváním nasbíraných dat o vaší osobě.

Diskuze (5) Další článek: Rok 2017 bude o něco delší. Přestupná sekunda opět postraší systémy

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,