Jak se v Praze o víkendu hackovala big data

Fenomén hackathonů si razí cestu Českem. Tentokrát došlo na (možná i velká) data. Datasety od CCS, Avastu, 1188, Geewy či České spořitelny přilákaly hodně lidí.

O velkých datech koluje poměrně hodně sarkastických vtipů. Příklad za všechny: každý o nich mluví, ale nikdo je nikdy neviděl. Tento víkend ale big data k vidění byla. Možná nemusela být zase tak „big“, záleží na definici, ale data, se kterými si lze různě hrát a vyvozovat jejich analýzou výsledky, to byla. A dokonce se zdá, že o tuto oblast je skutečně nemalý zájem, i ze strany žen.

Do smíchovského technologického centra TechSquare tento víkend dorazilo zhruba kolem stovky lidí, kteří v rámci takzvaného hackathonu projevili zájem si s daty pohrávat. Organizátoři původně hlásili přihlášené téměř dvě stovky účastníků, jejich počet se ale přes náročný víkend vykrystalizoval. I tak ale reálná čísla jasně překonala další hackathony, kterých se v Česku objevuje čím dál více.

Celá ta věc kolem dat stojí na podstatě, že firmy, organizace i státní instituce během svého běžného provozu v rámci IT systémů, sítí či webů generují veliké množství informací. Ty dost často leží ladem, přitom po jejich analýze lze z celkového balíku získat zajímavé údaje. Pomocí správné interpretace pak lze zlepšit prodeje, ušetřit za provoz a energie, lépe organizovat práci, efektivně řešit zásobování, poskytnout lepší služby občanům a tak dále.

Lukrativní balíky dat

Mnoho firem už se o práci s daty nějakou dobu snaží, ne všude se to ale daří a ne všude se najde dostatek kvalitních lidí. I proto se Enterprise Data Hackathon jevil jako dobré místo, kam svá data vypustit a nechat lidi z nich něco získat. Zájemci tak měli k dispozici datové sety (datasety) od společností jako Česká spořitelna, Geewa, Avast, 1188, CCS, Seznam či Energomonitor.

Klepněte pro větší obrázek
Síla skrytá v datasetech.

„Dat máme hodně a rádi bychom s nimi více pracovali. Nebyl tedy problém je zabalit do anonymizované podoby a nechat zájemce, aby v nich něco našli. Výsledek pro nás může sloužit jako odrazový můstek, inspirace, ale samozřejmě také jako lov talentů,“ zmiňují se oslovení zástupci společností. Na podobném principu se ostatně některé velké firmy snaží pracovat s univerzitami. Třeba ČVUT na základě anonymních dat pro zejména finanční instituce vyvíjí různé algoritmy.

Velká část účastníků jasně zmiňovala jednu zásadní věc: největší kus práce zabere takzvané čištění dat tak, aby dostala nějakou strukturu, standard a bylo možné je pohodlně analyzovat.

A hodně lidí také přišlo, aby se seznámilo s novými softwarovými nástroji pro zpracování dat. K dispozici byly technologie jako GoodData, Google Cloud Platform, SAP HANA, Azure, BigQuery, R, BigML, Vertica či poměrně exotické a mladé věci jako CartoDB či IPython Notebook. Co je zajímavé, sem tam se objevila práce s MS SQL, ale Oracle tam nebyl žádný.

Odpověď je jasná: číslo 42

„Analyzoval jsem tisíce řádků a sloupků v databázi a zcela určitě jsem zjistil to, co Avast o svých datech neví,“ popisuje jeden z účastníků. Poměrně šílenou a kreativní metodou se mu v datasetu od české antivirové společnosti se mu podařilo dojít k jedinému číslu, a sice 42. V tom jistě budou ilumináti.

Klepněte pro větší obrázek
Pár lidí odpadlo, ale celkově se zdá, že data v Česku táhnou.

Ostatní výsledky ale ukazují, jaký potenciál se v hromadě dat skrývá. Zajímavá byla zejména analýza volajících na linku 1188. Třízením informací bylo možné zjistit, co a kdy jaký zákazník po operátorech chce vyhledat (vše se samozřejmě hodně točilo kolem sexu), kolik času operátoři mluví a jak jsou efektivní, kolik lidí a jak dlouho jsou ochotní čekat, než operátor telefon zvedne a tak dále.

Data z CCS zase umožnila najít tržní podíly jednotlivých řetězců čerpacích stanic, to, jak firmy dle velikosti nejvíce utrácí za benzin či naftu, a kdy se nejvíc a nejmíň pohonné hmoty nakupují.

Karlínská firma Geewa vydělává na provozování her pro Facebook a mobilní zařízení a je živá především z náruživějších uživatelů, kteří jsou ochotní například utratit nějaký ten dolar za koupi lepšího tága ve virtuálním kulečníku. V tomto případě je analýza uživatelů zásadní. Tým, který si na hackathonu tento dataset vybral, analyzoval nově příchozí hráče a pomocí BigQuery, BigML či RapidMineru zjišťoval, proč někteří skončí a někteří ne. S tím pak lze dále pracovat.

Data do hry přináší také internet věcí. Energomonitor je chytré zařízení pro měření elektrické energie, které pak okamžitě posílá přehledné výsledky do cloudu a webového prohlížeče. Analyzovaný dataset ukázal heatmapu a to, jak se na spotřebě podílejí jednotlivé spotřebiče.

Celá oblast velkých (i menších) dat se jeví lukrativně také pro Evropskou unii, která nyní ve spolupráci s firmami z oboru pošle na podporu této branže 2,5 miliardy eur na investicích. Rozjíždí se také tuzemský zájem o hackathony. Po aktuálním Enterprise Data Hackathonu se brzy v Praze představí také hardwarový hackathon a další ročních Czech Hackathonu.

Témata článku: Technologie, Reportáže

7 komentářů

Nejnovější komentáře

  • Petr Galansky 22. 10. 2014 22:56:41
    "Tým, který byl nakonec vyhlášen vítězem hackathonu, zjistil mimo jiné, že...
  • Petr Simecek 21. 10. 2014 8:34:55
    Tohle je trochu smutnej článek od autora, kterej na akci ani nebyl natož...
  • ales dana 20. 10. 2014 21:16:23
    Tak to docela nechapu, ze by CCS nemela akove prehledy davno...
Určitě si přečtěte