Jak Češi dolují a rozpoznávají data a tvoří nový trh

Brand Embassy je další z mladých českých firem, které dolují data z internetu a sociálních sítí a analyzují je. Používané technologické zázemí je proto velmi zajímavé.
Jak Češi dolují a rozpoznávají data a tvoří nový trh

Pro rychle rostoucí českou společnost Brand Embassy je vývoj jejich softwaru cestou po polích neoraných. Startup, který analyzuje data z webu a sociálních sítí tak, aby díky nim šlo poskytovat rychlou zákaznickou podporu, v podstatě formuje zcela nový trh a naráží díky tomu na věci, na které ještě nikdo nenarazil. „Říká se, že na každý problém je odpověď na internetu. V našem případě to často není pravda,“ tvrdí v rozhovoru pro Connect.cz technologický šéf společnosti Damián Brhel.

„Zákaznická péče na sociálních sítích je oblast, která se teprve vytváří a formuje. To znamená, že spousty cest šlapeme jako první a různé problémy rovněž řešíme jako první,“ pokračuje Brhel. Technologie Brand Embassy, kterou je možné si pořídit jako cloudovou službu za pravidelný poplatek, umožňuje firmám a značkám monitorovat sociální sítě a web a rychle z jednoho místa odpovídat na případné dotazy a stížnosti zákazníků. Je to takové novodobé call centrum, se kterými se mimochodem Brand Embassy snaží postupně integrovat. Stejně tak postupně dochází k integraci sémantických nástrojů, jež firma získala po loňském odkupu startup Beepl.

Brand Embassy tak, podobně jako rovněž čeští Socialbakers, vysílají do internetového světa své vlastní „roboty“, kteří sbírají data pro jejich další zpracování. Tito roboti musí umět posbírat data v diskusních fórech, na blozích a sociálních sítích jako jsou Facebook či Twitter, a chytré mechanismy za nimi jim pak dají kontext. „K monitoringu sociálních sítí a internetových diskuzí využívá Brand Embassy také externí partnery, mimo jiné nástroje Ataxo Insider nebo Brandwatch.“

Jde o rychlost

„Rychle rosteme, takže se čísla postupně mění, nicméně v současné době každý den ze sociálních sítí nasbíráme kolem 30 GB dat,“ popisuje technologický šéf Brand Embassy. To je i v růstové fázi úctyhodné číslo. Je totiž nutné vzít v potaz, že takto nasbíraná data jsou v podstatě pouze text, který sám o sobě příliš velký není. I přesto ale objem přenesených dat nehraje tu zásadní roli.

Klepněte pro větší obrázek
Šlapeme novou cestu. Technologický šéf Brand Embassy Damián Brhel.

„Nás objem spočívá především v komunikaci,“ upřesňuje Damián Brhel. „Důležitá je v prvé řadě rychlost. Tedy to, jak rychle dokážeme daný vzkaz ze sociální sítě doručit. Záleží na sekundách a minutách, rychlost reakce je zásadní.“ Brand Embassy sleduje data z Facebooku a Twitteru prakticky v reálném čase, jen na Facebook se každý den odešlou 2 miliony dotazů. Dolování dat z obou sítí je ale trochu odlišné.

V případě Twitteru je možné se napojovat na veřejné aplikační rozhraní (API), které díky takzvané „push“ notifikaci doručuje data automaticky hned, jak se objeví. U Facebooku se pak monitoring nasazuje na stránky jednotlivých klientů. Brand Embassy si z Facebooku bere pouze veřejně dostupná data. „Problém je v tom, že Facebook umožňuje nastavení různých úrovní soukromí a s tím dost bojujeme,“ říká Brhel. Problém představuje i to, že obě sociální sítě jsou velké firmy a někdy je s nimi těžší komunikovat. „Mnohdy se dostáváme k problémům, které sami nemůžeme řešit a Facebook ani neoznámí, zda je to cíl, nebo zda jde o chybu.“ Český startup už nicméně pracuje na tom, aby se dostal, opět podobně jako Socialbakers, do užšího partnerství s Facebookem.

Aby bylo možné data rychle zpracovávat a doručovat, z velké části se s nimi pracuje v paměti. „Spoustu dat, které v následujících 3 hodinách použijeme, držíme v operační paměti,“ popisuje Brhel. Brand Embassy si tak částečně hraje s in-memory konceptem, i když to není tradiční pojetí, které je možné sledovat u Oraclu či SAPu. Jakmile se data posbírají, udělá se nad nimi analytika a následně jsou uloženy do paměti serverů a na storage. Nad samotnými daty je postavená „cache“ vrstva a hodně dat se pak distribuuje z ní.

Vyslanci z cloudu

Hlavním úložištěm pro velké množství získaných nestrukturovaných dat je Elasticsearch. V Brand Embassy se pro tento relativně mladý projekt, který používají například firmy jako Foursquare, GitHub či SoundCloud, rozhodli před půl rokem a technologické postupy konzultují přímo s tvůrci. Tradiční strukturovaná data se pak ukládají do MySQL.

Brand Embassy bylo od začátku postaveno pro chod na cloudové infrastruktuře. Firma si tak spouští virtuální servery (VPS) na cloudu společnosti GoGrid, přičemž těchto VPS v současné době provozuje už několik desítek. Na virtuálních strojích pak běží takzvaní „workeři“ – tedy zmiňovaní roboti, kteří „chodí do světa“ sbírat data. Provoz je v současné době obstaráván v datovém centru v Amsterodamu, ještě letos se má ale rozšířit také do Spojených států. „Je to mimo jiné kvůli tomu, že se tak lze lépe bránit DDoS útokům,“ vysvětluje Brhel.

Provoz v cloudu je podle technologického hlavouna Brand Embassy výhodný v tom, že je dynamický a je možné jednoduše získat výkon a nové systémové prostředky. O jednoznačné finanční výhodě, jak je často ve spojitosti s cloudy předkládána, ale úplně přesvědčený není. „Myslím, že bychom službu dokázali postavit také bez veřejného cloudu na vlastním hardwaru. Sice by tam byla počáteční investice do infrastruktury, ale ta by se mohla do 2 let vrátit.“

Úvahy o tom, že by nadějný český projekt přešel z cloudu na vlastní hardwarovou infrastrukturu, jsou tak na místě v případě, že by se provoz stal příliš drahým. „Technologicky nám cloud stačí. Moment, kdy bychom ho chtěli opustit, je ten, kdy už by stál prostě moc,“ říká Brhel. Firma zvolila GoGrid mimo jiné i díky doporučení dnes již koupeného Beeplu, dostává nicméně i další nabídky, například z české pobočky IBM.

Staré dobré PHP a Python

Novodobé internetové společnosti pracující s různými typy velkých dat často opouští tradiční zavedené technologie a využívají nové typu Node.js a podobně. V Brand Embassy však zůstávají i zavedeného PHP, jenž pohání jak front-end, tak back-end. Ve spodní části se k němu připojuje ještě Python, mimo jiné i kvůli dobrým knihovnám a podoře lingvistické analýzy, kterou společnost potřebuje kvůli postupnému zavádění sémantického rozpoznávání významu textů na webu.

„Python má, stejně jako PHP, spousty nedostatků dané tím, že obě technologie byly navrženy už docela dávno. Na druhou stranu už ale s oběma jazyky umíme už dlouho a umíme se přes ony nedostatky překlenout,“ komentuje Brhel. „Navíc je zde hodně lidí, kteří PHP a Python umí.“

PHP má ale také další výhodu – podporu Facebooku. „V tom vidíme vizi. Facebook bude pořád tlačit na PHP nástroje a na efektivitu tohoto jazyka. Musí to dělat, má v této infrastruktuře miliony až miliardy dolarů,“ nastiňuje mladý technologický šéf. Brand Embassy je navíc připraveno v případě nutnosti současný kód převést do jazyka C díky službě HipHop, jíž podporuje právě Facebook. „A v ten moment veškeré načítání a podobně spadne o 80 procent.“

Produktový tým Brand Embassy má v současné době 7 programátorů, postupně se ale budou nabírat další. S jejich sháněním údajně není problém. „Lidé dnes utíkají z korporací do menších firem. Navíc startupů v Česku je sice hodně, těch úspěšných jako my ale zase tolik ne,“ myslí se Brhel. Vývojářů, kteří by u nás uměli pracovat například se zmiňovaným Elasticsearchem prozatím tolik není, Brand Embassy ale nemá problém se zaučením.

Práce pro technologický tým rozjeté firmy bude v budoucnu dost. „Máme nápady minimálně na další rok a vývoj zdaleka nekončí,“ tvrdí Damián Brhel. Je to dané nejenom tím, že se oblast zákaznické podpory přes sociální sítě postupně standardizuje, ale rovněž tím, že nyní probíhá integrace s Beeplem a Brand Embassy rovněž pracuje na integraci se současnými systémy tradičních call center.

Právě Beepl a sémantika může představovat novou zajímavou výzvu. „Pracujeme na základě machine learningu, kdy stroj naučíme nějaké data sety,“ vysvětluje Brhel. „Druhý přístup je matematický. To se váží významy slov na základě údajů, které se dají získat třeba z internetu. Zatím jsme v experimentální fázi, ale brzy to chceme dotáhnout do konce.“

Diskuze (21) Další článek: MSI na Computexu: i nadupadné herní notebooky mohou být tenké

Témata článku: Technologie, Cloud, Sociální sítě, Programování, Startupy, Dol, Nový, Velký objem, Mimo, Trh, Sociální síť, Nový trh, SE, Pravidelný poplatek, Úctyhodné číslo, Startup, Možný problém, Jak, Externí partner, Sata, Jimi, Brandy, Ono, Velký problém, Elasticsearch


Určitě si přečtěte

Není jen Flightradar: Našli jsme další aplikace pro sledování letadel, některé ukážou i víc

Není jen Flightradar: Našli jsme další aplikace pro sledování letadel, některé ukážou i víc

** 8 služeb pro sledování leteckého provozu ** Nejznámější je Flightradar24, ale alternativy leckdy prozradí více ** Letadla i v této pohnuté době čile létají a je co pozorovat

Karel Kilián | 14

Nvidia představila grafické karty GeForce RTX 3090, RTX 3080 a RTX 3070. Známe české ceny

Nvidia představila grafické karty GeForce RTX 3090, RTX 3080 a RTX 3070. Známe české ceny

** Nvidia uvedla nové desktopové grafické karty GeForce RTX 3000 ** Jedná se o modely GeForce RTX 3070, 3080 a 3090 ** K výrobě se používá 8nm technologii od Samsungu

Karel Javůrek | 67

AMD Ryzen 5000 s architekturou Zen 3: počet jader zůstává, výkon rekordně roste

AMD Ryzen 5000 s architekturou Zen 3: počet jader zůstává, výkon rekordně roste

** AMD představilo novou generaci desktopových procesorů řady Ryzen 5000 ** Nová architektura Zen 3 přináší mnoho vylepšení a přibližně 19% zvýšení výkonu IPC ** Všechny modely budou v prodeji 5. listopadu

Karel Javůrek | 42

10 věcí, které nás štvou na Windows 10 a bohužel asi jen tak nepřestanou

10 věcí, které nás štvou na Windows 10 a bohužel asi jen tak nepřestanou

** Windows 10 je na trhu 5 let, ale pořád má velké rezervy ** Ani desátá velká aktualizace, která vyjde na podzim, je nevyřeší ** Štvou nás Windows Update, Store, Nastavení atd.

Lukáš Václavík | 147

Podívejte se, co dokáže vyrobit jedna z nejexotičtějších 3D tiskáren v Česku

Podívejte se, co dokáže vyrobit jedna z nejexotičtějších 3D tiskáren v Česku

** Na jaře tiskla unikátní české respirátory ** Používá ji třeba Škoda Auto, a.s. ** Zajeli jsme se podívat do pražského showroomu 3Dees

Jakub Čížek | 12

20 let nám vědci slibují revoluční baterie, ale revoluce se pořád nekoná

20 let nám vědci slibují revoluční baterie, ale revoluce se pořád nekoná

** Technologie baterií se stále zlepšuje, ale žádné revoluce se nekonají ** Nejpopulárnějším typem baterií je Li-ion ** Efektivní baterie se stávají důležitější s příchodem elektromobilů

Karel Javůrek | 101