Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

Vyhledávač Seznamu na pozadí roste. Cluster už má 2,5 PB, robot miliardu dokumentů, ve špičce zpracovává 600 dotazů za sekundu a výrazně roste i mobilní hledání.
Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

I když by se mohlo zdát, že aktivity a čísla ve vyhledávači Seznamu budou spíše klesat, opak je pravdou. Největší tuzemská internetová firma stále v této oblasti dle odhadů drží zhruba poloviční podíl na trhu, představila nový vzhled vyhledávání a znatelný růst je možné sledovat také na pozadí. Tam sice žádné novinky prozatím představeny nebyly, přenosy a databáze nicméně bobtnají.

Celý vyhledávací cluster Seznamu už má 2,5 petabytů a na úložném systému je kolem miliardy dokumentů z vyhledávacího robota. „Chtěli bychom jít až na miliardu a půl,“ říká pro Connect.cz šéf vyhledávacího týmu v Seznamu Marek Gizela. Z těchto souborů se pak dělá selekce. V samotném indexu je zhruba 800 milionů dokumentů.

Vyhledávač Seznamu zaznamenává nárůst také v počtu hledání ze strany uživatelů. Zatímco ještě před rokem se ve špičce odbavovalo 500 dotazů za sekundu (mimo špičku 350), dnes už je to 600 dotazů. „Čísla teď ještě neřeknu, ale signifikantní nárůst zaznamenáváme na mobilních zařízeních,“ doplňuje Gizela.

Vyhledávání Seznamu by v budoucnu mohlo mít problém z toho důvodu, že na rozdíl od Googlu nemá žádnou vlastní mobilní platformu, kde může své služby nastavovat jako výchozí. To je jeden z hlavních důvodů toho, proč společnost vydala vlastní a zdarma dostupný webový prohlížeč pro Android a v budoucnu vydá i verzi pro iOS.

Přes 600 serverů

Seznam v posledním roce přidal do vyhledávacího clusteru 120 nových serverů, vyhledávač už tak funguje na zhruba 620 strojích. Navýšen byl i počet lidí, kteří se o vyhledávání starají – k sedmdesátce vývojářů, výzkumníků, testerů a podobně přibylo dalších 25.

Klepněte pro větší obrázek
Vlastní mobilní webový prohlížeč uvedl Seznam mimo jiné proto, že nemá mobilní platformu.

Samotnému vyhledávání stále dominuje především jazyk C++, u robota nicméně Seznam přešel na Javu, mimo jiné z toho důvodu, aby mohl lépe pracovat s daty. K tomu firma přidala i ukládání velkých dat do Hadoopu. „S ním jsme se tak dva roky učili pracovat a děláme si vlastní úpravy. Teď už Hadoop celkem zvládáme a otevřel se nám díky němu velký prostor pro zlepšování,“ popisuje Gizela.

Seznam má zřejmě největší Hadoop databázi v Česku a svá vlastní vylepšení se snaží vracet zpět open source komunitě. „Samozřejmě ne vše je přijato,“ říká Gazela. Platforma pro ukládání velkých dat Seznamu pomáhá zejména v jejich zpracování. „To, co dříve trvalo zpracovat týdny, dnes zvládneme třeba za 3 dny.“

Firma v tomto ohledu testuje také zpracování dat v operační paměti (in-memory), ne vše jí ale vzhledem ke specifickým a vlastním systémům vyhovuje. „Paměť by zřejmě některé naše procesy urychlila, některé ale ne, protože je proháníme přes procesor,“ vysvětluje šéf „seznamáckého“ vyhledávacího týmu. Více o Hadoopu a velkých datech v Seznamu v našem brzkém článku.

Seznam spustil vlastní zahraniční vyhledávání. V porovnání s Googlem nemůže obstát, podle Gizely je ale výběr stránek přizpůsoben požadavkům a nárokům typických uživatelů Seznamu. Vlastní systém zahraničního hledání má každopádně ten efekt, že po jeho nasazení začal klesat počet hledání přes Bing, se kterým Seznam v zahraničních datech spolupracuje. Větší spoléhání na vlastní síly je logické. I když Microsoft ve Spojených státech svůj vyhledávač neustále vylepšuje a mnohdy je skutečně povedený, v Evropě se prakticky nic nemění a kvalita je pochybná.

Spolupráci zdejší obr volí také v případě obrázků, jež zajišťuje Picsearch. Zde i Seznam tvrdí, že není vše úplně ideální. „Prozatím máme na obrázky stále Picsearch, ale do budoucna nebudu nic vylučovat,“ naznačuje Gizela. Na vyhledávání videí jeho firma spolupracuje zase s ruským Yandexem.

Diskuze (11) Další článek: Nový Avast! 2014: kompletně přepracovaný strážce bezpečí

Témata článku: Seznam.cz, Vyhledávače, Vyhledávač, Růst, Typický uživatel, Výchozí vyhledávání, Výchozí vyhledávač, Internetová firma, Seznam TV, Samotný tým, Velký počet, Yandex, Poloviční paměť, Selekce, Vyhledávání, Mobilní vyhledávání, Seznam, Mimo


Určitě si přečtěte

Kdyby měli železničáři tento superpočítač za 99 dolarů, nepotřebovali by lasery

Kdyby měli železničáři tento superpočítač za 99 dolarů, nepotřebovali by lasery

** Nejmodernější český železniční tunel je prošpikovaný technologiemi ** Za tři tisíce koupíte počítač, který je překoná ** Seznamte se s Nvidia Jetson Nano

Jakub Čížek | 47

Raspberry Pi 4 Model B: Raketa za tisícikorunu, která utáhne dva monitory

Raspberry Pi 4 Model B: Raketa za tisícikorunu, která utáhne dva monitory

** Britové před pár dny představili nové Raspberry Pi 4 Model B ** Nový čipset má dost výkonu na dva HDMI monitory ** Za tisícovku získáte počítač na základní práci

Jakub Čížek | 79

Co zabírá nejvíce místa na disku? Těchto 10 nástrojů odhalí největší žrouty dat

Co zabírá nejvíce místa na disku? Těchto 10 nástrojů odhalí největší žrouty dat

** Je vhodné jednou za čas zanalyzovat, co vám leží na disku ** Poradíme vám nástroje, kterými zjistíte, jaká data uchováváte ** Podle výsledků můžete optimalizovat svá data či úložiště

Karel Kilián | 47

Windows 10 po čtyřech letech: Jsou populární, ale stále je to šílený kočkopes

Windows 10 po čtyřech letech: Jsou populární, ale stále je to šílený kočkopes

** Windows 10 tu jsou už čtyři roky, první verze dorazila 29. 7. 2015 ** Desítky měly nahradit neúspěšnou řadu Windows 8.x ** I po letech však systém budí emoce a zůstává kočkopsem

Jakub Čížek | 110