Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

Vyhledávač Seznamu na pozadí roste. Cluster už má 2,5 PB, robot miliardu dokumentů, ve špičce zpracovává 600 dotazů za sekundu a výrazně roste i mobilní hledání.
Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

I když by se mohlo zdát, že aktivity a čísla ve vyhledávači Seznamu budou spíše klesat, opak je pravdou. Největší tuzemská internetová firma stále v této oblasti dle odhadů drží zhruba poloviční podíl na trhu, představila nový vzhled vyhledávání a znatelný růst je možné sledovat také na pozadí. Tam sice žádné novinky prozatím představeny nebyly, přenosy a databáze nicméně bobtnají.

Celý vyhledávací cluster Seznamu už má 2,5 petabytů a na úložném systému je kolem miliardy dokumentů z vyhledávacího robota. „Chtěli bychom jít až na miliardu a půl,“ říká pro Connect.cz šéf vyhledávacího týmu v Seznamu Marek Gizela. Z těchto souborů se pak dělá selekce. V samotném indexu je zhruba 800 milionů dokumentů.

Vyhledávač Seznamu zaznamenává nárůst také v počtu hledání ze strany uživatelů. Zatímco ještě před rokem se ve špičce odbavovalo 500 dotazů za sekundu (mimo špičku 350), dnes už je to 600 dotazů. „Čísla teď ještě neřeknu, ale signifikantní nárůst zaznamenáváme na mobilních zařízeních,“ doplňuje Gizela.

Vyhledávání Seznamu by v budoucnu mohlo mít problém z toho důvodu, že na rozdíl od Googlu nemá žádnou vlastní mobilní platformu, kde může své služby nastavovat jako výchozí. To je jeden z hlavních důvodů toho, proč společnost vydala vlastní a zdarma dostupný webový prohlížeč pro Android a v budoucnu vydá i verzi pro iOS.

Přes 600 serverů

Seznam v posledním roce přidal do vyhledávacího clusteru 120 nových serverů, vyhledávač už tak funguje na zhruba 620 strojích. Navýšen byl i počet lidí, kteří se o vyhledávání starají – k sedmdesátce vývojářů, výzkumníků, testerů a podobně přibylo dalších 25.

Klepněte pro větší obrázek
Vlastní mobilní webový prohlížeč uvedl Seznam mimo jiné proto, že nemá mobilní platformu.

Samotnému vyhledávání stále dominuje především jazyk C++, u robota nicméně Seznam přešel na Javu, mimo jiné z toho důvodu, aby mohl lépe pracovat s daty. K tomu firma přidala i ukládání velkých dat do Hadoopu. „S ním jsme se tak dva roky učili pracovat a děláme si vlastní úpravy. Teď už Hadoop celkem zvládáme a otevřel se nám díky němu velký prostor pro zlepšování,“ popisuje Gizela.

Seznam má zřejmě největší Hadoop databázi v Česku a svá vlastní vylepšení se snaží vracet zpět open source komunitě. „Samozřejmě ne vše je přijato,“ říká Gazela. Platforma pro ukládání velkých dat Seznamu pomáhá zejména v jejich zpracování. „To, co dříve trvalo zpracovat týdny, dnes zvládneme třeba za 3 dny.“

Firma v tomto ohledu testuje také zpracování dat v operační paměti (in-memory), ne vše jí ale vzhledem ke specifickým a vlastním systémům vyhovuje. „Paměť by zřejmě některé naše procesy urychlila, některé ale ne, protože je proháníme přes procesor,“ vysvětluje šéf „seznamáckého“ vyhledávacího týmu. Více o Hadoopu a velkých datech v Seznamu v našem brzkém článku.

Seznam spustil vlastní zahraniční vyhledávání. V porovnání s Googlem nemůže obstát, podle Gizely je ale výběr stránek přizpůsoben požadavkům a nárokům typických uživatelů Seznamu. Vlastní systém zahraničního hledání má každopádně ten efekt, že po jeho nasazení začal klesat počet hledání přes Bing, se kterým Seznam v zahraničních datech spolupracuje. Větší spoléhání na vlastní síly je logické. I když Microsoft ve Spojených státech svůj vyhledávač neustále vylepšuje a mnohdy je skutečně povedený, v Evropě se prakticky nic nemění a kvalita je pochybná.

Spolupráci zdejší obr volí také v případě obrázků, jež zajišťuje Picsearch. Zde i Seznam tvrdí, že není vše úplně ideální. „Prozatím máme na obrázky stále Picsearch, ale do budoucna nebudu nic vylučovat,“ naznačuje Gizela. Na vyhledávání videí jeho firma spolupracuje zase s ruským Yandexem.

Diskuze (11) Další článek: Nový Avast! 2014: kompletně přepracovaný strážce bezpečí

Témata článku: Seznam.cz, Vyhledávače, Mimo, Poloviční paměť, Vyhledávač, Yandex, Výchozí vyhledávač, Typický uživatel, Selekce, Velký počet, Růst, Mobilní vyhledávání, Výchozí vyhledávání, Vyhledávání, Seznam TV, Seznam, Internetová firma, Samotný tým



9 nejlepších českých webů, kde lze stáhnout filmy a seriály

9 nejlepších českých webů, kde lze stáhnout filmy a seriály

** Když selžou legální zdroje, můžete se zkusit obrátit na služby pro stahování souborů ** Ulož.to není zdaleka jediné, které nabízí videoobsah ke stažení ** Konkurenční služby nabízí levnější placené účty

redakce
TipyHudba, filmy, seriályWeb
Jak zkrotit běžící procesy ve Windows? Našli jsme 7 nejlepších bezplatných nástrojů

Jak zkrotit běžící procesy ve Windows? Našli jsme 7 nejlepších bezplatných nástrojů

** V operačním systému Windows běží desítky procesů ** Pomocí k tomu určených nástrojů je můžete dostat pod kontrolu ** Našli jsme 7 nejlepších bezplatných aplikací

Karel Kilián
TipyNejlepší programyWindows
Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

Jak rozmazat dům, aby vás sousedi nemohli šmírovat. Jde to v Mapách Google i na Mapy.cz

** Nelibí se vám, když cizí lidé okukují váš dům? ** Všechny mapové aplikace nabízejí možnost rozmazání snímku ** Máme návod pro Apple Maps, Bing Maps, Mapy Google a Mapy.cz

Karel Kilián
SoukromíNávodyMapy
Den D je tady, dnes vyšly Windows 11. Jak stáhnout instalační ISO?
Lukáš Václavík
Windows 11Operační systémyMicrosoft