Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

Vyhledávač Seznamu na pozadí roste. Cluster už má 2,5 PB, robot miliardu dokumentů, ve špičce zpracovává 600 dotazů za sekundu a výrazně roste i mobilní hledání.
Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

I když by se mohlo zdát, že aktivity a čísla ve vyhledávači Seznamu budou spíše klesat, opak je pravdou. Největší tuzemská internetová firma stále v této oblasti dle odhadů drží zhruba poloviční podíl na trhu, představila nový vzhled vyhledávání a znatelný růst je možné sledovat také na pozadí. Tam sice žádné novinky prozatím představeny nebyly, přenosy a databáze nicméně bobtnají.

Celý vyhledávací cluster Seznamu už má 2,5 petabytů a na úložném systému je kolem miliardy dokumentů z vyhledávacího robota. „Chtěli bychom jít až na miliardu a půl,“ říká pro Connect.cz šéf vyhledávacího týmu v Seznamu Marek Gizela. Z těchto souborů se pak dělá selekce. V samotném indexu je zhruba 800 milionů dokumentů.

Vyhledávač Seznamu zaznamenává nárůst také v počtu hledání ze strany uživatelů. Zatímco ještě před rokem se ve špičce odbavovalo 500 dotazů za sekundu (mimo špičku 350), dnes už je to 600 dotazů. „Čísla teď ještě neřeknu, ale signifikantní nárůst zaznamenáváme na mobilních zařízeních,“ doplňuje Gizela.

Vyhledávání Seznamu by v budoucnu mohlo mít problém z toho důvodu, že na rozdíl od Googlu nemá žádnou vlastní mobilní platformu, kde může své služby nastavovat jako výchozí. To je jeden z hlavních důvodů toho, proč společnost vydala vlastní a zdarma dostupný webový prohlížeč pro Android a v budoucnu vydá i verzi pro iOS.

Přes 600 serverů

Seznam v posledním roce přidal do vyhledávacího clusteru 120 nových serverů, vyhledávač už tak funguje na zhruba 620 strojích. Navýšen byl i počet lidí, kteří se o vyhledávání starají – k sedmdesátce vývojářů, výzkumníků, testerů a podobně přibylo dalších 25.

Klepněte pro větší obrázek
Vlastní mobilní webový prohlížeč uvedl Seznam mimo jiné proto, že nemá mobilní platformu.

Samotnému vyhledávání stále dominuje především jazyk C++, u robota nicméně Seznam přešel na Javu, mimo jiné z toho důvodu, aby mohl lépe pracovat s daty. K tomu firma přidala i ukládání velkých dat do Hadoopu. „S ním jsme se tak dva roky učili pracovat a děláme si vlastní úpravy. Teď už Hadoop celkem zvládáme a otevřel se nám díky němu velký prostor pro zlepšování,“ popisuje Gizela.

Seznam má zřejmě největší Hadoop databázi v Česku a svá vlastní vylepšení se snaží vracet zpět open source komunitě. „Samozřejmě ne vše je přijato,“ říká Gazela. Platforma pro ukládání velkých dat Seznamu pomáhá zejména v jejich zpracování. „To, co dříve trvalo zpracovat týdny, dnes zvládneme třeba za 3 dny.“

Firma v tomto ohledu testuje také zpracování dat v operační paměti (in-memory), ne vše jí ale vzhledem ke specifickým a vlastním systémům vyhovuje. „Paměť by zřejmě některé naše procesy urychlila, některé ale ne, protože je proháníme přes procesor,“ vysvětluje šéf „seznamáckého“ vyhledávacího týmu. Více o Hadoopu a velkých datech v Seznamu v našem brzkém článku.

Seznam spustil vlastní zahraniční vyhledávání. V porovnání s Googlem nemůže obstát, podle Gizely je ale výběr stránek přizpůsoben požadavkům a nárokům typických uživatelů Seznamu. Vlastní systém zahraničního hledání má každopádně ten efekt, že po jeho nasazení začal klesat počet hledání přes Bing, se kterým Seznam v zahraničních datech spolupracuje. Větší spoléhání na vlastní síly je logické. I když Microsoft ve Spojených státech svůj vyhledávač neustále vylepšuje a mnohdy je skutečně povedený, v Evropě se prakticky nic nemění a kvalita je pochybná.

Spolupráci zdejší obr volí také v případě obrázků, jež zajišťuje Picsearch. Zde i Seznam tvrdí, že není vše úplně ideální. „Prozatím máme na obrázky stále Picsearch, ale do budoucna nebudu nic vylučovat,“ naznačuje Gizela. Na vyhledávání videí jeho firma spolupracuje zase s ruským Yandexem.

Diskuze (11) Další článek: Nový Avast! 2014: kompletně přepracovaný strážce bezpečí

Témata článku: Seznam.cz, Vyhledávače, Internetová firma, Selekce, Seznam, Růst, Yandex, Seznam TV, Mobilní vyhledávání, Typický uživatel, Vyhledávání, Výchozí vyhledávač, Samotný tým, Velký počet, Poloviční paměť, Mimo, Výchozí vyhledávání, Vyhledávač


Určitě si přečtěte

Antivir zdarma: 8 bezplatných řešení, která zatočí s havětí v počítači

Antivir zdarma: 8 bezplatných řešení, která zatočí s havětí v počítači

** Součástí Windows 10 je integrovaný antivirový program. Stačí to? ** Představíme vám sedm aplikací na boj proti virům a malwaru ** Všechny jsou k dispozici zdarma a některé ani nemusíte instalovat

Karel Kilián | 30

Kdyby měli železničáři tento superpočítač za 99 dolarů, nepotřebovali by lasery

Kdyby měli železničáři tento superpočítač za 99 dolarů, nepotřebovali by lasery

** Nejmodernější český železniční tunel je prošpikovaný technologiemi ** Za tři tisíce koupíte počítač, který je překoná ** Seznamte se s Nvidia Jetson Nano

Jakub Čížek | 50

Zorin OS 15: Vyzkoušejte další hezký a nenáročný linux pro mamku a taťku

Zorin OS 15: Vyzkoušejte další hezký a nenáročný linux pro mamku a taťku

** Ačkoliv je grafických linuxů plný internet, stále vládnou Windows ** Jeden z nich se jmenuje Zorin OS a nedávno se dočkal aktualizace ** Dělají jej dva kluci z Irska a je fakt hezký

Jakub Čížek | 115

Biblická potopa Česka: Jak bychom dopadli, kdyby nás zatopil oceán

Biblická potopa Česka: Jak bychom dopadli, kdyby nás zatopil oceán

** Představte si biblickou potopu ** Nejprve zaniknou Děčín a Břeclav, pak i Brno a Praha ** Hlavním městem se stane Jihlava a zbytky Čechů přežijí na Kvildě

Jakub Čížek | 92

Google Coral: Raspberry Pi s čipem, který zpracuje 4 biliony operací za sekundu

Google Coral: Raspberry Pi s čipem, který zpracuje 4 biliony operací za sekundu

** Je to velké jako Raspberry Pi ** Ale je to až o několik řádů rychlejší ** Dorazil nám exotický Google Coral s akcelerátorem Edge TPU

Jakub Čížek | 18

Jak funguje kontroverzní program, který ženám krade plavky. Mají se čeho bát?

Jak funguje kontroverzní program, který ženám krade plavky. Mají se čeho bát?

** Strojové učení ještě nepřitáhlo takový zájem jako na začátku prázdnin ** Ne, umělá inteligence nenašla lék na rakovinu ** Naučila se svlékat ženy nejen z plavek

Jakub Čížek | 35