Vyhledávač Seznamu roste: 2,5 PB dat a 620 serverů

Vyhledávač Seznamu na pozadí roste. Cluster už má 2,5 PB, robot miliardu dokumentů, ve špičce zpracovává 600 dotazů za sekundu a výrazně roste i mobilní hledání.

I když by se mohlo zdát, že aktivity a čísla ve vyhledávači Seznamu budou spíše klesat, opak je pravdou. Největší tuzemská internetová firma stále v této oblasti dle odhadů drží zhruba poloviční podíl na trhu, představila nový vzhled vyhledávání a znatelný růst je možné sledovat také na pozadí. Tam sice žádné novinky prozatím představeny nebyly, přenosy a databáze nicméně bobtnají.

Celý vyhledávací cluster Seznamu už má 2,5 petabytů a na úložném systému je kolem miliardy dokumentů z vyhledávacího robota. „Chtěli bychom jít až na miliardu a půl,“ říká pro Connect.cz šéf vyhledávacího týmu v Seznamu Marek Gizela. Z těchto souborů se pak dělá selekce. V samotném indexu je zhruba 800 milionů dokumentů.

Vyhledávač Seznamu zaznamenává nárůst také v počtu hledání ze strany uživatelů. Zatímco ještě před rokem se ve špičce odbavovalo 500 dotazů za sekundu (mimo špičku 350), dnes už je to 600 dotazů. „Čísla teď ještě neřeknu, ale signifikantní nárůst zaznamenáváme na mobilních zařízeních,“ doplňuje Gizela.

Vyhledávání Seznamu by v budoucnu mohlo mít problém z toho důvodu, že na rozdíl od Googlu nemá žádnou vlastní mobilní platformu, kde může své služby nastavovat jako výchozí. To je jeden z hlavních důvodů toho, proč společnost vydala vlastní a zdarma dostupný webový prohlížeč pro Android a v budoucnu vydá i verzi pro iOS.

Přes 600 serverů

Seznam v posledním roce přidal do vyhledávacího clusteru 120 nových serverů, vyhledávač už tak funguje na zhruba 620 strojích. Navýšen byl i počet lidí, kteří se o vyhledávání starají – k sedmdesátce vývojářů, výzkumníků, testerů a podobně přibylo dalších 25.

Klepněte pro větší obrázek
Vlastní mobilní webový prohlížeč uvedl Seznam mimo jiné proto, že nemá mobilní platformu.

Samotnému vyhledávání stále dominuje především jazyk C++, u robota nicméně Seznam přešel na Javu, mimo jiné z toho důvodu, aby mohl lépe pracovat s daty. K tomu firma přidala i ukládání velkých dat do Hadoopu. „S ním jsme se tak dva roky učili pracovat a děláme si vlastní úpravy. Teď už Hadoop celkem zvládáme a otevřel se nám díky němu velký prostor pro zlepšování,“ popisuje Gizela.

Seznam má zřejmě největší Hadoop databázi v Česku a svá vlastní vylepšení se snaží vracet zpět open source komunitě. „Samozřejmě ne vše je přijato,“ říká Gazela. Platforma pro ukládání velkých dat Seznamu pomáhá zejména v jejich zpracování. „To, co dříve trvalo zpracovat týdny, dnes zvládneme třeba za 3 dny.“

Firma v tomto ohledu testuje také zpracování dat v operační paměti (in-memory), ne vše jí ale vzhledem ke specifickým a vlastním systémům vyhovuje. „Paměť by zřejmě některé naše procesy urychlila, některé ale ne, protože je proháníme přes procesor,“ vysvětluje šéf „seznamáckého“ vyhledávacího týmu. Více o Hadoopu a velkých datech v Seznamu v našem brzkém článku.

Seznam spustil vlastní zahraniční vyhledávání. V porovnání s Googlem nemůže obstát, podle Gizely je ale výběr stránek přizpůsoben požadavkům a nárokům typických uživatelů Seznamu. Vlastní systém zahraničního hledání má každopádně ten efekt, že po jeho nasazení začal klesat počet hledání přes Bing, se kterým Seznam v zahraničních datech spolupracuje. Větší spoléhání na vlastní síly je logické. I když Microsoft ve Spojených státech svůj vyhledávač neustále vylepšuje a mnohdy je skutečně povedený, v Evropě se prakticky nic nemění a kvalita je pochybná.

Spolupráci zdejší obr volí také v případě obrázků, jež zajišťuje Picsearch. Zde i Seznam tvrdí, že není vše úplně ideální. „Prozatím máme na obrázky stále Picsearch, ale do budoucna nebudu nic vylučovat,“ naznačuje Gizela. Na vyhledávání videí jeho firma spolupracuje zase s ruským Yandexem.

Diskuze (11) Další článek: Nový Avast! 2014: kompletně přepracovaný strážce bezpečí

Témata článku: Seznam.cz, Vyhledávače, Mobilní vyhledávání, Vyhledávání, Mimo, Typický uživatel, Yandex, Velký počet, Vyhledávač, Růst, Selekce, Samotný tým, Seznam TV, Internetová firma, Výchozí vyhledávání, Seznam, Výchozí vyhledávač, Poloviční paměť



Spousta řidičů v Česku riskuje pokutu kvůli umístění držáku mobilního telefonu. Zákon hovoří jasně

Spousta řidičů v Česku riskuje pokutu kvůli umístění držáku mobilního telefonu. Zákon hovoří jasně

** Kam s telefonem v autě, které nemá palubní počítač? ** Variant držáků je celá řada, ale každý má svá specifika ** Není možné jej umístit, kam se vám zlíbí

AutoRevue.cz
LegislativaPro řidičePříslušenství
Bude to o prsa. Facebook a Instagram pořád neví, kdy jsou zobrazené bradavky porno

Bude to o prsa. Facebook a Instagram pořád neví, kdy jsou zobrazené bradavky porno

**Meta má zjednodušit pravidla a být ke všem spravedlivá **Facebook s Instagram věnují samostatný odstavec bradavkám **Pravidla ale neřeší nebinární, transsexuální a intersexuální osoby

Petr Urban
InstagramFacebookSociální sítě
Google není jen vyhledávač: 15 užitečných funkcí, o kterých možná ani nevíte

Google není jen vyhledávač: 15 užitečných funkcí, o kterých možná ani nevíte

** Google umí kromě vyhledávání i spoustu dalších věcí ** Vybrali jsme více než 15 užitečných funkcí a schopností ** Stačí zadat do vyhledávače ta správná klíčová slova

Karel Kilián
TipyVyhledávačeGoogle
Za WhatsApp se bude platit! Za předplatné dostanete funkci, která je u konkurence zadarmo

Za WhatsApp se bude platit! Za předplatné dostanete funkci, která je u konkurence zadarmo

** Bylo to jen otázkou času ** Už i WhatsApp nabízí prémiové předplatné ** Za poplatek dostanete funkci, která je u konkurence zadarmo

Martin Chroust
předplatnéWhatsAppMobilní aplikace
Facebook má nejspíš vaše telefonní číslo, i když jste mu ho nikdy nedali. Tímto tajným nástrojem ho můžete smazat

Facebook má nejspíš vaše telefonní číslo, i když jste mu ho nikdy nedali. Tímto tajným nástrojem ho můžete smazat

**Meta poskytuje nástroj na vymazání telefonních čísel a e-mailových adres z Facebooku a Instagramu **V minulosti Mark Zuckebrg popřel, že by Facebook vytvářel stínové profily **Metě teď můžete sebrat klíčové iddentifikátory, pořád o vás ale nejspíš ví mnoho dalšího

Petr Urban
MetaSledováníSociální sítě
Máte rádi malé telefony? Pak si oblíbíte tohoto třípalcového drobečka, který není větší než platební karta

Máte rádi malé telefony? Pak si oblíbíte tohoto třípalcového drobečka, který není větší než platební karta

** Dnešní telefony se předhánějí v tom, který z nich bude větší ** Malé telefony na trhu skoro vyhynuly... ** Čínská značka si připravila telefon do dlaně s třípalcovým displejem

Martin Chroust
InfraportKompaktní velikostSmartphony
Návod, jak dostat maximum z Peněženky Google

Návod, jak dostat maximum z Peněženky Google

Služba Google Wallet (Peněženka Google) schlamstla před několika měsíci platební aplikaci Google Pay. Díky tomu se původní platforma rozrostla o další funkce. Je zde však i prostor pro zlepšení.

Jan Spěšný
Chromebooky se spřátelí s Microsoft Office a OneDrivem
Lukáš Václavík
Microsoft OfficeOneDriveChrome OS
Vědci zkoumali přesnost měření stavby těla u hodinek od Samsungu. Výsledky všechny překvapily

Vědci zkoumali přesnost měření stavby těla u hodinek od Samsungu. Výsledky všechny překvapily

** Chytré hodinky běžně bereme jako informativní měřidla ** Jak si však stojí ve srovnání s profesionálními měřiči ** Při měření stavby těla se na hodinky můžete spolehnout

Martin Chroust
Galaxy Watch4Měření