Kde, jak a na čem funguje Seznam

Seznam v současné době provozuje 1500 rackových serverů ve dvou datových centrech. Využívá Debian, Solaris, virtualizuje, obměňuje hardware a šetří peníze.

Služby Seznamu v únoru tohoto roku navštívilo přes pět a půl milionu uživatelů. Takový nával logicky vytváří značný tlak na IT infrastrukturu, na které jsou všechny tyto služby provozovány. Seznam se svou infrastrukturou patří mezi vůbec největší hráče na tuzemském trhu. Oficiální čísla sice nikdo neuvádí, podle odhadů má ale víc serverů než smíchovská společnost pouze ČEZ a Škoda Auto.

Tuzemská internetová jednička proto velice zvažuje výstavbu vlastního datového centra. V současné době však své servery a úložné systémy provozuje na dvou hostovaných místech v Praze – od roku 2005 u TTC v Malešicích, kam se firma přestěhovala z prostor Net4net u Nuselského mostu, a od roku 2007 také v žižkovském centru Nagano spadajícím pod Telefónicu.

Tam, kde tepe část českého webu

„Tady ještě prosím nic nefoťte, není to povoleno,“ vítají zástupci Seznamu pár novinářů, které pozvali na prohlídku Nagana. To totiž splňuje bezpečnostní standardy TIER 3 a 4 a prostory hučících a chlazených serverů jsou většině lidí nepřístupné. Také Seznam si musel pro focení a návštěvu zařídit výjimku, „potulovat“ se však bylo možné pouze v sekci, která patří pouze jemu. Jakmile jsem nevědomky vyfotil část technologií jiné společnosti, musel jsem fotografii před zrakem ochranky smazat.

Klepněte pro větší obrázek
Seznam si v Naganu zabírá velkou část prostoru, není v něm ale sám.

Seznam rozhodně má co chránit. V současné době provozuje okolo 1500 serverů, přičemž ještě v roce 2009 jich bylo 1100 a v roce 2005 dokonce 250. „Servery jsou do jisté míry komodita, každý výrobce nabízí více méně to samé,“ odpovídá Marek Leš na otázku Živě.cz, od jakých dodavatelů Seznam výkonné stroje nakupuje. Firma začala fungovat především na strojích od IBM, kterých se do jisté míry drží i v současné době. Používá také přístroje od Dellu, přičemž podíl mezi oběma značkami je zhruba 1:1. „Na dodavatelích jsme nezávislí,“ konstatuje Leš, který má v Seznamu hardware na starost.

Největší česká internetová firma především z historického hlediska nenakupuje žádné konvergované infrastruktury, tedy kompletní řešení serverů, storage systémů, sítí a dalších součástí, které nyní představují firmy jako HP, Cisco, IBM nebo Dell, ale své hardwarové portfolio skládá podle potřeby. „Tyto konvergované systémy se hodí spíše do projektů stavěných na zelené louce,“ říká Leš. Seznam si vždy vybere podle aktuálních požadavků a nejvhodnějších parametrů.

Firma ostatně v mnoha ohledech postupuje poněkud „netradičně“ a nespokojí se již s hotovými produkty. „Když jsme přišli do EMC, od kterého v současné době bereme úložná zařízení, a řekli jim, že si vyvíjíme vlastní deduplikační systém, docela na nás koukali,“ směje se například produktový šéf Seznamu Pavel Zima.

Je to o spotřebě a úsporách

Díky tomuto deduplikačnímu systému bylo možné dosáhnout výrazného snížení prostoru na ukládání dat. „Úložný prostor jsme dokázali stlačit zhruba o 60 procent,“ vychvaluje si technický ředitel Seznamu Vlastimil Pečínka. Seznam se například potýkal s problémem, že kolem 85 procent odeslané pošty z e-mailové schránky na Seznamu míří k příjemci, který má poštu rovněž na Seznamu. Pokud se například posílala příloha, uložila se nejenom u příjemce, ale také u odesilatele. Vlastní naprogramovaný systém toto eliminoval, umožnil sdílení pouze jednoho souboru pro více uživatelů, a uvolnil diskový prostor.

Klepněte pro větší obrázek
Žádný jeden dodavatel, ale hardware od více dodavatelů. Jak je co potřeba pro specifické požadavky Seznamu.

A právě úspora čehokoliv – úložného prostoru, výkonu nebo spotřeby – stojí v Seznamu, ale nejen u něj, v popředí zájmů. Zejména onu spotřebu elektrické energie se firmě podařilo srovnat hezky do latě. I když počet serverů, uživatelů a výpočetního výkonu neustále narůstá, Seznam dokázal to, že spotřeba od roku 2010 neustále klesá a v současné době je na hodnotě, na jaké byla v roce 2008.

Není to pouze zásluha vylepšeného ukládání dat, ale také několika dalších kroků. Výpočetní výkon například dokáže snížit šikovná transformace aplikací. Třeba přepis proprietárního SMTP z jazyka Python do C++ uspořil 50 procent výpočetního výkonu. Naprosto zásadní roli v úspoře energie ale sehrávají dvě věci: přechod na virtualizaci a postupná obměna serverového hardwaru.

Seznam odhaduje, že pokud by nepřešel na virtualizaci, v současné době by místo 1500 serverů potřeboval serverů asi 5 tisíc. „Linku počtu našich serverů nyní dokážeme držet více méně konstantní,“ pochvaluje si Pečínka, i když počet fyzický strojů samozřejmě každoročně mírně roste.

Virtualizace a Debian

Český internetový lídr začal o virtualizaci a obměně hardwarového parku uvažovat v roce 2009 a o rok později už se začaly tyto nové postupy aplikovat. Původním lákadlem ale nebyla ani tak úspora energie. „S virtualizací jsme nezačali kvůli úspoře, ale prostě jsme si chtěli ušetřit práci,“ vzpomíná Pečínka. Došlo například ke zrychlení správy operačních systémů a odpadly starosti se sdílením prostoru a kapacit.

Klepněte pro větší obrázek
Admini měsíčně nainstalují kolem tisícovky aplikací a nový server dokážou zprovoznit už za 30 minut.

Na drtivé většině (asi 90 procentech) z 1500 fyzických serverů dnes běží virtualizovaný operační systém Debian Linux, který si Seznam pro své potřeby různě upravuje. Na zhruba 250 serverech pak stále funguje Debian v klasické nevirtualizované podobě a na podobném počtu strojů pracuje také Solaris. Jako virtualizační hypervisor Seznam používá platformu OpenVZ, ale údajně současně s ním zkouší některé další technologie.

Seznam své služby provozuje na platformě Intel a na základě toho si zvolil i strategii obměny hardwaru – konkrétně využívá cyklus Intel Tick-Tock. Firma si vždy spočítá, zda se jí vyplatí přechod na novou platformu. K obměnám prozatím docházelo v letech 2006, 2007, 2008, 2010 a nyní funguje na Sandy Bridge. „V současné době se díváme na další rok, jestli se nám další obměna vyplatí,“ říká Pečínka.

Přechod na nové technologie se ale obecně vyplatí. „Na násobně vyšší výkon potřebujeme stále méně hardwaru,“ vyzdvihuje přednosti obnovy hardwaru technický šéf Seznamu. Nové platformy kromě toho vždy přináší úsporu ve spotřebě energie.

Sedm starých za jeden nový

Virtualizaci společně s obměňováním fyzických strojů Seznamu umožnilo v roce 2010 vyměnit 7 starých serverů za 1 nový. V současné době je tento poměr 3:1. Spotřeba energie přitom klesla na 25 procent hodnoty, které dosahovaly původní servery. Jednotlivé stroje jsou vytěžovány pouze zhruba na 50 procent, zbytek je ponechán jako rezerva. „Opticky se naše servery jakoby flákají,“ vtipkuje Pečínka.

Klepněte pro větší obrázek
Tady běží služby, které Seznamu v loňském roce vygenerovaly zisk přes miliardu korun.

Montáž nového rackového serveru do běžícího stavu tým techniků Seznamu zvládne za půl hodiny. „Dále pak záleží na tom, pro jaký účel server chceme použít a jaké aplikace na něm provozovat,“ říká Pečínka.

Seznam ročně do serverových technologií investuje desítky milionů korun. Jenom investice do zázemí pro novou podobu e-mailu, který by měl být od května postupně nasazován, od roku 2010 každoročně spolknou přes 50 milionů.

Pokud se tuzemský internetový lídr skutečně nakonec přestěhuje do vlastního datového centra, počítá také se stěhováním části současné techniky. „Stěhovali bychom pouze tu část IT infrastruktury (například síť nebo servery), u kterých by byla relevantní zbývající doba použitelnosti,“ vysvětluje Pečínka. Infrastrukturu samotného datového centra jako je chlazení nebo záložní zdroje a napájení má Seznam pouze v pronájmu.

O montáž i instalaci serverů se ve firmě stará 8 lidí. Administrátorů a správců aplikací je pak 25. Ti měsíčně nainstalují zhruba tisíc aplikací.

Seznam se zároveň zajímá také o nově nastupující generaci úsporných serverů postavených na mobilních čipech ARM a Intel, jejichž první vlaštovkou je projekt Moonshot od HP. „S lidmi z HP a Intelu už jsme se na toto téma bavili,“ říká Marek Leš. „Z dlouhodobého pohledu by to pro nás při provozu webových služeb mohlo být zajímavé,“ uzavírá.

Témata článku: Technologie, Cloud, Seznam.cz

39 komentářů

Nejnovější komentáře

  • johnnash 20. 4. 2012 18:24:22
    Bohuzel toho nechapes vic, ale neboj tebe by tam nepustili ani bez fotaku
  • Michal Kolesa 20. 4. 2012 16:26:04
    Jen právní poznámka: Soukromá ochranka NEMÁ právo požadování mazání...
  • dolph1888 19. 4. 2012 21:07:10
    Seznam, to neznám! Jen tu jejich poslední, první, zbytečnou nebo jak to...
Určitě si přečtěte