Intel Data Center Manager: řízení spotřeby serverů

Spotřeba je jeden z největších problémů současných datových center a serverů. Jedním z nástrojů, který jí umí spravovat a monitorovat, je Intel Data Center Manager.

IMPI

Intelligent Management Platform Interface. Toto rozhraní bylo ve své první verzi poprvé definováno v roce 1998 za vedení firmy Intel a spoluúčasti mnoha významných společností z počítačového průmyslu. V současnosti podporuje nebo nasazuje IPMI ve verzi 2.0 přes dvě stovky firem. Rozhraní definuje standardizovaný, abstraktní a na zprávách založený interface pro monitorování a správu systémových prostředků serverů. Velkou výhodou IPMI je kromě standardizace šíře záběru a flexibilita, umožňující rozšiřování funkcí. Pro testování IPMI funkcionality jsou k dispozici jednoduché nástroje jako například FreeIPMI nebo IPMItool.

Zatímco netbooky atakují pro mobilní počítače ještě nedávno nepředstavitelně nízké cenové úrovně, rodí se nová kategorie mobility v podobě výkonných, ale tenkých ultrabooků. A to v žádném případě nemohu opomenout obrovským tempem rostoucí počty chytrých telefonů a dalších zařízení, domáhajících se připojení na internet. Odhaduje se, že v roce 2020 bude celosvětově propojeno kolem 50 miliard zařízení.

Všechna tato zařízení potřebují nejenom komunikovat, ale také ukládat a zpracovávat data. Tím pádem rostou rychlým tempem také počty serverů. Ruku v ruce se zvyšujícími se počty serverů jde i změna filozofie jejich používání. Je požadována snadnější správa, vyšší vytížení, levnější provoz a přesnější účtování nákladů.

Peníze až na prvním místě

Jak počet serverů roste, sílí tlak na snižování provozních nákladů. K němu vede několik cest. Od pravidelného nahrazování vysloužilé techniky novými servery, které poskytují výrazně vyšší výkon na jednotku spotřebované energie, přes zavedení serverové virtualizace, kdy skupinu fyzických serverů nahradíte jejich virtuálními obrazy, až po aktivní monitorování, a dokonce řízení spotřeby fyzických serverů. Tento text se soustředí právě na úspory spotřebované elektrické energie, neboť jedním z nepříjemných trendů současnosti je neustálé zvyšování cen „pohonných materiálů“. Zrovna cena elektřiny v české kotlině roste nepříjemným tempem a vše nasvědčuje tomu, že tato tendence zůstane zachována.

Abyste mohli začít náklady na energii snižovat, musíte nejprve vědět, kolik toho spotřebováváte. Tato logika platí stejně u vody jako u propálené elektřiny. Nejen proto jsou servery vybaveny dodatečnými komponentami.

Princip monitorování a řízení

Serverové základní desky obsahují specializované obvody, určené právě pro monitorování a dálkovou správu. Mohou se lišit výrobcem, integrací, tím, zda jsou přímo na základní desce, či na samostatném modulu, a také komunikačními kanály. Dnes se nejčastěji používá vyhrazený ethernetový port, ale lze se setkat i se sériovými linkami.

Základem řešení je specializovaný mikroprocesor, nazývaný BMC (Baseboard Management Controller). Mezi jeho funkce patří správa systémových prostředků desky, přenos obrazovky počítače na pracoviště administrátora, a to často i v grafické podobě, či možnost ovládání napájení serveru. Prostředky zahrnují různé senzory, například pro měření teploty, otáček ventilátorů nebo napětí zdroje, a také informace o komponentách obsažených v systému.

Klepněte pro větší obrázek
Rozhraní nástroje Intel Data Center Manager.

Tyto činnosti lze provádět i v takzvaném out of band režimu, kdy je server vypnutý nebo v případě, že operační systém nereaguje. BMC komunikuje se zdrojem, senzory a ostatními komponentami pomocí mnoha rozhraní, jako PMBus, SMBus, LPC či IPMC. Komunikace administrátora s BMC probíhá převážně přes průmyslový standard IPMI. Přidáním ME (Management Engine), což je další mikroprocesor, integrovaný v čipsetu, a nahráním vhodného firmware a podporovaného BIOSu, můžete rozšířit funkce na Intel Node Manager, který je nyní implementován ve verzi 2.0. Toto řešení navíc umožňuje pomocí P a T stavů procesoru přímo ovládat procesorovou spotřebu. Funkce jsou dále rozšiřovány o řízení spotřeby čipsetu, pamětí či SSD disků.

Klíčová funkce řízení spotřeby se nazývá Power Capping a představuje definování maximální spotřeby, kterou má server dodržet. Vlastní řízení funguje na principu uzavřené regulační smyčky. Správce nebo spíše řídicí program nastaví maximální hodnotu spotřeby, například 200 wattů. Node Manager začne měřit okamžitou hodnotu, a pokud je tato vyšší než požadovaná, zvedne P stav procesoru a měří dopad. Když se sníží zátěž, například doběhne úloha, sníží se i spotřeba a regulační smyčka povolí regulaci a zvedne frekvenci a napětí.

Vhodně navržená regulace nemusí mít žádný dopad na výkon serveru. Měření ukazují, že v závislosti na zpracovaných úlohách mohou omezit spotřebu serveru o 5 až 25 procent bez dopadu na výkon, a to už představuje značnou úsporu nákladů. Takto regulovat jeden samostatný nezávislý server na pevnou hodnotu příkonu ale nemá moc význam. Pro opravdu smysluplné a účinné nasazení potřebujete nástroj, který bude spravovat všechny servery v datovém centru.

Intel Data Center Manager

Každý výrobce serverů disponuje nástrojem na dálkové monitorování a případně i řízení spotřeby svých strojů. Například Dell Management Console, IBM Tivoli, HP Insight Controll nebo Cisco EnergyWise. Navíc ale existuje programová komponenta Intel Data Center Manager od firmy, která sama servery nevyrábí. Její výhodou je spolupráce se všemi výrobci, což se hodí v případě, že v datovém centru jsou umístěny servery různých značek.

Klepněte pro větší obrázek
Řízení spotřeby funguje na principu uzavřené regulační smyčky.

Intel DCM obsahuje jak rozhraní pro připojení serverů různých výrobců, tak algoritmy optimálně řídící jednotlivé servery na základě nastavených profilů. Technika řízení spotřeby může být použita pro různé situace. Od jednoduchého nastavení limitu pro jednotlivé servery až po komplexní úlohy, zahrnující migrace virtuálních serverů, či dokonce dynamické odstavování nezatížených serverů. Nejčastější úlohy lze shrnout do čtyř situací:

  • Zvýšení hustoty serverů v racku. Velmi často je celkový příkon racku omezen a limituje počet serverů, které v něm mohou být osazeny. Přesným měřením, a hlavně řízením a limitováním spotřeby jednotlivých serverů docílíte osazení racku větším počtem serverů bez dopadu na výkon, což má přímý vliv na náklady.
  • Optimalizace úloh v případě výpadku hlavního napájení nebo chlazení. V případě že datové centrum využívá náhradního napájení nebo je postiženo jinou poruchou omezující maximální výkon, můžete pomocí přednastavené politiky výrazně redukovat spotřebu méně kritických úloh, byť za cenu snížení výkonu, a použít omezené zdroje na udržení chodu klíčových aplikací.
  • Prosté snížení spotřeby datového centra. Pokud správně určíte hodnoty spotřeby, při kterých nebude docházet k dopadu na výkon serverů, můžete ušetřit 5 až 25 procent energie nejen na napájení, ale i na chlazení serverů.
  • Využití load balancingu na základě politik power managementu. Protože velké množství serverů je virtualizováno, mohou být přesouvány mezi jednotlivými fyzickými servery. Tuto migrační techniku lze použít nejen při balancování výkonu či řešení výpadků, ale také pro balancování a optimalizaci spotřeby. Serverům či celým rackům, které se blíží maximálním nastaveným hodnotám, lze ulehčit migrací virtuálních serverů na jiné servery. Naopak stroje, které jsou vytíženy málo, lze úplně vypnout po migrování virtuálních serverů.

Intel DCM není k dispozici jako software, který si můžete koupit od distributora, ale jedná se o vývojový balíček, který je třeba zaintegrovat do management konzole. Buď si tuto integraci provede uživatel vlastními silami, nebo má možnost sáhnout po specializované konzoli, která umí monitorovat provoz celé infrastruktury a zároveň v sobě integruje inteligenci DCM. Takových konzolí je přes deset, jako příklad může sloužit Pandora FMS nebo JouleX.

Měření v reálných datových centrech firem jako Baidu, BMW či Intel, jejichž výsledky byly publikovány, ukázalo zvýšení kapacity racku o cca 20 procent a snížení spotřeby o cca 18 procent. Tato čísla mohou být snadno převedena do řeči peněz.

Stavy procesoru

P-stavy (Performance): Každý současný procesor dokáže operovat v několika P stavech. Ty charakterizují frekvence a napěti procesoru. Snížení frekvence a napětí má dva dopady – snížení výkonu procesoru, ale také snížení spotřebované energie. Nejvyšší stav se nazývá P0, nižší hodnoty P1 až Pn. Například Intel Xeon X5680 může pracovat v 15 stavech P14 až P0, kde se frekvence mění od 1,6 GHz po 3,6 GHz v závislosti na počtu aktivních jader a působení funkce Turbo. Příkon lze takto plynule měnit od 65 wattů v klidu do 130 wattů v zátěži.

T-stavy (Throttle): Funguji jako záchranná brzda v případě, že dojde k přehřátí procesoru. Snížení teploty a redukce příkonu se dosáhne vypínáním interních hodin v případě TM1 nebo – v případě méně agresivního stavu TM2 – nastavením minimální frekvence a napětí.

C-stavy (Clock): Pro úplnost existují ještě C stavy, které redukují příkon, když jsou jádra neaktivní. Příkon lze snížit až na zhruba 12 wattů.

Autor pracuje jako Enterprise Technology Specialist ve společnosti Intel.

Váš názor Další článek: Google spouští nový horní panel

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,