Když Microsoft peče velká data

Jan Sedlák 26. dubna 2012

Další
článek Velké srovnání šesti webových disků SDÍLET NA FACEBOOKU TWEETNOUT

Microsoft vydává SQL Server 2012. Vstupuje s ním do doby big data, in-memory, cloudových databází a silné konkurence. Na toto téma jsme mluvili se zástupci tuzemské pobočky.

Data jsou neustálý a nikdy nekončící koloběh. Starat se o ně je stále samá pohádka – s tím, jak roste jejich velikost, objem a přenášené množství, je nutné zabezpečit jejich zpracování, ukládání a analyzování. Nejenom, že je nutné budovat rychlejší a propustnější sítě a výkonnější hardware na zpracování, ale lepší a lepší parametry musí mít také databáze, ve kterých jsou všechna tato data uskladněna.

Firmy v současné době začínají řešit fenomén nazvaný big data, který přichází s neustálým nárůstem nestrukturovaných informací. Zatímco dříve se data ukládala do pevně stanovených struktur, například zadané údaje do firemní aplikace se v databázovém serveru ukládají do připravených „políček“, velká část dnešních dat nemá takto pevný charakter, a přesto je s nimi potřeba pracovat.

Big data se snaží řešit většina dnešních výrobců databázových výrobců. Včetně Microsoftu, který na trh uvádí nový SQL Server 2012. Ten je, na rozdíl od mnoha jiných produktů Redmondu, přijímán s kladným ohlasem a snaží se řešit všechna aktuální témata, která jsou se zpracováním a ukládáním dat spojena.

Velká, velká data

Problém big data samozřejmě neřeší úplně všichni. „To že máte historicky hodně dat, ještě neznamená, že máte big data v tom smyslu, jak je tento termín definovaný,“ snaží se tlumit všeobecné pozdvižení kolem nového termínu šéf serverových produktů v českém Microsoftu Dalibor Kačmář. Některé firmy sice mají veliké množství dat, často jde ale právě o údaje vytvořené ve strukturovaných systémech. „Firmy nicméně minimálně řeší to, že počet a velikost dat exponenciálně roste a musí na to reagovat,“ doplňuje svého kolegu Robert Havránek, který se v tuzemském Microsoftu stará mimo jiné právě o SQL.

Aktuální trh v oblasti data warehousingu podle Gartneru.

Microsoft se s velkým množstvím dat snaží pracovat také pomocí tzv. in-memory technologií, které umožňují data zpracovávat přímo v operační paměti, díky čemuž se celý proces zpracování dat významně urychluje. Nehodí se ovšem na úplně všechno. „S klasickou in-memory databází v případě big data příliš daleko nedojdete,“ upozorňuje Kačmář. Ideální je podle něj využití dvou cest – jak zpracování pomocí in-memory, tak ukládání klasickým způsobem.

„V současné chvíli nemáme přímo řešení, které by v sobě neslo vlastnost in-memory databáze, ale máme technologie, které využívají paměť serveru k předzpracování dat tak, aby se výkon zvýšil,“ popisuje zdejší serverový šéf současné fungování SQL Serveru. Obrovské množství valících se dat není možné ponechávat v paměti, ale stejně tak není jednoduché tento proud okamžitě ukládat na úložná zařízení. Microsoft si proto vytvořil funkci stream inside, který tento problém řeší. „Zkombinují se dvě věci dohromady. Data se předzpracují v paměti a pak se ukládají do databází, kde mohou narůstat do extrémních objemů,“ popisuje Kačmář.

Softies technologie in-memory využívají například pro funkce typu business intelligence. „K tomuto účelu jsme vytvořili funkci xVelocity, která v sobě spojuje prvky in-memory a nový způsob indexování dat,“ říká Havránek.

Samotné zpracování dat nicméně není všechno. Nestrukturovaná big data je nutné rovněž analyzovat a vytvářet z nich výstupy, které mají reálnou hodnotu pro byznys. Microsoft si prozatím nekoupil žádný vyspělý nástroj typu Autonomy, jako to udělalo například HP, ale k těmto účelům využívá, podobně jako mnohé jiné firmy na trhu, třeba Red Hat, nástroj Hadoop. „Díky němu můžeme data do určité míry analyzovat,“ popisuje Kačmář.

Trh s business intelligence podle Gartneru.

Softies si zároveň věří v tom, jak data dokážou zpřístupnit. „Jeden ze současných trendů je určitě to, že s uloženými daty potřebujete pracovat velice pohodlně ve více lidech,“ říká Havránek. Microsoft proto umožňuje z SQL Serveru „tahat“ data do různých nástrojů (SharePoint, Office 365 a další) a dynamicky je v reálném čase upravovat skrze více aplikací. V podstatě jde o to, že běžný uživatel může jednoduše vytáhnout data z databáze a dále s nimi díky nástrojům pracovat.

Hardware a databáze pěkně v jednom

Kromě velkých dat je v oblasti databázový možné sledovat také další posun. Firmy dříve databázový systém kupovaly spíše odděleně od samotných serverů, dnes ale postupně začínají přicházet na chuť integrovaným jednotkám. „Objevuje čím dál větší množství tzv. databázových appliance,“ konstatuje Kačmář. To v praxi znamená, že si můžete koupit server, který už má v sobě připravenou na míru ušitou databázi.

Z těchto principů už delší dobu těží zejména Oracle, který je na úzké provázanosti hardwaru se softwarem postavený. Dělá to ale IBM, které sjednocení umocnilo ještě více v rámci nové řady serverů PureSystems, jejichž součástí je databázový produkt DB2. V Microsoftu věří, že i v této oblasti dokážou držet krok.

SQL Server 2012: licenční změny

„Tady jsme nezaspali. Ve spolupráci s HP nebo Dellem už máme tato jednotná řešení dlouho k dispozici,“ argumentuje Havránek. „Sice kompletní zařízení sami nevyrábíme, ale spolupráci s hardwarovými výrobci máme tak úzkou, že zařízení jsou vyladěna na získání maximálního výkonu,“ doplňuje Kačmář. Problém by údajně neměl být ani z hlediska výkonu. „Nijak bych se neobával toho, že Oracle nebo IBM dokážou dosáhnout nějaké výkonnostní výhody v tom, že jsou zároveň výrobci softwaru a hardwaru,“ uzavírá téma šéf tuzemské serverové divize Microsoftu.

Velká část instalací serveru SQL je využitá na firemní aplikace typu CRM, ve velké míře například pro SAP. A právě německá softwarová firma už nechce nechávat peníze Microsoftu a dalším databázovým hráčům a naopak by ráda, aby se data z jejich aplikací ukládala do jejich databází. Hodně se proto snaží s in-memory systémem HANA. „Situace se možná trochu změnila, ale SAP měl svojí databázi už dříve a není pravda, že by většina instalací jeho softwaru šla právě na jejich databázi,“ myslí si Kačmář.

Microsoft bude mít dle jeho slov vždy velikou výhodu v tom, že firmy chtějí databáze využívat pro co nejvíce aplikací a chtějí mít co nejméně databázových platforem. „Mít více databází může být pro firmu kontraproduktivní,“ popisuje Kačmář. A SQL Server může být velice dobrým podhoubím pro sběr a ukládání dat nejenom ze SAPu, ale spousty dalších aplikací. Jinými slovy Microsoft sází na to, že SQL je značně univerzální a lze do něho ukládat data z mnoha aplikací.

Microsoft se kromě klasické varianty on-premise databází orientuje také na databáze v cloudu, které nabízí prostřednictvím Windows Azure. SQL Server 2012 na trh přichází v podstatně zjednodušeném podání – oproti předchozím verzím nabízí pouze tři edice: Standard, Business Intelligence a Enterprise. A k dispozici jsou také verze Express, Web, Developer a Compact.