Velká data si zaslouží velkou pozornost IT

10. 9. 2012

Doba čtení: 4 minuty

Proč si dávat pozor na to, co označujeme jako „velká data“? Jak vysvětlit IT profesionálům ve firmách, že se jimi mají zabývat?

Zřejmě jste slyšeli, že dalším velkým tématem v IT jsou „velká data“ a dospěli jste k závěru, že stroj hype cyklu se otáčí k jinému poutači pozornosti. Nejsem nejlepší v předvídání změn paradigmat a nebudu ani tentokrát. Musím však říct, že pokud jste IT profesionál, ignorujete velká data na vlastní nebezpečí.

Předem jedno upozornění. Stejně jako s cloudem (posledním velkým tématem) jsme nyní ve fázi definice. S tím, jak se výrobci snaží připojit vlastní význam spojení big data (velká data), se objevují nové a často konfliktní vysvětlení.

Nejčastějším zdrojem zmatení v použití spojení „velká data“ je zaměňování ukládání velkých dat a analýzy velkých dat. Analýza velkých dat je velkou výzvou. Ukládání velkých dat není v podstatě nic víc než úložiště, které zvládne velké množství dat pro aplikace jako streamování HD videa.

Jeden velký výrobce úložišť, který se teprve chystá provést oznámení v oblasti velkých dat, mi řekl, že jeho společnost zvažuje termín „obrovská data“ (Huge Data) jako označení svého úložiště pro big data. Vážně. Jednoho dne začnou úložiště velkých data podporovat i jejich analýzu. Teď si však myslím, že je primární zjistit, jestli výrobce představuje úložiště nebo analytické nástroje.

Definice analytických nástrojů pro velká data se také ubírá různými, protichůdnými směry. Jeden může začít s pochopením ukládání velkých dat a přidáním funkcí, které klasické datové sklady nenabízejí.

Zaprvé, analytika velkých dat zahrnuje nestrukturovaná i strukturovaná data. Běžně se předpokládá, že 80 % dat je nestrukturovaných. Analýza velkých dat znamená, že nestrukturovaná data – většinu informací – lze nyní analyzovat.

Zadruhé, klasický uživatel datového skladu položí dotazy a výsledky dostane někde mezi jedním dnem až týdnem, přičemž cílem řady analytických procesů velkých dat je dodání výsledků v reálném čase.

Zatřetí, datové sklady pracují s omezeným počtem datových zdrojů. Nástroje pro analýzu velkých dat dokážou zkombinovat různorodé zdroje – jako systém sledování dodavatelského řetězce propojující RFID, GPS a data o dodávce produktu – aby poskytly informace, které byly dříve nedosažitelné.

Mohl bych říct, že každá definice analytiky velkých dat musí obsahovat všechny tyto tři atributy, to by však bylo zavádějící. Co by však rozhodně nepomohlo, by bylo holé označení něčeho již existujícího jako „velká data“. Je to jako říct, že tradiční produkty pro ukládání dat jsou nyní „velká data“, jednoduše proto, že zvládají zpracování větších objemů dat.

Spíše než hašteřit se o definice bychom se v této fázi měli zaměřit na to, zda IT profesionálové chápou a skutečně využívají to, co je nové. A to je schopnost zahrnout nestrukturovaná data do procesu podnikové analýzy. Nová je schopnost konvergovat více zdrojů dat (strukturovaných i nestrukturovaných). A také schopnost produkovat nové typy informací v reálném čase je skutečně nová a mocná.

Zde je důvod, proč si myslím, že velká data stojí za pozornost. Ano, mají potenciál poskytnout nové typy informací podnikovým uživatelům i spotřebitelům v reálném čase. Kromě toho však obsahují premisu způsobu využití výpočetní techniky, která lépe napodobuje fungování lidského myšlení díky tomu, že bere data z různých zdrojů, formuluje myšlenky a dělá rozhodnutí v reálném čase. Pro IT to znamená posun z poskytování služeb na vytváření velkého dopadu na výsledky byznysu.

Autor je senior partner ve výzkumné společnosti Evaluator Group. Kontaktovat jej můžete na john@evaluatorgroup.com.