[For English version of the blog, please scroll down to EN label ]

Z Big Data sa stal oficiálne #1 buzzword nielen marketingu ale aj IT technológií. Čo však z toho je reálne v podmienkach SR a čo sú len sci-fi túžby? Kde začať ak chcete využívať Big Data tu na Slovensku?

Ak ste boli za posledných 12 mesiacov na niektorej z odborných konferencií IT branže alebo marketingu, som si takmer istý, že ste sa stretli na nej s pojmom Big Data (možno dokonca priamo v názve konferencie). Koncept 3V (velocity, volumer, variety of data), ktorý pred 13 rokmi (verili by ste, že je to už 13 rokov a u nás je táto téma stále v plienkach?!) označil predchodca Gartner Group vo výskumnom článku za hlavnú výzvu a príležitosť rozvoja každého z odvetví priemyslu. Neskôr sa pre tento trend našla familiárna prezývka Big Data. A ako to už býva, keď niečo získa prezývku tak už od toho niet úteku ...

V roku 2012 Big Data sa zrejme dostali do jarnej kolekcie Chanelu, lebo za posledné 2 roky kto (nepredstieral, že) riešil Big Data, je považovaný za úplného outsidera, hodného odsúdenia. Nestranný čitateľ si zrejme položí otázku: Prečo sa vlastne firmy za tými Big Data tak pachtia? Stojí to za to? Presne na túto otázku dá za chvíľu odpoveď tento blog. Ešte než sa tam však dostaneme potrebujeme si na pár viet ešte odskočiť:

Bolo by naháňaním si vlastného chvosta, keby sme sa do diskusie o Big Data pustili bez férového a zjednodušeného pomenovania, čo to presne znamená mať BIG DATA. Technologické firmy asi budú škrípať zubami nad týmto zjednodušením, ale po lopate sa dá BIG DATA vysvetliť takto: Na otázky, na ktoré by sme v minulosti museli odpovedať „Ani divá sviňa netuší“, lebo o nich neexistovali žiadne záznamy, dokážu BIG DATA dať veľmi presné odhady vďaka tomu, že všetko, čo má v sebe aspoň nejaký čip, dokáže (na diaľku) hlásiť svoje hodnoty a stavy. Teda úplne presne BIG DATA je zbieranie a vzájomné kríženie rozsiahlych zozbieraných databáz, ktoré umožňuje dávať do súvisu obrovské množstvo rôznych parametrov a určovať ich vzájomný vplyv.

Skutočné BIG DATA (podobne ako modely Chanel kolekcie) na naše malé (pardon myslel som milé) Slovensko, v skutočnosti zatiaľ veľmi nedorazili. Prečo? Na rozdiel od prvoplánových výhovoriek o nákladnosti na hardware a software, prikláňam sa skôr k názoru, že A] Slovensko je príliš malý trh na pilotovanie rozsiahlych dát a zároveň B] Slovensko je príliš malá krajina, aby tu bolo dosť odborníkov schopných posúvať túto tému vpred. Len pre porovnanie v UK už vláda zriadila osobitný úrad pre sprístupnenie a zdieľanie rozsiahlych dátových súborov. V USA už 2 roky 6 ministerstiev odovzdáva BIG DATA na verejné použitie. U nás sa o niečom takom nedočítate ani vo volebných programoch alebo programovom vyhlásení vlády. Preto položím ešte raz všetečnú otázku: Dá sa v SR skutočne robiť BIG DATA? A v akej podobe?

5 + 2 vrstiev BIG DATA dostupných pre SK firmy

Odkedy sa BIG DATA ujalo ako synonymum pre “Vitajte na našej odbornej konferencii“ počul som za ich súčasť prehlásiť už takmer akýkoľvek súbor dát. S odstupom času som si však všimol, že skutočné BIG DATA sa v našich podmienkach rozkladajú do 5 rozličných skupín, svojim vrstvením trochu pripomínajúcich cibuľu. Pre jednoduchosť ich budem teda označovať ako 1. až 5. vrstvu BIG DATA. Každá z týchto vrstiev už má aj v SR prostredí reálnu podobu a za chvíľu si ich popíšeme na prehľadnej schéme.

Avšak tak ako opekať neolúpanú cibuľu nie je veľmi praktické, aj vrhnúť sa na vrstvy BIG DATA “bez olúpania dátovej šupky“ je mrzutou biznis chybou. Dovolil som si preto pridať do popisu BIG DATA vrstiev ešte dve nulté vrstvy (nultá A a nultá B vrstva), ktoré by firma riešiť (= olúpať) skôr ako sa pustí do BIG DATA. Skalní BIG DATisti budú asi prskať, ale som presvedčený, že “smažiť“ napr. 2 vrstvu cibule bez vyriešenia NulaB vstvy je nezmysel. Veď posúďte sami:

Pre lepšiu orientáciu čitateľa zhrnul som 5+2 vrstiev do jednej schémy. Okrem popisu danej vrstvy prikladám pre každú z vrstiev aj “otváraciu otázku“ pomocou ktorej si môžete vybrainstormovať možné rozmery danej vrstvy vo Vašom vlastnom odvetví podnikania. Pripájam ak niekoľko príkladov (zdrojov) dát danej vrstvy a čo budú hlavné implementačné obtiaže, ak sa do danej vrstvy pustíte.

[EN/SK]

Big Data na Slovensku Zdroj: BIG DATA schema

Hodnotiť koľko firiem sa dolúpalo po ktorú vrstvu si úplne netrúfnem. V každom prípade dáta z 1. a 2. vrstvy som aj v našom regióne videl reálne používať (napr. GPS dáta na vyhodnotenie bezpečnosti jazdenia so služobnými autami, využívanie sociálnych profilov klientov na zvýhodnené ponuky poistiek a bankových produktov). Rovnako som osobne účastný v niekoľkých projektov na monetizovanie dát z 3. vrstvy BIG DATA. V každom prípade zmysluplné využitie dát 4. a 5. vrstvy som v SR videl len veľmi ojedinele. Svoj súkromný odhad, pokiaľ sa dostal vývoj na Slovensku, by som videl niekde okolo 2 vrstvy. Pred väčšinou našich firiem teda BIG DATA skôr vyznieva ako hudba ďalších rokov. Bude mi cťou, ak pre niektorých z vás otváracie otázky odomknú novú vrstvu BIG DATA vo vašej firme. Ak máte pocit, že môžem poradiť, neostýchajte sa ma kontaktovať.

Na tomto mieste môžeme ukončiť oficiálnu diskusiu o BIG DATA ceste v SR. Ak Vás však zaujala podstata niektorej z vrstiev BIG DATA, môžete si v nasledujúcich odsekoch prečítať prílohu s detailným popisom jednotlivých BIG DATA vrstiev:

Vrstva Nula A – Nevyužité vlastné dáta

Ak ste sa niekedy zaoberali o biznis model leteckej spoločnosti Ryanair, viete, že jednou z ich hlavných čŕt je veľmi svedomitý prístup k dodatočnému výnosu z akejkoľvek služby počas letu (v istom momente bolo na pretrase aj spoplatnenie 1 EUR za použitie toalety na palube). Pred Implementáciou skutočných BIG DATA vrstiev preto Vašej spoločnosti odporúčam urobiť si „Ryanairovský databázový test“. Jeho podstatou je nájsť využitie v podobe príjmu (alebo úspory nákladov) pre každé pole v databáze, vrátane polí o mene a adrese klientov. Inými slovami, predstavte si, že by ste zarábali len na tom, že obchoduje s klientskymi dátami, aké využitie by ste pre kupcu našli pre jednotlivé polia z databázy. Ak máte pocit, že sú vo vašich dátach aj polia, ktorých komerčné použitie si neviete predstaviť, ozvite sa v diskusii. Budem vás challengovať. Toto malé „ryanairovské“ cvičenie vám pomôže odhaliť doposiaľ netušené použitia vlastných (doposiaľ opomínaných) dát.

Príklady dát tejto vrstvy zo SR prostredia: Typickádoba prihlasovania sa do Internetbankingu, Deň v mesiaci, keď klient platí poistné, Percento zmeškaných hovorov, na ktoré klient zavolá späť, geografická vzdialenosť pobytu od najbližšej pobočky, ...

Odomykacia otázka (na brainstorming vo Vašom odvetví): Ktoré polia databázy by ste zatiaľ nevedeli speňažiť, lebo vás nenapadá žiadne využitie dát uložených v danom databázovom poli?

Vrstva Nula B – Nezbierané vlastné dáta

Väčšina databáz vznikalo v čase, keď dátové zdroje boli obmedzené a systémy nedokázali v reálnom čase spracovávať enormné súbory. Do dátových polí sa tak ukladali len „absolútne nevyhnutné“ údaje, aby sa databázy držali v obhospodarovateľnej veľkosti. V dnešnej senzorovo-digitálnej dobe však už vieme merať (a ukladač údaje o) takmer čokoľvek.

Príklady dát tejto vrstvy zo SR prostredia: Anomálie v používaní produktov (napr. príliš veľký výber peňazí, prvé omeškanie v splátkach, netypický dlhý telefonát na pomery daného klienta, vysoký počet poistení na to isté riziko u rovnakého klienta, ...); Doposiaľ nedigitalizované dáta (prišiel klient do pobočky na stretnutie peši alebo autom, ako často sa klient mýli pri zadávaní PINu v bankomate, ...) Preferencie/Rozhodnutia, ktoré klient zaknihoval (v ktoré hodiny dňa odberné miesto míňa najviac elektriny, Akú formu uzatvorenia poistenia klient využíva častejšie, ...)

Odomykacia otázka (na brainstorming vo Vašom odvetví): Ktoré aspekty (alebo okolnosti) používania vášho produktu klientom zatiaľ nemáte podchytené?

Vrstva 1 – Údaje spoločných služieb

Prvou “skutočnou“ vrstvou BIG DATA údajov sú dáta z externého prostredia vznikajúce na rozhraní vášho produktu a iných súvisiacich odvetví (napr. napr. typy tovarov, za ktoré platí klient kartou; autoservis, ktorý si vybral na opravu poškodeného auta; a pod) Vaša služba či tovar totiž len predstavujú len zlomok života klienta a preto jej/jeho využívanie je neustále doprevádzané súvisiacimi javmi, ktoré sa dajú digitálne odstopovať. Ich ukladaním získate príznaky pre úpravu Vašej ponuky tak, aby zapadla do kontextu v ktorom klient Váš produkt používa.

Príklady dát tejto vrstvy zo SR prostredia: Vzájomné súvislosti spotreby (napr. spotreba vody danej domácnosti verzus spotreba elektriny); Rozhranie používania (koľko MB dát klient stiahne z rôznych stránok, aký podiel na tom majú sociálne siete, pozerá klient video aj cez smartfón, ...);

Odomykacia otázka (na brainstorming vo Vašom odvetví): Kde a ktoré iné služby klient využíva paralelne/popri používaní Vášho produktu? Na dosiahnutie čoho klient najčastejšie používa váš produkt?

Vrstva 2 – Užívateľom vygenerované údaje

V súčasnosti najčastejšie diskutovanou a za hlavného predstaviteľa BIG DATA vydávanou súčasťou je nepochybne druhá vrstva. Jej podstatou sú dáta, ktoré pochádzajú zo zaznamenávania spôsobu, intenzity a iných okolnosti používania vášho produktu. Najprominentnejším zástupcom tejto vrstvy je Geolokácia (ako výsledok pohybu klienta v priestore) alebo sociálna angažovanosť (likovanie, zdieľanie na Facebooku, Tweetovanie, klientske reviews na webe a pod. ) Táto kategória je v marketingových a technologických kruhoch SR tak populárna, že väčšina menej zainteresovaných sa práve užívateľský generované údaje stotožňuje ako synonymum Big Data.

Príklady dát tejto vrstvy zo SR prostredia: Geolokalizovanie (pohyb telefónu klienta po mape krajiny počas bežného dňa); Najčastejšie operácie klienta (napr. ktoré funkcie Interbankingu klient najčastejšie používa?); Vzorce správania klienta (typické časy používania služieb, prirodzený interval opakovania použitia služby, ...)

Odomykacia otázka (na brainstorming vo Vašom odvetví): Aké údaje vytvárajú o sebe klienti pri používaní vášho produktu na sociálnych sieťach alebo inde?

Vrstva 3 – Údaje iných odvetví

Tak ako každý iný zdroj v podnikaní, aj informácie (o klientoch) prešli svoju cestu od protektívneho uzurpovania si dát do vnútra firmy až po uvoľnenejšiu výmenu dát medzi spoločnosťami. Zlé jazyky z Telco odvetvia hovoria, že potom čo telekomunikačné služby skĺzli do komoditnej cenovej vojny v samotnom telefonovaní a dátových prenosoch, obchod s klientskymi dátami je vnímaný ako možnosť čiastočne kompenzovať výpadok príjmov. V každom prípade sa objavili na scéne spojenia ako “Monetizácia dát” (=predaj anonymizovaných súborov dát alebo predaj targeting klientov pre iné (ako Telco) odvetvia ako služba od (telco) utilít) alebo “Data Vendors“ (=spoločnosti podnikajúce ako sprostredkovatelia dát o klientoch medzi rôznymi odvetviami). Do tejto kategórie sa pridružili aj služby na “Obohacovanie dát“, ktoré už v minulosti ponúkali šancu doplniť dodatočné údaje o vašich klientoch (napr. dokupovanie telef. čísiel z verejných zoznamov, približný príjem človeka na základe bydliska, či históriu ekonomických výsledkov vašich klientov z daňových databáz), ale s príchodom Big Data sa viac dostali do pozornosti. Niektoré výmeny dát z tejto vrstvy sa SR legislatíva snaží potlačiť, preto sa nezriedka zdieľajú formou spoločných (cobrandovaných) produktov daných firiem. Každý nákup dát si však treba dôkladne premyslieť, vrátane ciest ako výnosovo vyťažiť z investície do nákupu externých dát. Rovnako netreba zabúdať, že rozličné firmy môžu mať inú definíciu a kvalitu údajov pri ukladaní dát. Do popredia teda určite ide aj kompatibilita a štandard kvality a aktuálnosti ponúkaných dát.

 Príklady dát tejto vrstvy zo SR prostredia: Registre neplatičov jednotlivých odvetvíMesačné telekomunikačné náklady klienta; počet rôznych ľudí, s ktorými daný klient telefonicky komunikuje za mesiac; Priemerné platy ľudí z danej štvrte/ulice; Záplavové mapyCenové mapy nehnuteľností , ...

Odomykacia otázka (na brainstorming vo Vašom odvetví): Ktoré iné odvetvia by vám vedeli poskytnúť dáta, ktoré vy nemáte ako zistiť?

Vrstva 4 – Verejné registre SR

Zakiaľ vo vrstvách 1 – 3 z BIG DATA vrstiev možno slovenské firmy pochváliť, že sa držia veľmi obstojne, vo Vrstve 4 postavenej na externých (verejne prevádzkovaných) registrov sme na Slovensku v úplných plienkach. Banky a poisťovne rozbehli svoje odvetvové registre (napr. register poistených áut, či register bankových úverov a záruk), zatiaľ však ich použitie je limitované na svoje odvetvie. V bankovníctve už boli niektoré dopytovacie procesy na registre dokonca automatizované (stratené doklady, dopyty do soc. poisťovne, ...), takže možno hovoriť o prvých lastovičkách. Vo všeobecnosti však táto vrstva trpí neochotou verejných inštitúcií ponúkať vôbec nejaké dáta v digitálnej podobe. Je to práve vrstva 4, kde nám čím ďalej tým viac “odchádza vlak“. Do budúcna teda pre SR najväčšou prioritou BIG DATA chtivých.

Príklady dát tejto vrstvy zo SR prostredia: Databáza Obchodného registra SR, databáza Živnostenského registra SR, register ukradnutých osobných dokladov, Dlžníci sociálnej poisťovne a iných verejných inštitúcií. Databáza poistených automobilov, Databáza pozemkov a nehnuteľností (kastaster portál)

Odomykacia otázka (na brainstorming vo Vašom odvetví): Ktoré z verejnými inštitúciami poskytovaných databáz by vám pomohli lepšie pochopiť (potenciál) Vašich kleintov?

Vrstva 5 – Zahraničné dostupné registre

Zakiaľ rozmachu vrstvy 4 BIG DATA príležitosti bránil najmä pasívny prístup správcov databáz k verejnému sprístupneniu, v prípade vrstvy 5 je hlavným problémom neznalosť medzinárodných zdrojov (ktorý je na svete dosť), prípadná obava o porovnateľnosť dát, ak pochádzajú z iných krajín. Pre masívnejšie rozšírenie tejto vrstvy by teda pomohla osveta ohľadne už fungujúcich registroch, prípadne o postupe párovania dát z verejných databáz a vašich databáz. Akousi dátovou popoluškou medzi zdrojmi tejto vrstvy sú momentálne Univerzity a ich výskumné databázy. Často sú robustné a očistené o balast, čo zvyšuje kvalitu predikcie alebo vzájomného párovania. Keďže univerzity sa získanými data setmi priamo nechvália, je nezriedka ťažké dozvedieť sa o ich existencii . Preto reálne komerčné využitie tejto vrstvy asi ešte stále stojí pred nami.

Príklady dát tejto vrstvy zo SR prostredia: EUROSTAT oficiálne web stránky, dáta univerzitných výskumov. Nadnárodné spoločnosti operujúce vo viacerých krajín a porovnávajúce status klientov naprieč krajinám. Medzinárodne asociácie a organizácie (WHO, UNICEF, OECD, ...)

Odomykacia otázka (na brainstorming vo Vašom odvetví): Nič sa nepýtajte, radšej googlite!

Ak Vás blog zaujal , tu nájdete ďalšie blogy tohto autora:

Bankomat, E-banking, Smart-banking. A čo ďalej?

5 najhorších segmentácii klient v SR

Aka matka, taká banka ... (alebo čo Slovenské banky klientom nedokážu ponúknuť)

Popradský čaj sa objaví v najbližšej Bondovke ?

Komu je lojálna Vaša lojalitná karta?

Autor vedie CVM oddelenie pre Sberbank Slovensko, nájdete ho na LinkedIn alebo na Twittri. Všetky v blogu prezentované názory nie sú stanoviskom Sberbank Slovensko, ale len osobným názorom autora. 

[EN] What can Ryanair-like Database test tell about Big Data usage (not only) in Slovakia

Big Data officially became #1 buzzword not only in marketing, but also in IT circles. However, what are the real use cases of Big Data and what are just science fiction dreams? Where to start if you want to drive Big Data in markets like Slovakia?

If you have been to some IT or marketing expert conference, I am almost certain that you came across the term Big Data (maybe in the very title of the conference). Concept of 3V (velocity, volume, variety of data), that has been developed 13 years ago (would you believe its already 13 years and this topic is till in its infancy?!) was labeled by Gartner Group predecessor as the main opportunity for business development, across the industries. Later this phenomena took a name of Big Data.         And as it usually happens, if something gets catchy label, then there is no way out of that anymore...

In 2012 Big Data apparently made it in new Chanel collection, because who has (not pretended to) try to tackle Big Data in last 2 years is deemed to be outsider or at least one to be condemned. Univolved reader might stumble upon question: “Why the hack are the companies catching their breath in sprint for Big Data solutions?“ Is it really worth so? This very question we aim to answer in article. But before we dive into answering it, let us sort some basic issues first:                                                                                                                                   

We would certainly chase our own tail in circles, if we allowed for Big Data discussion without straight forward definition of what it means to operate Big Data solution. Technological companies will be grinding they teeth on following simplistic explanation, but after all Big Data can be down-to-earthly depicted as: For question we had to answer „not even clue“ in past, while there were no data, Big Data can provide very precise estimates thanks to fact that anything that has chip in it can (over distance) report its status/values. Therefore, Big Data is collecting and mutual interlinking of extensive databases, that allow for connecting large sets of parameters and reveal their mutual relations.

The real BIG DATA (similarly to Channel collection) have barely reached our tiny (sorry I meant to say tidy) Slovakia. Why it is so? Well, I leave aside popular excuses of too costly hardware or software to implement it. I am more of the view that A] Slovakia is too small a market for piloting these kind of technologies and at the same time B] Slovakia is too small a country to have enough experts to keep this issue rolling into real effects. Just for brief comparison, UK government already established dedicated office for granting public access to large government data files. In USA for more than 2 years already 6 ministries hand over the registers for public use. In our country initiative like this is not even mentioned in the political agendas of future parties, not mentioning the government mission statement. Therefore, let me set a cheeky question: Is there any way how to REALLY use BIG DATA in Slovak business? If so, in what form?

5+2 layers of BIG DATA implementation in Slovak businesses

 Since BIG DATA turned into synonym for “Welcome in our expert conference“ I heard different speakers to label almost any larger set of data to be BIG DATA source. Allowing myself a bit of the zoom-out, I noticed that the real BIG DATA sources usually (in our region) tend to cluster within one of the 5 distinct groups. These groups seem like layers of the opinion that are to be pealed one by one. To simplify the orientation among the groups, I labeled them Layer 1 to Layer 5 of BIG DATA. Each if the layers already has real presence in Slovak business environment and we shall depict them in more explanatory scheme in paragraphs to come soon.

However, same way that cooking the unpeeled onion is not much of the gourmet promise, trying to implement BIG DATA tools without “pealing off the outer skin“ of it is damn right serious mistake. Therefore, I added extra two zero layers (0A & 0B) into model that should company realize (=peel) before cracking into very BIG DATA. Those people, who went all-in on BIG DATA, would probably protest here, but I am convinced that these 2 “zero layers“ should be peeled off as the first task. But take a chance to form your own judgment:

For beter orientation of the reader(s), I mapped the 5+2 layers into single scheme. Besides the description of the layers, each layer carries an “opening question” by which you can brainstorm on other use cases in your very own industry. I also attach some examples of already completed implementations of layer, as well as what were/are the main implementation hurdles to launch given layer.

[EN/SK]

BIG DATA uses in SLOVAKIA Zdroj: (C) Filip Vitek

 I do not dare to judge how many companies have already reached which level of the list, but I have seen real cases of Layer 1 and Layer 2 utilization (e.g. GPS data used to calculate level of safety of company car usage or using social media client profiles to target more precisely in offers of insurance or banking products). On top of that, recently I have been part of the 2 projects on monetizing data from Layer 3 of the BIG DATA onion. Admittedly, really useful uses of the 4th and 5th layer in Slovak business are next to scarce. For most of the Slovak businesses I have seen reaching to somewhere around Layer 2. The majority of the (Slovak) businesses, thus, is still at the primary stages of implementation. May you find yourself facing this introductory stage, do not hesitate to contact me for chat or piece of advice on getting the BIG DATA rolling in your company.

This is the right moment to close the official discussion on BIG DATA progress in Slovakia. If you got more interested about the specific of the layers, you can follow on with reading of the detailed profiles of each of the Layer in next paragraphs:

Layer zero A – Unused own data

 If you have ever read anything about business model of the European low-cost airline Ryanair, you might know that their primary business objective is how to create additional revenue per customer over the course of the flight. (at certain point in past they opened discussion on charging the passengers with 1 EUR fee for using the in-aircraft toilettes). Before implementing the real layers of the BIG DATA, company should undergo something that can be labeled as „Ryanair database test“. Its substance is to find monetizing revenue stream for “selling data“ in any of the existing parameters of the data warehouse. (including client address and other mandatory fields). In other words, let us imagine you should be earning the company revenue SOLELY from trading the content of your data fields. Which of the existing data fields you would be struggling to find anybody interested in buying these fields? I are ready to challenge you on this, as I personally believe there is info potential in ANY of the (even dull, mandatory) data fields. This little “ryanairish exercise“ will help you to reveal yet untapped sources of internal data, unless you find potentially interested buyer for ALL items of your data items. Have you been stuck with some parameters and have no clue what the utilization might be? Just contact me and I shall challenge you with use cases of this “un-sellable“ data fields.

Use case of using this Layer: Typicallogin time to Internet banking, Day in the month when one pays insurance bills, Share of missed calls that client tries to redial later, geographic distance between client and the nearest branch ...

Unlocking question (for Brainstorming in your industry): Which data fields in your data warehouse you cannot imagine to monetize, as you do not see any usage case for data stored in given data fields?

[Description of other 6 BIG DATA layers in English will be published later in this blog or can be obtained upon contacting the blog’s author.]