In deze bijdrage proberen we het fenomeen Big Data Analytics te definiëren en te omschrijven. Zonder volledig te willen zijn (zo zijn de ethische en privacy aspecten eigenlijk een discussie op zich) belichten we een aantal algemene aspecten.
Als u dit leest is de kans bijzonder klein dat u nog nooit van Big Data gehoord hebt. Sinds enkele jaren worden we immers zowat dagelijks met de term om de oren geslagen in de media. In een recent rapport besteld door Barack Obama wordt Big Data voorgesteld als niets minder dan een revolutie.
En toch, wie kan zeggen precies te weten wat ermee bedoeld wordt? Het blijkt dat er zeer uiteenlopende meningen bestaan en velen zien Big Data als een zoveelste buzz-woord, gebruikt om indruk te maken, maar inhoudelijk zeer vaag. Maar ook het internet, dat tegenwoordig gemeengoed is, werd aanvankelijk door sommigen gezien als een hype. Nu is het voor vele mensen dé informatiebron bij uitstek, en het googelen heeft terecht zijn plaats gevonden in de woordenboeken van de Nederlandse taal.
BIG DATA, BIG BUSINESS, BIG DEFINITIONS
Wat meteen opvalt bij dit googelen is dat het vooral de grote IT bedrijven zijn die naar boven komen in de zoekresultaten. Het fenomeen Big Data lijkt vooral geassocieerd met de IT Business, eerder dan met de academische wereld of de grote wereldleiders.
In de IT business wordt het marktonderzoeksbureau Gartner vaak geciteerd als de referentie voor investeerders die de technologische evoluties willen volgen. Het is dan ook Gartner’s 3V definitie in verband met Volume, Variety en Velocity waarnaar vaak verwezen wordt als de norm.
Terwijl de eerste V verwijst naar de reusachtige volumes aan data die worden gegenereerd door de huidige geautomatiseerde processen van bedrijven, overheid en in de sociale media (alsook het zogenaamde Internet of Things), benadrukt de tweede V dat die data van zeer uiteenlopende structuur en inhoud kunnen zijn, van zeer gestructureerd, zoals bijvoorbeeld databanken met officiële gegevens, tot ongestructureerd, zoals bijvoorbeeld het geheel van de posts op internetfora. De derde V verwijst naar de grote snelheid waarmee de data gegenereerd worden in het kader van mekaar snel opvolgende transacties, zoals bijvoorbeeld op de beursvloer, real-time metingen en uiteraard de vele interacties die zich afspelen op het internet. Deze drie dimensies samen kunnen er toe leiden dat de conventionele manieren van data-opslag en verwerking niet meer toereikend zijn.
Het onderliggend idee is dat Big Data een enorm potentieel aan waardevolle informatie bevatten. Het extraheren en exploiteren van die informatie kan een substantieel competitief voordeel opleveren.
“Frequently bought together” ANALYTICS toegepast op BIG DATA
De aankoopsuggesties die u krijgt bij de on-line aankoop van een boek zijn het resultaat van een analyse van het aankoopgedrag van alle klanten die ook in dat boek geïnteresseerd waren en de kans dat u overtuigd kan worden zo’n suggestie in uw winkelwagentje te laden is groter dan voor een willekeurig boek. Dit is een typisch voorbeeld van wat men Analytics noemt.
Analytics is echter een buzz-woord op zich dat hand-in-hand gaat met Big Data. Of liever, een hele familie van termen: predictive analytics, advanced analytics, business analytics, text analytics … Het algemene idee van het exploiteren van data om waardevolle inzichten en informatie te verwerven is zeker een werkbare definitie, maar de verwerking van de data die er achter schuil gaat is ook heel divers en kan gaan van low-level beschrijvende statistiek tot state-of-the-art complexe modelleringen door experten in een bepaald vakgebied.
Big Data is innovatie …
Enerzijds zorgen het (deels mobiele) internet, de automatisering en de informatisering voor steeds groter wordende datasets. Anderzijds zijn er een aantal reële technologische evoluties in de IT die het mogelijk maken effectief Big Data te verwerken. De recente evoluties op het gebied van de commodity hardware voor opslag en verwerking, in combinatie met nieuwe performante technologieën voor gedistribueerde database servers zijn zonder meer verbluffend.
In parallel hiermee is er een ongekende vooruitgang in het domein van de computerwetenschappen op het vlak van kunstmatige intelligentie en machine learning, gebaseerd op het feit dat computersystemen in zekere mate de menselijke intelligentie kunnen nabootsen en als het ware kunnen leren van de data. Het is precies deze combinatie van innovatieve technologie en algoritmes die aan de basis liggen van de Big Data Analytics succesverhalen in domeinen zoals bijvoorbeeld fraude-detectie en internet marketing.
Big Data Analytics op het terrein van de statistiek en de data-analyse
Toch moet men tegelijk ook opmerken dat het idee om informatie uit data af te leiden niet nieuw is, maar traditioneel toebehoort aan de domeinen van de statistiek en de data-analyse. Een groot aantal Big Data Analytics technieken zijn bovendien rechtstreeks ontleend aan de statistiek, hoewel dat slechts zelden expliciet zo gesteld wordt. Zo spreekt men bijvoorbeeld niet over de statisticus maar gebruikt men de term data scientist of data miner voor de persoon die de analyse uitvoert en interpreteert.
Om beter te begrijpen wat de verschillen zijn tussen de traditionele aanpak en de Big Data Analytics filosofie vermelden we een aantal impliciete aannames die vaak naar voor komen in Big Data Analytics voorbeelden en boeken over het onderwerp. Deze aannames zijn onder meer:
- dat alle data voorhanden zijn (geen steekproef) en dat “verborgen” verbanden dank zij automatische maar rekenintensieve methoden naar boven komen,
- dat een causaliteitsbewijs (oorzakelijk verband) niet altijd nodig is omdat correlaties vaak voldoende informatief zijn,
- dat data-quality niet zo’n groot probleem is.
Over deze aannames bestaan echter meningsverschillen en er wordt druk gedebatteerd tussen verschillende scholen van Big Data Analytics. Toch blijkt er nu een grote consensus te komen dat data-quality wel degelijk cruciaal is. Zo wordt aan de definitie nu vaak de V van Veracity (betrouwbaarheid) toegevoegd.
De V van aVailability … ?
Dé cruciale aanname is uiteraard dat Big Data daadwerkelijk beschikbaar is voor diegene die een bepaald analytics project voor ogen heeft. Hier moet men echter rekening houden met ownership van de data (de bereidwilligheid (of prijs) van de eigenaar om de data ter beschikking te stellen), privacy aspecten en technische beperkingen. Deze factoren mogen er niet toe leiden dat de data die in de dataset komen niet diegene zijn die het meest relevant zijn voor het project, maar diegene die het gemakkelijkst beschikbaar zijn.
Back to Basics… het doel als vertrekpunt
Big Data Analytics legt de klemtoon op het laten spreken van de data, de zogenaamde data-driven benadering, maar hierbij mag men niet uit het oog verliezen wat het uiteindelijke doel is van de analyse oefening.
In een context van fraude bestrijding of voor een marketing campagne is het doel typisch het bereiken van een zo hoog mogelijke performantie in termen van detectie van de echte fraudegevallen of het bereiken van nieuwe klanten. In deze voorbeelden is een Big Data Analytics aanpak vaak aangewezen: meestal is de opdrachtgever ook eigenaar en beschikt die over de volledige data. Bovendien gaat het er niet om een bepaalde theorie te valideren en daardoor is er meer flexibiliteit qua modellering dan in de klassieke statistiek en data-analyse.
Anderzijds, in een wetenschappelijke studie is het vertrekpunt vaak een concrete en precieze onderzoeksvraag. De opgebouwde expertise en literatuur in een bepaald vakgebied suggereert dan welke de te volgen methodologie is, welke de relevante data en welke de pertinente analysetechnieken zijn. In de meeste gevallen passen de data netjes op één machine en daarom spreekt men tegenwoordig soms over …. Small Data.
Uiteraard kan de technologie en methodologie van Big Data Analytics bijkomende mogelijkheden en verdere inspiratie bieden voor wetenschappelijk onderzoek, maar de toegevoegde waarde is niet altijd gegarandeerd.
Besluit
Het is onmogelijk in een blog formaat een volledig overzicht te geven van Big Data Analytics, zelfs niet als we ons beperken tot de definities. De term Big Data Analytics verwijst enerzijds naar innovatieve technologieën en methodologieën die nieuwe baanbrekende toepassingen kennen maar is anderzijds te vaag om een zinvolle discussie mogelijk te maken (sommige sprekers vermijden bewust deze terminologie).
De hype heeft ongetwijfeld tot onrealistische verwachtingen en verwarring geleid bij het ruime publiek. Zo wordt soms de indruk gewekt dat het beschikken over een bepaalde technologie voldoende is, terwijl het verzamelen en voorbereiden van de data ook een hele klus kunnen zijn, om nog niet te spreken over de analyses die vaak slechts door experten kunnen uitgevoerd worden. Het is ook duidelijk dat Big Data Analytics niet zomaar alle vraagstukken kan oplossen.
Volgens de typologie van de hype cycle van Gartner stevenen we dan ook af op de zogenaamde trough of disillusionment, het stadium waar een deel van het publiek afhaakt omdat de hooggespannen verwachtingen niet worden waar gemaakt. Dit is een noodzakelijke fase die voorafgaat aan de duurzame maturiteit van elke technologie.
Op termijn kunnen we echter zeker verwachten dat een aantal technologieën hun plaats zullen vinden en dat er een grotere belangstelling zal komen van het publiek naar onderzoek gebaseerd op data en feiten. In die fase van maturiteit zal ook duidelijk worden welke de duurzame toepassingen zullen zijn van Big Data Analytics, welke technologieën geïntegreerd werden in bestaande vakgebieden en welke terminologie zal overblijven.
De hoeveelheid data die we met z’n allen opslaan, blijft gestaag groeien. Veel bedrijven beseffen nog niet wat de meerwaarde is van big data. Marketing- en verkoopsafdelingen zien wel voordelen, maar ook zij gebruiken nog lang niet alle mogelijkheden. Long way to go…
Pingback: Data Centric IT met REST | Smals Research
Pingback: Het Event als Leidend(!) Voorwerp in Software Engineering | Smals Research