Help, ik heb meer data nodig!

31 maart 2015
Help, ik heb meer data nodig!

Hoe relevanter de input data is, hoe waardevoller inzichten uit BI-tools zullen zijn. Veel bronnen van data worden vaak niet door organisaties gezien en/of gebruikt.

Om echt als digitaal bedrijf te gaan werken, zul je moeten beginnen met real-time business intelligence. De mate waarin deze BI relevante inzichten biedt, is afhankelijk van hoeveel data je tot je beschikking hebt.

In de vroege dagen van BI werd data opgeslagen in gigantische enterprise datawarehouses en datamarts. Diskopslag was al een prijzige aangelegenheid, maar omdat licenties van datawarehouse databases afhingen van de hoeveelheid data, kon het bedrag dat je kwijt was in de vele duizenden euro's lopen. Als nieuwe data kandidaat was voor het datawarehouse, moest het kostenefficiency compromis altijd eerst onderzocht worden.

De afgelopen jaren is de prijs van storage flink gedaald. Er zijn allerlei opties - van commodity harde schijven in redundante architecturen tot in-memory geheugen; er zijn opslagopties die bij iedere behoefte en budget passen. De opkomst van Hadoop heeft voor verbreding van het palet gezorgd. Hadoop combineert oneindig schaalbare storage en een processing engine in hetzelfde platform.

Prettig is dat de meeste van deze nieuwe alternatieven prima naast bestaande infrastructuren kunnen bestaan. Veel vendoren doen enorm veel moeite om hecht geïntegreerde hybride architecturen mogelijk te maken.

Wat zijn de bronnen van data waaruit je waardevolle inzichten kunt halen?

1. Sensormetingen

Als jouw business draait op het verkopen van intelligence van verbonden apparaten, dan verzamel je al sensordata en ben je in feite al een digitaal bedrijf. Toch gooien veel organisaties bergen ongelooflijk waardevolle sensordata weg en behouden ze alleen wat rampen kan voorkomen.

Maar als je de metingen van honderden sensoren die in een auto zitten of in de productielijn van een fabriek voorkomen meeneemt, kan het enorm worden voor een automonteur of productielijnmanager om patronen van storingen te ontdekken, prestaties te optimaliseren of zelfs preventief onderhoud te plegen voordat er problemen optreden.

2. Logbestanden

Logs komen in allerlei vormen en maten, denk bijvoorbeeld aan toegangsinformatie van deuren, websurfhistorie, GPS-locatiehistorie, informatie afkomstig uit beveiligingssystemen - allemaal dienen ze een specifiek doel, maar ze vragen ook veel volume. Het gevolg is dat de meeste organisaties ze na een paar dagen of weken weggooien en daarmee waardevolle inzichten missen in bezoekersstromen, liftgebruik en compliancy met standaarden.

Logdata is meestal relatief goed gestructureerd en daarvoor vrij eenvoudig naar een datameer te leiden van waaruit het gebruikt kan worden om meer traditionele datawarehouse structuren te complementeren.

3. Ongestructureerde data

Ongestructureerde data als audio, video, tekstuele informatie, etc. - opgeslagen op individuele computers, servers of in de cloud - kan worden uitgepluist op zoek naar informatie. Uiteraard moet de data goed worden voorbereid om goed verwerkt en getagd te kunnen worden en dat kan een flinke klus zijn.

4. Open data en data uit een netwerk

Data van derden, of het nu gaat om open data van overheden of publieke instanties of van andere bedrijven, kunnen geweldige inzichten opleveren over zaken als demografie, gedrag, financiën en geografische informatie. Er zijn steeds meer commerciële leveranciers die je deze data kunnen verkopen.

Het verkrijgen en opslaan van data is zowel kostentechnisch als businesswise aantrekkelijker dan ooit tevoren en kan worden geautomatiseerd met moderne integratietools en/of REST API's. Als je vermoed dat aanvullende input iets extra's kan bieden aan je business intelligence, dan is het nu het moment om aan de slag te gaan!

Bron: CIO.nl