5 zaken die je moet weten over Data Science

16 juni 2016
5 zaken die je moet weten over Data Science

Er is vrijwel geen enkel bedrijf dat geen data verzamelt.

Of het nou een groot oliebedrijf is dat door middel van sensoren mogelijke vervuiling registreert of de plaatselijke bakker die bijhoudt welke klant welk brood koopt, iedere organisatie herkent de waarde die in data verscholen ligt. Het verzamelen is dan ook niet de moeilijkheid; dat zit hem in de analyses van die data, in de algoritmes en de modellen.

Vijf punten die je niet moet vergeten wanneer je met data science aan de slag gaat.

1.Data cleaning

Data komen in grote hoeveelheden onze organisaties binnen. Een eerste stap van de data scientist is om de data eerst in het juiste formaat te gieten, corrupte data te verwijderen en grootheden in de data (volume, snelheid, lengte et cetera) te harmoniseren. Dit wordt ook wel data cleaning genoemd.

Het zou zeer handig zijn als alle data met elkaar overeenkwamen, vergelijkbaar waren en uit een rechtlijnig bestand konden worden gehaald. Maar zo simpel verloopt het proces meestal niet. We verzamelen data uit diverse soorten bronnen (Centraal Bureau Statistiek, databases, historische bronnen Twitterfeeds, PDF’s,). De data scientist moet alle data samenvoegen wil hij of zij hier analyses op los kunnen laten. De kennis en kunde van die data scientist is in deze stap dus zeer waardevol. Want hoe zorg je ervoor dat de resulterende combinatie van alle verschillende gegevens ook daadwerkelijk zinvol, volledig en foutloos is? Daar is veel ervaring met data voor nodig.

2.Correlaties zeggen niets

Bij het toepassen van data science is het cruciaal om te begrijpen wat data inhouden en welke processen die data tot stand hebben gebracht. Wanneer duidelijk is waar een organisatie naar op zoek is, is te bepalen welke databronnen bruikbaar zijn. Als een bedrijf bijvoorbeeld het falen van een machine wil voorspellen, is het essentieel om niet alleen naar de faalhistorie te kijken. Dan moeten ook andere facetten in ogenschouw worden genomen die een hoge correlatie hebben met het falen van dat apparaat. Denk aan informatie over hoe het apparaat gebruikt is of aan slijtagedata. Vervolgens moet de data scientist beoordelen of die correlatie kan worden herleid tot een causaal verband. Is het één daadwerkelijk het gevolg van het ander?

Correlaties an sich zeggen namelijk niets. Uit onderzoek bleek bijvoorbeeld dat de verkoop van ijs een sterke correlatie heeft met verdrinking of moord. Statistisch gezien kwamen de juiste correlaties uit de analyse, maar er is helemaal geen causaal verband voor te vinden. Het is een klein, maar zeer belangrijk onderscheid. Causale verbanden kun je herleiden en die zeggen dus iets over de oorzaak-gevolgrelatie tussen data.

De data scientist moet alle data samenvoegen wil hij of zij hier analyses op los kunnen laten. De kennis en kunde van die data scientist is in deze stap dus zeer waardevol.

3.Schat data op de juiste waarde

Vaak gaat men klakkeloos met data aan de slag, maar het is essentieel om eerst de context van de data goed te begrijpen. Zo is veel ‘machine learning’-techniek geënt op statistiek. In een dataset kan bijvoorbeeld de status van een machine zijn gelogd. Zo’n machine kan aan staan, of uit. Een nulletje of een eentje. Aan of uit-informatie heeft statistisch gezien geen tot weinig verband met het al dan niet falen van de machine. Wil je de faalkans kunnen voorspellen, dan is dat voor die specifieke situatie dus irrelevante data.

Is echter bekend dat de betreffende machine alleen in storing kan raken als hij aan staat, dan is de statusinformatie dus in een keer wel relevante data. Die informatie moet dan ook meegenomen worden in het model dat het falen van de machine moet voorspellen. Ook hierom is het dus cruciaal om te begrijpen wat het proces is en inhoudt, om te begrijpen hoe data tot stand komen en om inzichtelijk te maken wat waardevolle data zijn.

4.Classificatie is key voor predictive analytics

Zoals gezegd is het van belang om te achterhalen waarnaar een organisatie op zoek is; de zogenaamde business requirements. Een ‘data science’-programma opstarten omdat het hot is zonder dat er duidelijke bedrijfsdoelstellingen zijn, is dan ook vaak kansloos. Als een organisatie duidelijke vereisten heeft, zoals het voorspellen van falen van bedrijfskritische apparatuur, dan is het belangrijk om voldoende ‘faaldata’ te hebben. Dat is het digitale bewijs van falen van een bepaalde machine en de reden voor dat falen. Op basis van die data kan een classificatie van falen worden vastgesteld. Als een organisatie deze data nog niet voldoende voorhanden heeft, is het nog niet klaar om voorspellende modellen te ontwikkelen.

Zijn die data er wel, dan is voorspellen mogelijk door onder meer ‘supervised learning’-technieken toe te passen, een van de manieren van machine learning. Met supervised learning dienen er voldoende gekwalificeerde data voorhanden te zijn. Zodoende kan er een model ontwikkeld worden dat een voorspelling doet op basis van wat er in het verleden is voorgevallen. Daarvoor dient de data scientist voldoende uitkomsten te verzamelen, zodat hij modellen kan creëren die met een redelijk hoge precisie de uitkomst kunnen nabootsen. Als er nog geen classificatie heeft plaatsgevonden, zijn er verschillende unsupervised learning-methoden voorhanden. Zulke algoritmes doen niet zozeer voorspellingen, maar detecteren afwijkingen van reguliere patronen.

5.Start met wat je voorhanden hebt

Kijk ten slotte altijd eerst naar de data die al verzameld en opgeslagen worden. Wij zien vaak dat de focus in data science-projecten ligt op het verkrijgen van nieuwe data, door bijvoorbeeld sensoren te plaatsen of door allerlei andere externe en nieuwe databronnen te koppelen. Daarmee wordt veelal overgeslagen wat er al aan data is, terwijl de praktijk leert dat die vaak al genoeg inzichten bieden. Soms zien we wel eens projecten waarbij gigantisch geïnvesteerd wordt in sensortechnologie, terwijl de bijdrage van die data uiteindelijk marginaal blijkt te zijn. Onze regel is: begin met wat er is. Het is niet noodzakelijk om te starten met het genereren van nieuwe data. Dat kan altijd in een later stadium nog.

Leer over data om juiste keuzes te maken

Het aantal data scientists op deze wereld is beperkt. En hoewel de universiteiten heus – wat betreft opleiding – in deze behoefte gaan voorzien, zien we dat er steeds meer laagdrempeliger tools op de markt komen voor de zogenoemde Citizen Data Scientist. Daarmee wordt de drempel om met data science aan de slag te gaan lager.

Toch moet je blijven opletten dat je niet te snel te veel hooi op je vork neemt. Vooraleer je gaat investeren in mensen en technologie, moeten de business requirements goed in kaart zijn gebracht en moet er een goede ROI zijn. Bedenk dus dat er meer bij data science komt kijken dan de trend doet vermoeden. Het blijft, zoals de term zegt, immers wetenschap: het systematisch verwerven van kennis.

Jules Oudmans, director consultancy bij UREASON