Data Preparatie kost organisaties teveel tijd en gaat ten koste van data-analyse. De uitdagingen zijn enorm maar niet onoverkoombaar. In deze whitepaper kunt u lezen hoe organisaties in de voorbereiding hun data schoon, compleet, correct, representatief en bruikbaar houden. En vooral: zo efficiënt mogelijk!
In de paper komen de volgende thema’s aan bod:
Data scientists besteden 50 – 80 procent van hun tijd aan de preparatie van ruwe data, in plaats van aan het analyseren van deze data. Maar er zijn een aantal doorbraken gaande die dit kunnen veranderen. Voorheen richtte IT zich met ETL op integratie en synchronisatie van data vanuit verschillende systemen in een organisatiestandaard. Met self-service algoritmes kan de gebruiker nu zelf op zoek naar een antwoord op zijn vragen in de ‘data lakes’. Dit heeft geleid tot een grote verlichting van de werkdruk bij data-analisten, waardoor ze zich nu beter op hun core business kunnen richten.
In de huidige data tsunami moeten ondernemingen creatief zijn om gegevens op de juiste manier te verwerken. Data preparatie wordt niet langer gezien als een tijdrovende bezigheid met weinig prioriteit, maar als essentieel om chaos en kostbare fouten later in het bedrijfsproces te voorkomen. Een van de best practices is om data preparatie centraal onder te brengen bij IT, om zo self-service instrumenten zoveel mogelijk te bevorderen. Ook wordt in de paper aanbevolen om data preparatie deel te laten uitmaken van de analytics workflow. Alleen zo wordt duidelijk hoe bruikbaar welke data écht is voor verder gebruik.
De auteurs van de whitepaper identificeren drie ‘personas’ ter gebruik van de verschillende functies en functionaliteiten die datapreparatie eist. Met de komst van nieuwe oplossingen voor data management als cloud, big data en machine learning, is het hoognodig om ook de basis van database - en analytics processing te transformeren.