Machine learning werpt een ander (dashboard) licht op de Paradise Papers

11 december 2017
Machine learning werpt een ander (dashboard) licht op de Paradise Papers

Maar liefst 380 journalisten hebben sinds begin dit jaar 13 miljoen documenten uit de Paradise Papers onderzocht. Het kostte bijna een jaar om deze documenten te doorzoeken op zoek naar de connectie tussen, onder andere, president Poetin en de Amerikaanse minister van handel Wilbur Ross. Een indrukwekkende prestatie, waarbij data science en machine learning-algoritmes een belangrijke rol kunnen spelen.

Zoals sommige journalisten het uitdrukten leek het onderzoeken van de Paradise Papers op het zoeken naar een naald in een gigantische hooiberg. Vaak onderzochten ze een bepaald spoor lange tijd om er vervolgens achter te komen dat het een dood spoor was. Dit is nou precies waar data science kan helpen: om patronen efficiënt en effectief te zoeken in enorme hoeveelheden data.

Als tijdens dit onderzoek machine learning en data science waren gebruikt, zou dit waarschijnlijk veel sneller tot bruikbare resultaten hebben geleid, zelfs met een veel kleiner team dan de 380 journalisten die hier maanden mee bezig zijn geweest. Algoritmes voor data science en machine learning kunnen het onderzoeksproces ondersteunen door potentiële 'verdachte' patronen te laten zien. Machine learning kan de menselijke factor niet vervangen, maar zou het onderzoek aanzienlijk versnellen: in plaats van op zoek te gaan naar de interessante patronen in de berg data, kunnen de journalisten zich richten op het valideren van patronen die door de machine zijn ontdekt.

Waar de computer het verschil maakt: snelheid

Een dergelijk gebruik van data science is verre van nieuw. Elke dag worden soortgelijke algoritmen voor ontelbare transacties gebruikt zonder dat we het merken. Denk alleen maar aan de financiële sector. De analyse van financiële transacties wordt niet langer uitgevoerd door menselijke experts, maar eerder door computers die algoritmes voor machine learning gebruiken om deze analyses supersnel uit te voeren. Voor elke transactie via een betaalterminal in een winkel moet de computer binnen zes seconden beslissen of de transactie geldig is of niet. Binnen dat korte tijdsbestek worden alle relevante gegevens verzameld, onderzocht op patronen en gemarkeerd als er een anomalie is gedetecteerd. Gedurende deze processen is er een continue leercurve om te begrijpen hoe fraudeurs werken. Met machine learning kunnen de computersystemen ook specifieke patronen identificeren en algoritmen daarop aanpassen.

Deze machine learning-technologie kan een grote bijdrage leveren aan het Paradise Papers onderzoek. Machines kunnen transacties tussen organisaties en mensen herkennen en analyseren in een fractie van de tijd die menselijke onderzoekers nodig hebben, wat tot veel snellere resultaten leidt.Netwerkanalyse, ook een toepassing van machine learning, onderzoekt automatisch alle verbindingen tussen ondernemingen, individuen en organisaties. Deze techniek levert een waardevolle bijdrage aan het analyseren en visualiseren van netwerken: wanneer deze taken handmatig worden uitgevoerd, kunnen deze enorm veel tijd in beslag nemen.

Waar de journalist het verschil maakt: interpretatie

Met behulp van tekstanalyse kun je automatisch personen, ondernemingen, relaties en andere interessante informatie uit een groot aantal documenten halen. Deze ongestructureerde documenten worden vervolgens omgezet in gestructureerde informatie. De computer zorgt voor alle voorbereidingen, de journalisten kunnen zich vervolgens richten op de verdere analyse.

Het detecteren van grootschalige, georganiseerde fraudenetwerken is niet beperkt tot science fiction. De krachtige combinatie van mens en machine maakt een snelle en effectieve ontmanteling van dergelijke netwerken mogelijk. Naarmate de gegevensverwerking volwassener wordt, zijn we hopelijk in staat dergelijke anomalieën te ontdekken en aan te pakken, zelfs zonder datalekken.

Eén enkele machine kan het handmatige werk van honderd personen vervangen. Maar uiteindelijk kun je alleen succesvol zijn met de juiste interactie tussen mens en machine. Een computer kan correlaties blootleggen, maar (nog) niet de causaliteit. Het kan heel veel routes heel snel ontdekken, maar het heeft nog steeds mensen nodig om de zoektocht te begeleiden en om de ontdekkingen te verwerken. Want uiteindelijk, zelfs als het wordt gedreven door machine learning, mist een computer nog steeds het vermogen van menselijke interpretatie.