Forensische big data analyse (FBDA) richt zich op technieken voor intelligente data-analyse om essentiële informatie te halen uit grote hoeveelheden digitale gegevens.
Overheidsdiensten in de Openbare Orde- en Veiligheidssector (OOV) kunnen met hulp van FBDA grote hoeveelheden informatie effectiever verwerken en de openbare orde en veiligheid beter handhaven.
FBDA kan grote hoeveelheden informatie effectief verwerken.
Een fictief voorbeeld: doorzoeken van e-mails en van papieren dossiers
Een bekende van de politie is geliquideerd. In de jaren tachtig was deze man zeer actief in het criminele circuit; de politie denkt aan een afrekening. De politie heeft kasten vol oude dossiers over de man, te veel om handmatig te doorzoeken. Tijdens het politieverhoor vertelt de weduwe dat haar man grote schulden had. Naar aanleiding daarvan neemt de politie de laptop van de man in beslag.
Welke vragen beantwoordt FBDA?
Hoe ziet het relatienetwerk van het slachtoffer er uit?
Welke personen, telefoonnummers en rekeningnummers worden genoemd in de context van financiële details, zoals geldbedragen, schulden en transacties?
Welke e-mailberichten zijn het meest relevant om nader te onderzoeken?
Welke methoden gebruikt FBDA?
Gescande oude politiedossiers worden omgezet naar digitale tekst. Bij het omzetten naar de tekst maakt de software veel fouten in het herkennen van letters en cijfers. FBDA past een op maat gemaakte techniek toe om deze te corrigeren.
Uit de e-mails en de gecorrigeerde digitale teksten haalt het systeem vervolgens automatisch ‘entiteiten’. Dit zijn bijvoorbeeld persoonsnamen, organisaties, locaties, telefoonnummers en rekeningnummers. In het FBDA-lab wordt deze informatie op een slimme manier gevisualiseerd voor de politie, die het gebruikt om te kijken of er verbanden zijn te ontdekken in de gegevens.
Samen met de politie wordt een lijst met financiële termen opgesteld. Entiteiten die in de buurt van dergelijke termen voorkomen, worden verzameld. Ook hier kunnen de rechercheurs weer verder onderzoek op doen.
De politie levert voorbeelden aan van interessante e-mails. Door een model te bouwen met de belangrijkste kenmerken van die voorbeelden en dit toe te passen op de overige mails, kunnen meer soortgelijke berichten worden gevonden en de berichten.
Mogelijke uitkomsten van het onderzoek door FBDA:
Doordat de politie nu interactief kan rechercheren met behulp van de zoekomgeving is in één keer het gehele netwerk van het slachtoffer zichtbaar en te analyseren, zodat de politie sneller kan beslissen welke relaties interessant zijn voor verder onderzoek. Ook kan het handmatige doorleeswerk tot een minimum beperkt blijven.
De lijst met entiteiten die te maken hebben met financiën levert nieuwe inzichten op: het slachtoffer lijkt zijn connecties te hebben vernieuwd met criminelen die al sinds de jaren tachtig bekend staan om hun witwaspraktijken.
De politie heeft veel tijd bespaard doordat veel e-mailberichten niet gelezen hoefden te worden. Uit de als belangrijkste aangewezen mailberichten kwam al snel naar voren dat het slachtoffer dreigmails heeft ontvangen omdat hij geld schuldig was. De afzenders daarvan worden direct nagetrokken.
Ik was heel bewust opzoek naar een data science plek en bij heel veel bedrijven zie je dat dat gevraagd wordt, maar dan vooral om te zorgen dat mensen meer op jouw banners klikken en om meer inkomsten binnen te halen. Ik wilde juist wat meer inhoud, dat je echt iets doet dat goed is voor de samenleving. We werken hier aan analyses en visualisaties voor politie, OM en allerlei andere partners binnen de veiligheidsketen. We doen strafzaken, projecten en onderzoek.
Een strafzaak is precies wat je denkt dat het is. Strafzaken, moord, echt zware dingen. Er zijn stukken bewijs gevonden en dat moeten wij als NFI interpreteren en uitspraak doen over wat het bewijs precies zegt en in hoeverre dat voor- of tegen- de verdachte spreekt. Ook aan de opsporingskant werken we mee, als de politie heel veel data verzameld heeft en ze kunnen er eigenlijk niet meer mee uit de voeten dan komen wij langs om het inzichtelijker te maken. Om ze daarbij te helpen en ook om analyses te doen om het opsporingswerk te ondersteunen. Iedereen gebruik mobieltjes, voor criminelen is dat niet anders, ze hebben er vaak zelfs meer dan één. Daar kan je heel veel gegevens over opvragen. Over waar die mobieltjes geweest zijn en wat dat betekend. Dat kan je dan combineren met andere gegevens zoals kentekenregistraties of andere gegevens over waar criminelen vaak komen of wie hun contactpersonen zijn. Dan kan je een heel beeld opbouwen, een patroon van die mensen, hoe ze zich bewegen en daar hopelijk interessante dingen uit halen.
Alles wat we doen is maatwerk, het is altijd veel werk om alles goed bij elkaar te krijgen en netjes in de database te stoppen. Voor echt het analysewerk zijn er allerlei open source tooltjes die we daarvoor gebruiken. We gebruiken voornamelijk Python en alle libraries die daar aan vast zitten. Dus veel in scikit-learn en in TensorFlow en dat soort dingen. Machine Learning gebruiken we om statistische-achtige analyses bouwen. Om echt op het goede antwoord uit te komen. Waarbij je weet dat het belangrijk is want iemand kan naar de gevangenis gaan of niet, op basis van jouw antwoord. Het belangrijkste om hier te werken is dat je interesse hebt in puzzels oplossen. Programmeren, een beetje software engineering moet je hebben, statistiek, Machine Learning, wiskunde. Maar dat gezegd hebbende is het heel breed. Het is een vrij nieuwe discipline; Data Sience en we hebben een aantal mensen vanuit de computerwereld, een aantal mensen uit de natuurkunde en wiskunde maar ook mensen die psychologie gedaan hebben en zichzelf de rest van de skills bijgeleerd hebben. De forensische-kant leer je meestal hier.
Behalve technische dingen kunnen, moet je in een team kunnen werken. Niet iedereen kan dat, maar dat is hier wel echt heel belangrijk. Dat je kritiek kan geven maar ook kritiek kan krijgen en samen een product bouwen. Daarbij, omdat het forensisch is, moet je echt betrouwbaar zijn. Je werkt met vertrouwelijke gegevens, dus daar moet je je wel van bewust zijn. Ik vind juist het leuke aan data science dat je zó veel verschillende mensen hebt, met zó veel verschillende achtergronden. Je kan veel meer leren als mensen een hele andere achtergrond hebben dan als ze allemaal hetzelfde zijn als jij.