NFI leert computers om berichten met doodsbedreiging uit grote hoeveelheden data te filteren

‘Ik wil bloed zien’ of: ‘Doe een kogel in zijn hoofd’. Het zijn voorbeelden van berichten die via Encrochat verstuurd werden. Criminelen waanden zich veilig op de server, maar niets bleek minder waar. De politie kon veel berichten meelezen. Ze wilden berichten met een bedreiging er zo snel mogelijk uithalen om mishandelingen, ontvoeringen en liquidaties te voorkomen. Het Nederlands Forensisch Instituut (NFI) heeft daarom een model ontwikkeld om de politie te helpen voorspellen welke berichten een serieuze bedreiging bevatten.

Speld in hooiberg

Uit de chatdienst Encrochat werden 25 miljoen berichten onderschept. Als je die berichten handmatig wil doorzoeken, ben je wel even bezig. Het is zoeken naar een speld in een hooiberg. Dat terwijl in het geval van berichten met levensbedreigende boodschappen haast geboden is. Het team voor Forensische Big Data Analyse (FBDA) van het NFI bouwde eerder een computermodel om drugs gerelateerde berichten te herkennen in grote hoeveelheden berichten die verdachten aan elkaar stuurden. Vervolgens begon het team met vergelijkbare technieken aan een model om levensbedreigende berichten te herkennen. Dat model was klaar toen per 1 april de chats van Encrochat bij de politie in Driebergen binnenstroomden.

Deep Learning

Hoe doe je dat? Deep learning is een verzameling van technieken waarmee je computers taal kunt leren herkennen. Zulke modellen zijn qua structuur geïnspireerd op het menselijk brein. Ze worden daarom ook wel ‘neurale netwerken’ genoemd. De modellen leren op een vergelijkbare manier als  mensen. Namelijk door heel veel voorbeelden te bekijken. Zulke modellen worden eerst getraind op generiek taalbegrip, bijvoorbeeld door ze krantenartikelen of Wikipedia te laten lezen. Het taalgebruik in kranten en op Wikipedia is natuurlijk  anders dan de manier waarop criminelen met elkaar communiceren. Om ook dat specifieke taalgebruik te leren begrijpen, moeten de deep learning-modellen nog even doorleren. Dit door ze specifiek taalgebruik te laten zien.

‘Afknallen’

Medewerkers van het NFI hebben met politierechercheurs woordenlijsten gemaakt met  ‘signaalwoorden’. Dat zijn woorden die criminelen kunnen gebruiken om te wensen of organiseren dat iemand mishandeld, ontvoerd of vermoord wordt. Ze gebruiken bijvoorbeeld de woorden ‘dood’, ‘slapen’, ‘poppen,’ ‘afknallen’, ‘verdwijnen’, etc. Voor het maken van de woordenlijsten is ook historisch materiaal gebruikt. Europol heeft geholpen om een lijst met vergelijkbare woorden in het Frans en Engels te maken.  Met deze zoekwoorden kon een eerste zoekslag worden gedaan in de trainingsberichten.

Context bepalend

De politierechercheurs gaven de gevonden resultaten vervolgens het label ‘bedreigend’ mee of het label ‘niet-bedreigend’. Het woord ‘slapen’ kan bijvoorbeeld ook heel goed in een niet bedreigende context gebruikt worden. Wanneer je met alleen dat woord zou zoeken, krijg je ook veel berichten die niet relevant zijn. Dat wil je niet. Daarom werden de computers met de labels getraind om uit de context af te leiden of het daadwerkelijk om een bedreiging gaat.

Miljoenen zinnen invoeren

Medewerkers van het NFI hebben zo tienduizenden bedreigende en niet-bedreigende zinnen ingevoerd om het model te trainen. De politie zette het model vervolgens in om de berichten met een hoge kans op een levensbedreigende inhoud te herkennen. De resultaten werden gecheckt en dat materiaal kon ook weer gelabeld worden en opnieuw ingeladen. Zo werd de computer steeds slimmer. Het model geeft nooit 100 procent garantie dat het klopt. De computer helpt de mens bij het zoeken. Een algoritme kan dingen missen, zogenoemde ‘blind spots’. Het is belangrijk dat de gebruikers van het model zich daarvan bewust zijn. Indien er een beslissing genomen moet worden, maakt niet de computer maar een mens deze beslissing. Het model geeft ieder bericht een cijfer tussen de 0 en de 1 mee. Hoe dichter bij de 1, hoe groter de kans dat het om een bedreigend bericht gaat. Na beoordeling beslist de politie of er actie nodig is of niet.

Threat To Life-team

Na de ontwikkeling van het model is het in gebruik genomen door de Politie. De politie richtte een speciaal Threat To Life-team (TTL) in. Dit team doorzocht de berichten die bij de politie binnenkwamen op levensbedreigende situaties met behulp van het door het NFI ontwikkelde model. Tientallen personen werden volgens de politie gewaarschuwd. Niet alleen omdat ze geliquideerd zouden gaan worden, maar ook vanwege mogelijke zware mishandeling of ontvoering.