Wat gebeurt er met de gegevens die overheden, bedrijven en instellingen over ons opslaan? Wat als ze gehackt of gegijzeld worden? Hoe veilig zijn onze systemen, en onze data? Lees meer

De analoge en digitale wereld lopen steeds meer in elkaar over, internet en technologie knopen alles aan elkaar: beleid, sociale structuren, economie, surveillance, opsporing, transparantie en zeggenschap.

Ondertussen worden we overspoeld door ransomware, digitale desinformatie en diefstal van intellectueel eigendom. Conflicten worden tegenwoordig ook uitgevochten in cyberspace. Hoe kwetsbaar zijn we precies, en hoe kunnen we ons beter wapenen?

We laten overal digitale sporen achter, vaak zonder dat te weten of er iets tegen te kunnen doen. Al die aan ons onttrokken data worden bewaard en verwerkt, ook door de overheid. Dat gebeurt niet altijd netjes. Zo veegde  het Europees Hof voor de Rechten van de Mens in een vernietigend vonnis het Nederlandse anti-fraudesysteem Syri van tafel. Hoe riskant het is om op dataverzamelingen van burgers algoritmes los te laten – datamodellen die vrij autonoom beslissingen nemen – bewijst de Toeslagenaffaire. Die laat ook zien wat het effect is van ‘verkeerde’ registraties die zich als onkruid door overheidssystemen lijken voort te planten, zonder dat iemand ze nog kan stoppen of wijzigen.

En zijn al die gegevens van burgers en klanten wel veilig? Wie kan erbij, wie mag erbij, wat als ze gehackt of gegijzeld worden? Hoe kwetsbaar maakt onze afhankelijkheid van data ons?

53 artikelen

© Leon de Korte | Follow the Money

Zo leerde een Rotterdams fraudealgoritme kwetsbare groepen te verdenken

2 Connecties

Relaties

bijstand

Organisaties

Gemeente Rotterdam
45 Bijdragen

Een algoritme waarmee de gemeente Rotterdam jarenlang bijstandsfraude voorspelde, rekende jonge moeders en mensen die slecht Nederlands spreken tot de hoogste risicogroepen. Zij hadden de grootste kans op een strenge controle door de gemeente. Dat blijkt uit onderzoek van Lighthouse Reports, Argos, Vers Beton en Follow the Money, waarbij journalisten voor het eerst een compleet fraudealgoritme in handen kregen.

Dit stuk in 1 minuut
  • Wat is het nieuws?

Rotterdam heeft jarenlang een algoritme gebruikt om fraude en fouten met bijstandsuitkeringen te voorspellen. Kwetsbare groepen, zoals mensen die niet goed Nederlands spreken en jonge moeders met problemen, kwamen sneller in het vizier en werden hierdoor vaker gecontroleerd. 

  • Waarom is dit relevant?

De gemeente Rotterdam staat bekend om haar strenge controles op bijstandsfraude. Onbekend was hoe het gemeentelijke algoritme precies bepaalde wie in aanmerking komt voor zo’n diepgravende controle. En wat het risico was op discriminatie. 

  • Hoe is dit onderzocht?

Journalisten van Lighthouse Reports, Argos, Vers Beton en Follow the Money wisten de hand te leggen op het Rotterdamse algoritme en de data waarmee dit wiskundig model de kans op bijstandsfraude berekent. Hieruit blijkt dat leeftijd, geslacht en taalbeheersing zwaar wegen. Maar waar is dat op gebaseerd? 

Lees verder

In de brief staat dat je moet langskomen, met al je papieren en bankafschriften. Eenmaal op kantoor volgt een vragenvuur. Waarom, Adriana, neem jij contant geld op voor boodschappen? (Je kon niet pinnen, op de markt.) 

Waar komt die bijschrijving van 17 euro vandaan? (Je had een computerspelletje verkocht via Marktplaats.) Je krijgt vragen over zwartwerken. (Je werkt als vrijwilliger op een school, betaald aan de bak komen is nog niet gelukt.) Alles willen ze van je weten. 

Een kleine onregelmatigheid kan grote gevolgen hebben voor je bijstandsuitkering. Rotterdam staat bekend als erg streng. De gemeente kondigt zelfs een onderzoek aan naar mogelijke bezittingen in het buitenland, terwijl toch duidelijk moet zijn dat je geen geld hebt voor welke luxe dan ook.

Waarom uitgerekend Adriana is geselecteerd voor een diepgravende controle, krijgt ze niet te horen. Het is ook niet de eerste keer dat ze op moet komen draven. Is het toeval? Hebben de buren geklikt? Doet Adriana zelf iets dat wantrouwen uitlokt? 

Wat de ambtenaar aan de andere kant van de tafel haar zéker niet vertelt, is dat een complex algoritme heeft berekend dat de kans op fraude, fouten en vergissingen bij Adriana groter zou zijn dan bij anderen (haar ‘risico-score’ is 0,683 op een schaal van 0 tot 1). De berekening is gemaakt op basis van meer dan driehonderd verschillende kenmerken die de gemeente over Adriana en haar leven heeft vastgelegd. 

Van haar leeftijd (30 jaar) en relaties (drie jaar getrouwd, één zoontje) tot en met haar psychische gesteldheid (Adriana heeft veel meegemaakt, maar het gaat best goed), waar ze woont (sinds een jaar in Rotterdam-Noord), haar taalvaardigheid (ze spreekt inmiddels voldoende Nederlands), hoe een medewerker van de sociale dienst haar capaciteiten om een baan te vinden inschat en of zij een representatief uiterlijk heeft (geen negatieve opmerkingen hierover, aldus deze ambtenaar). 

Omdat Adriana volgens het systeem belangrijke kenmerken gemeen heeft met mensen die in het verleden zijn gepakt voor al dan niet opzettelijk gerommel met hun uitkering, is Adriana ook verdacht.

Minority Report in Rotterdam

Het lijkt een poldervariant van Minority Report, het door Steven Spielberg verfilmde sciencefictionverhaal waarin de politieafdeling precrime helpt toekomstige moorden te voorspellen en te voorkomen. In Rotterdam berekende een complex algoritme jarenlang wie van de tienduizenden Rotterdammers in de bijstand zou kunnen knoeien met zijn of haar uitkering. Jaarlijks konden honderden inwoners met de hoogste risico-scores op basis van dit wiskundig model rekenen op een controle. 

Lighthouse Reports, Vers Beton, Follow the Money en Argos hebben het Rotterdamse algoritme – met de weinig tot de verbeelding sprekende naam analytics uitkeringsfraude – na een serie Woo-verzoeken in handen gekregen. Voor het eerst brengen buitenstaanders zo in kaart hoe een geavanceerd datamodel van de overheid fraude voorspelt: welke gegevens over mensen erin gaan, hoe de computercode hiermee rekent en wie de hoogste risico-scores krijgen. 

Spoiler: dat zijn kwetsbare groepen onder de toch al armste mensen in de stad. Denk aan bijstandsgerechtigden die het Nederlands niet goed machtig zijn, jongeren, alleenstaande vrouwen met kinderen die uit een lange relatie komen en mensen met financiële problemen. 

Zorgen over de Rotterdamse voorspellingen bestaan al langer. In 2021 vroeg de Rekenkamer Rotterdam aandacht voor de ethische risico’s van het bijstandsfraude-algoritme, dat mede werd ontwikkeld door consultancyfirma Accenture. Kenmerken als taal, bijvoorbeeld, kunnen net als nationaliteit leiden tot discriminatie. Hier was volgens de rekenkamer geen rekening mee gehouden. 

Ook in de gemeenteraad klonk kritiek. ‘Ik ben principieel tegen het gebruik van persoonskenmerken,’ zei bijvoorbeeld PvdA-raadslid Duygu Yildirim. Volgens haar kan de gemeente op basis van persoonskenmerken niet op individueel niveau voorspellen wie geneigd is tot frauderen en wie niet. ‘Die meneer met een verslaving heeft er niets mee te maken dat statistisch gezien mensen uit die groep misschien vaker niet voldoen aan hun inlichtingenplicht.’ 

Uit cijfers die eerder werden opgevraagd door Argos en Lighthouse Reports bleek bovendien dat op basis van het algoritme opvallend veel vrouwen werden onderzocht: in de periode 2018 tot en met 2020 liefst 2179 vrouwen tegenover 933 mannen. Rotterdam, dat met zo’n dertigduizend uitkeringsgerechtigden ‘bijstandshoofdstad’ is van Nederland, stelde dat hier logische verklaringen voor waren. 

Zo zouden met andere selectiemethoden eerder juist veel mannen zijn onderzocht, die daarna uit de resultaten van het algoritme waren gehaald omdat zij al aan de beurt waren geweest. Uit checks zou ook ‘geen onder- of oververtegenwoordiging van bepaalde groepen Rotterdammers’ zijn gebleken, aldus Richard Moti, toen de verantwoordelijke wethouder. Kortom: van vooringenomenheid was geen sprake. 

Rotterdam blijft geloven in de belofte van deze technologie: een hogere pakkans, efficiëntere inzet van controleurs en minder onterecht uitgekeerde bijstand

Het systeem werd desondanks eind 2021 uit voorzorg stilgelegd. De gemeente wil een nieuwe versie ontwikkelen, zonder elementen die kunnen discrimineren. Want Rotterdam blijft geloven in de belofte van deze technologie: een hogere pakkans, efficiëntere inzet van controleurs en minder onterecht uitgekeerde bijstand. 

Hoeveel het ‘risico-inschattingsmodel’ oplevert is niet precies te zeggen. ‘Het totale terugvorderingsbedrag op basis van een heronderzoek ligt gemiddeld op 2,5 miljoen euro per jaar,’ aldus de gemeente. Een fractie van dat bedrag kwam op het conto van het algoritme. De gemeente gebruikt namelijk meerdere methoden om mensen te selecteren voor onderzoek. 

Rotterdam wijst erop dat het doel van een onderzoek niet per se het vinden van fraude is, maar dat het ook in het belang is van bijstandsgerechtigden om fouten zo snel mogelijk recht te zetten en te voorkomen dat iemand in de problemen komt doordat er te veel bijstand is ontvangen.

Welke mensen heeft het systeem geleerd te verdenken?

Klopt de bewering van de gemeente dat van vooringenomenheid geen sprake was? Hebben kwetsbare groepen inderdaad niets te vrezen van dit systeem, zoals ze dat bijvoorbeeld wel hadden van het beruchte toeslagen-algoritme van de Belastingdienst? 

Wat is precies de invloed van persoonlijke kenmerken die mensen niet kunnen veranderen, zoals afkomst, leeftijd en geslacht, op hun risico-score? Hoe wegen gevoelige gegevens mee als taal en geld- en verslavingsproblemen? Ofwel: welke mensen heeft het systeem geleerd te verdenken, en waarom? 

Deze vragen waren alleen te beantwoorden door het algoritme uitgebreid te testen, met gegevens over echte burgers. De experimenten maken duidelijk dat het algoritme voor de ene Rotterdammer de kans op fraude veel hoger inschat dan voor de andere Rotterdammer.

In het bijzonder bij Rotterdammers die de Nederlandse taal niet goed machtig zijn, vrouwelijk, erg jong zijn, kinderen hebben, uit een langere relatie komen, de kosten van een huishouden delen met anderen en financiële of verslavingsproblemen hebben. Zij komen veel vaker voor onder de allerhoogste risico-scores dan anderen, vooral als ze ook nog in meer dan één van deze categorieën vallen. Het betekent dat zij bovenaan de lijst voor controle komen. 

In de experimenten is ook steeds gekeken wat de invloed was van één enkel kenmerk op de hoogte van risico-scores. Op deze manier is vastgesteld dat vrouwen daadwerkelijk hoger scoren omdat ze vrouw zijn. En dat mensen die niet voldoen aan de taaleis als groter risico worden aangemerkt, vanwege het enkele feit dat ze deze eigenschap hebben. 

Kans op controle is voor George nihil

De verschillen op individueel niveau zijn groot. Een ‘doorsnee Rotterdammer’ in de bijstand is bijvoorbeeld een man van 30 jaar oud, George. Hij bestaat niet, maar onder de Rotterdamse bijstandsgerechtigden zijn veel echte mensen met dezelfde kenmerken als George. Hij woont in Rotterdam-Noord, is sportief, alleenstaand en heeft geen kinderen. 

Met deze kenmerken berekent het algoritme de risico-score van George op 0,50 en zet het algoritme hem op plek 20.973 van 30.000 op de risicolijst. Daarmee is de kans op controle voor hem nihil. 

Was George een vrouw geweest, dan had zij direct duizenden plekken hoger gestaan. Als zij wél een kind heeft en een partner, met wie zij samen in de bijstand zit en de kosten van het huishouden deelt, dan is George veranderd in Adriana, uit het begin van dit verhaal, met een score van 0,683. Zij staat dan bij de hoogste risico-scores en een controle lijkt bijna gegarandeerd. 

Dat is nog gerekend zonder taal, het gevoeligste kenmerk in het Rotterdamse bijstandsfraude-algoritme. In totaal twintig verschillende variabelen in het Rotterdamse algoritme hebben hier betrekking op: van iemands spreektaal tot schrijfvaardigheid en de taaleis voor de bijstand. 

Als alle taalvariabelen zo worden ingesteld dat ze wijzen op een slechte Nederlandse taalvaardigheid, dan zorgt dit ervoor dat deze mensen ruim twee keer vaker in de hoogste risico-scores voorkomen dan personen die Nederlands als moedertaal hebben.   

Grote verschillen gaan ook op voor andere groepen. Alleenstaande moeders komen 40 procent vaker voor onder de hoogste risico-scores dan single vrouwen zonder kinderen. En mensen die al enkele jaren kampen met financiële problemen krijgen 21 procent vaker een hoge score dan bijstandsgerechtigden zonder deze problematiek. 

De resultaten van de experimenten zijn voorgelegd aan de gemeente Rotterdam, die de bevindingen in een zeer uitgebreide reactie ‘interessant, leerzaam en deels herkenbaar’ noemt. ‘In de loop der tijd hebben we geconstateerd dat het risico-inschattingsmodel nooit 100 procent vrij kon blijven van vooringenomenheid of de schijn daarvan. Die situatie is onwenselijk, al helemaal wanneer het om variabelen gaat die een risico op vooringenomenheid in zich dragen op basis van discriminatoire gronden zoals leeftijd, nationaliteit of geslacht. Uw bevindingen tonen deze risico’s ook aan.’ 

Black box opengebroken

Het gezamenlijke onderzoek levert een inkijk op in wat tot nu toe een black box was. Meestal blijft het ondoorzichtig hoe risicomodellen in elkaar zitten, omdat overheden zeggen te vrezen dat burgers hun gedrag aanpassen om fraudecontroles te ontlopen. Rotterdam heeft wél voor uitgebreide transparantie gekozen. De gemeente gaf in 2021 na Woo-verzoeken van Lighthouse en Argos een lijst met meer dan driehonderd risico-indicatoren vrij en zelfs de computercode. 

Na nieuwe Woo-verzoeken kwam daar nog uitgebreide technische informatie bij. ‘Rotterdam acht het van groot belang dat niet alleen wijzelf, maar ook andere overheden en organisaties zich bewust zijn van de risico’s van algoritmen,’ aldus de gemeente. De data over duizenden burgers die op fraude waren onderzocht en waarmee het algoritme is ‘getraind’ om zijn voorspellingen te doen, wilde de gemeente uit privacy-overwegingen niet verstrekken. 

In meegestuurde ‘histogrammen’ over de in totaal 315 variabelen in het algoritme bleken deze gegevens toch op de achtergrond aanwezig: ruim 12.700 records, ontdaan van direct identificeerbare gegevens als namen, BSN-nummers en contactgegevens, maar afkomstig van echte Rotterdammers die ooit zijn gecontroleerd. Uit journalistieke overwegingen zijn deze gegevens wel gebruikt voor het onderzoek. Een zeer select aantal mensen had toegang. Na publicatie van de bevindingen worden de data vernietigd. Volgens de gemeente hadden de gegevens niet vrijgegeven mogen worden. ‘Wij hebben dit gemeld aan onze privacy officer.’

Lees hier alles over het onderzoek naar het algoritme en de gebruikte methoden.

En de uitgebreide reactie van de gemeente Rotterdam.

Lees verder Inklappen

Het onderzoek naar de werking en uitkomsten van het algoritme, zijn een deel van het verhaal. Minstens zo belangrijk zijn de gegevens op basis waarvan het algoritme heeft ‘geleerd’ zijn voorspellingen te doen. In het geval van Rotterdam zijn dit de gegevens van 12.700 bijstandsgerechtigden die eerder zijn gecontroleerd. 

Om met een model te kunnen voorspellen bij wie de kans op fraude groot is en bij wie klein, moeten deze data overeenkomen met de werkelijkheid. Voorbeelden waarbij dit misgaat zijn legio: van automatische gezichtsherkenning die niet goed werkt bij mensen met een donkere huidskleur, tot een algoritme van een vacaturesite dat vrouwen benadeelt ten opzichte van mannen. In dit soort gevallen is de data vaak geen weerspiegeling van de realiteit, bijvoorbeeld doordat het algoritme is getraind op vooral mensen met een lichte huidskleur, waardoor het systeem het vaak mis zal hebben.  

‘Het Rotterdamse algoritme presteert niet goed, het raadt eigenlijk willekeurig’ 

Ook in Rotterdam zijn er vraagtekens te plaatsen. Zo is niet duidelijk hoe fraudeurs uit eerdere onderzoeken zijn geselecteerd. Dat kan een willekeurige selectie zijn geweest, maar ook een andere methode die mogelijk niet vrij was van vooringenomenheid. Zo kunnen data afkomstig zijn van eerdere themacontroles, waarbij op voorhand onderzoek werd gedaan naar groepen, zoals mensen met een specifieke woonsituatie of samenstelling van het huishouden. In de Rotterdamse data valt op dat er maar heel weinig jonge mensen in voorkomen, terwijl leeftijd de grootste invloed heeft op de hoogte van de risico-score.

Volgens Rotterdam was het algoritme uiteindelijk wel effectiever dan willekeurige controles. Het algoritme ‘scoorde’ op honderd controles zo’n 39 gevallen van fraude of andere vormen van onrechtmatigheid, staat in door de gemeente verstrekte cijfers. Bij aselecte controles was het 25 op de honderd keer raak. 

Maar de gerenommeerde Amerikaanse computerwetenschapper Margaret Mitchell wijst op evaluaties bij het Rotterdamse algoritme: daaruit blijkt dat het model niet goed presteert en ‘eigenlijk willekeurig raadt’. Mitchell is gespecialiseerd in kunstmatige intelligentie, ethiek en vooringenomenheid. Op verzoek keek zij naar het onderzoek. Beoordelen of personen een risico kunnen vormen, is altijd mensenwerk, vindt Mitchell. Volgens haar zullen computermodellen nooit een goede voorspelling maken van het werkelijke risico dat mensen vormen, omdat ‘alle levens anders zijn’. 

Een wiskundig model weegt nooit alle factoren mee die in ieder afzonderlijk geval een rol spelen, aldus Mitchell. Ze denkt dat de ontwikkelaars van het Rotterdamse algoritme niet voldoende of niet de juiste informatie hadden om een goed model te kunnen maken. ‘Alles overwogen, heb je een recept voor een model dat geen kloppend beeld van de werkelijkheid geeft, op basis van wat het heeft geleerd. Dat betekent dat het niet bruikbaar is in de echte wereld.’