Big data voor inzicht in verborgen armoede

Interview met Kees Brandwijk, beleidsonderzoeker en adviseur bij het Kenniscentrum van de gemeenten Maassluis, Vlaardingen, Schiedam (MVS)

“De uitkomsten van de data-analyses staan of vallen met de kwaliteit van de data”, vertelt Kees Brandwijk naar aanleiding van de inmiddels afgeronde pilot ‘Verborgen armoede’. In opdracht van de colleges van de gemeenten Maassluis, Vlaardingen, Schiedam deed hij een data-analyse op bestanden met microdata, data op persoonsniveau. Daarmee wilden de drie gemeenten meer inzicht krijgen in de gebruikers en niet-gebruikers van armoede- en schuldenvoorzieningen, zodat zij hun menskracht en middelen gerichter in kunnen zetten. Ook wilden de onderzoekers leren van de nieuwe werkwijze van datagedreven onderzoek.

Kun je iets meer vertellen over de ontstaansgeschiedenis en de inhoud van het project?

Het project kent een lange voorgeschiedenis. De MVS-gemeentes beschikken over heel veel gemeentelijke data. Een groepje mensen binnen de gemeente zag kansen om meer met die data te doen. Op een gegeven moment ontstond er ruimte voor een data-analyse in relatie tot armoede. Een extern bureau werd gevraagd om een plan te ontwikkelen om met behulp van data-analyse zicht te krijgen op de effectiviteit van maatregelen om armoede te verlichten. Om uiteenlopende redenen is dit niet van de grond gekomen. Daarna kreeg ons Kenniscentrum de opdracht om de inmiddels verzamelde data te analyseren. De gemeenten hebben hun klanten in de bijstand wel in beeld, maar onduidelijk is of iedereen die het nodig heeft wel gebruik maakt van de beschikbare voorzieningen. Die vraag vormde het startpunt van de pilot.

Om praktische redenen is voor deze pilot alleen van interne data gebruik gemaakt. Ik ben data gaan koppelen op persoonsniveau. Het gaat om data die zijn verzameld voor de Basisregistratie Personen, de Wet Onroerende Zaken, de Wet Maatschappelijke ondersteuning en Participatiewet, data over schuldhulpverlening en de regeling vrij reizen voor minima – allemaal zaken waaraan het burgerservicenummer verbonden is. Over het gebruik van de persoonsgegevens is vooraf uitgebreid gesproken met de privacyfunctionaris van de gemeente Schiedam. We willen graag meer doen met data, daarbij is de bescherming van persoonsgegevens voor ons van groot belang. De data zijn eerst geanonimiseerd en er is ook afgesproken dat we geen uitspraken doen op persoonsniveau, maar alleen op groepsniveau. Omdat wij niet de beschikking hebben over geavanceerde software met automatische zoekalgoritmes, is er voor de feitelijke analyse gebruik gemaakt van statistische softwareprogramma’s zoals SPSS.

Zou je jouw onderzoek als big data-onderzoek bestempelen?

Bij big data-onderzoek gaat het om onderzoek met bestanden die te groot zijn om met reguliere databasemanagementsystemen te onderhouden. Dat is hier niet het geval. Van big data-analyse spreek je meestal ook als het gaat om machine learning: met algoritmes zoeken naar alle mogelijke correlaties in databestanden. Dat is hier niet gebeurd, omdat wij niet de nieuwste software hebben. Wel ben ik eerst in de literatuur gaan zoeken naar bestaande inzichten over verbanden, zodat ik in de datasets gericht kon zoeken naar die verbanden. Ook heb ik met domeinexperts binnen de gemeente over mogelijke relaties gesproken. Uiteindelijk hebben we relaties onderzocht tussen data die we beschikbaar hadden en waar we betekenisvolle relaties verwachtten. Dus we zijn wel datagedreven aan het werk gegaan en hebben nieuwe combinaties van datasets gemaakt, zoals bij big data. Zelf spreek ik liever van datagestuurd onderzoek. Overigens vind ik het belangrijk dat een goede analyse van de feiten meespeelt in beleidsbeslissingen en ik ben blij dat we deze opdracht hebben gekregen van de drie colleges.

Wat zijn de resultaten van de pilot?

In grote lijnen komen de resultaten van onze analyse overeen met wat bekend is uit de literatuur. Bijvoorbeeld dat mensen die arm zijn ook vaker een slechte gezondheid hebben. Of dat alleenstaanden met kinderen en mensen met een migratieachtergrond relatief vaak arm zijn. Dat vrouwen wat vaker arm zijn dan mannen. Kijken we naar alle leeftijdscategorieën, dan zien we relatief veel kinderen die arm zijn, meer dan volwassenen. In afwijking van het landelijke beeld zien we dat ouderen van 75+ weer relatief vaker arm zijn. Een mogelijke verklaring is dat deze groep in onze regio vaak laag opgeleid is en geen bedrijfspensioen heeft of een heel laag bedrijfspensioen. Al deze relaties hebben we onderbouwd en gekwantificeerd voor de drie gemeenten. We weten nu ook nauwkeurig in welke buurten de verschillende groepen wonen.

Voor mijzelf was het verrassend dat bijna de helft van de mensen die bij de schuldhulpverlening in onze steden aanklopt betaald werk heeft. Iets minder dan een derde heeft een bijstandsuitkering. Verder heeft ongeveer drie procent van de huishoudens met midden- en hogere inkomens moeite om rond te komen. Op in totaal 182.000 inwoners gaat het dan om een kleine 3.000 mensen. De groep met een inkomen van 110 procent tot 120 procent van de bijstandsnorm bestaat uit zo’n 6.500 mensen. Dit is een kwetsbare groep, omdat een kleine inkomstendaling hen al in de problemen kan brengen. Binnen deze groep vind je relatief veel ouderen. Verder zien we tussen gemeenten verschillen in de omvang van het bevolkingsdeel dat arm is. Maassluis zit qua percentage op het gemiddelde van Nederland. Dat percentage ligt veel hoger in Vlaardingen en Schiedam.

Arme mensen en kwetsbare mensen leven, niet verrassend, vaak in kleine, goedkope woningen en vooral in huurappartementen. Het bleek dat goedkope woningen in de MVS-gemeenten stammen uit verschillende perioden: in Schiedam wonen mensen die in armoede leven of schulden hebben vaker in vooroorlogse woningen. In Vlaardingen woont die groep juist vaker in woningen van kort na de oorlog en in Maassluis weer vaak in woningen uit de jaren ’60, ’70 en ’80. Dat heeft ook weer gevolgen voor de gemiddelde woonruimte. Kijk ik naar bevolkingsgroepen met een migratieachtergrond dan valt op dat Marokkaanse Nederlanders landelijk gezien het armst zijn; in de MVS-gemeenten staan mensen met een Antilliaanse achtergrond op nummer één.

Hoe ziet het vervolg eruit?

Binnenkort presenteren we de uitkomsten aan de portefeuillehouders en beleidsmakers. Dan bespreken we of de uitkomsten herkenbaar zijn, welke vervolgvragen er leven en of ze aanleiding geven om dingen anders te doen of andere dingen te gaan doen.
Qua analyses zouden we ook nog verder willen. We willen graag andersoortige data in de analyse betrekken, ook met het oog op preventie. Wat er kan hangt wel af van zowel privacyregels, als de beschikbaarheid van data. Verder zou het mooi zijn als we toe zouden kunnen werken naar data-analyses voor effectmeting. Ook zouden we data-analyses willen gebruiken om meer te weten te komen over wie in- en uitstromen uit de armoede: wat kenmerkt deze groepen? Waarom lukt het wel of juist niet om uit de armoede te komen? Daarvoor is een vergelijking nodig van datasets van twee verschillende perioden. We willen niet zo ver gaan dat we individuen die een grote kans op armoede lopen met naam en toenaam identificeren. Dat vinden we een stap te ver.

Wat heb je van de pilot geleerd over het werken met data? En welke adviezen zou je anderen willen geven?

Ik heb geleerd dat er veel werk gaat zitten in de databestanden zelf. Er is ongeveer 300 uur in de pilot gaan zitten en ongeveer een derde daarvan is besteed aan de data zelf. Want de uitkomsten van je analyses staan of vallen met de kwaliteit van de data. In het geval van deze pilot zaten er lacunes in de databestanden – die ik soms ‘op heb kunnen vullen’ met andere data, bijvoorbeeld van het CBS. Ook ben ik aangelopen tegen data die vervuild was, dat wil zeggen dat gegevens niet correct waren. Dan moet je die data eerst gaan schonen, voor je er analyses mee gaat maken. Verder ben ik gestuit op verschillen tussen de gemeenten en diensten in de manier waarop gegevens geregistreerd waren.

Ook ben ik gaan zien hoe waardevol het advies van een extern adviseur was. Hij adviseerde om zo snel mogelijk te zorgen voor inzicht in wat de data zouden kunnen zeggen en om daarvoor vanaf het begin met betrokken beleidsexperts om tafel te gaan. Dat moet je weer doen als je de uitkomsten van de analyse hebt. De experts kunnen helpen met de betekenisgeving. Wanneer je niet goed weet wat de kwaliteit en de betekenis is van de data waar je mee wilt werken, loop je een groot risico om het verkeerde te doen en verkeerde conclusies te trekken.

Het laatste dat ik wil meegeven is: besteed aandacht aan de presentatie van resultaten. Big data-analyses leveren heel veel getalsmatige uitkomsten. Om snel inzicht te bieden in de cijfers en tegemoet te komen aan de verschillende persoonlijke voorkeuren voor cijfers, tekst of plaatjes, hebben we de cijfers voorzien van veel uitleg en visualisaties. Ik heb voor dit onderzoek samengewerkt met een collega die geo-specialist is en heel goed databestanden kan visualiseren in kaarten. Dankzij zijn hulp hebben we veel resultaten nog toegankelijker kunnen presenteren.