Beslissen op basis van data

Ik kijk met mijn zoontjes naar het jeugdjournaal. Het gaat over een app waarmee je een foto door middel van deep learning een liedje kan laten zingen. Leuk voor op TikTok natuurlijk! En het laat zien dat het gebruik van machine learning tegenwoordig letterlijk kinderspel is. Toch kriebelt het bij zo’n voorbeeld: kunnen we meer met die algoritmes dan jolige filmpjes maken? Kunnen we deze technieken ook gebruiken om beleid beter te analyseren of verstandiger uit te voeren?

Mark Kattenberg

Programmaleider of the CPB Netherlands Bureau for Economic Policy Analysis

Vorige week was topeconoom Guido Imbens virtueel te gast bij ons. Hij gaf de CPB-lecture over ‘machine learning bij economisch onderzoek en beleid’ (kijk hier het evenement terug). Interessant om zijn visie te horen en om te zien wat de raakvlakken zijn met het werk dat wij als data science team van het CPB doen. Wij verkennen de mogelijkheden van machine learning binnen de onderzoekslijnen ‘nieuwe data’, ‘voorspellen’ en ‘causale effecten’. Dit lijkt allemaal niet zo nieuw. Bij het CPB hebben we natuurlijk ruime ervaring met voorspellen of het meten van causale effecten.

Maar machine learning werkt toch echt heel anders dan de economische technieken die we meestal gebruiken. Normaliter bepalen we als onderzoekers op basis van welke variabelen een model voorspelt. De meer geavanceerde machine learning-modellen kiezen echter zelf welke variabelen belangrijk zijn om te voorspellen en hoe deze gebruikt moeten worden. Dit doen ze op basis van de data, niet op basis van economische theorie!

Voorspellen van uitkomsten

Machine learning-modellen zijn gemaakt om uitkomsten te voorspellen. Bij het CPB ramen we vaak macro-economische grootheden, zoals werkloosheid of bruto binnenlands product (bbp). Maar je kunt iets als machine learning ook gebruiken om totaal andere uitkomsten te voorspellen en dat is heel uitdagend.

Een voorbeeld uit een totaal andere ‘tak van sport’. In de Verenigde Staten mogen sommige verdachten van een delict hun proces thuis afwachten. Het op borgtocht vrijlaten heeft voordelen voor de mogelijk onschuldige (!) verdachte. Zo is het thuis aangenamer dan in de cel en kan de verdachte naar het werk gaan in afwachting van het proces (lees: de verdachte wordt niet per direct ontslagen). Maar het heeft ook mogelijke nadelen voor de maatschappij, want een verdachte kan vluchten of een ander delict begaan. In de VS nemen rechters de beslissing wie er op borgtocht vrijgelaten wordt.

Onderzoekers hebben deze beslissing ook laten nemen door een machine learning-algoritme. Zij concludeerden dat dit algoritme nauwkeuriger kan voorspellen wie kwam opdagen dan rechters. Ook vonden zij dat een algoritme vaker adviseerde om minderheden, zoals Latino’s of Afro-Amerikanen, op borgtocht vrij te laten. In dit geval was het gebruik van een algoritme dus zowel doelmatiger (meer mensen verschenen op hun proces) als rechtvaardiger (minderheden werden minder vaak benadeeld).

Effect van beleidswijzingen

Een tweede toepassing van machine learning ligt bij het schatten van de effecten van beleid. Idealiter doen we dit met een gerandomiseerd gecontroleerd experiment, zoals dat bij het testen van nieuwe medicijnen het geval is. Proefpersonen worden dan willekeurig verdeeld in verschillende groepen, en maar één groep krijgt het echte medicijn, de ander een placebo. Omdat personen willekeurig zijn ingedeeld in een bepaalde groep, zijn de groepen perfect vergelijkbaar op één ding na: of ze een medicijn of placebo gehad hebben. Hierdoor kan je heel eenvoudig het effect van het medicijn meten.

Vaak heb je niet zulke omstandigheden bij wijzigingen van beleid, maar zou je toch wel graag goed willen meten wat het effect van de beleidswijziging is. Guido Imbens doet al decennia onderzoek naar hoe onderzoekers de effecten van een beleidsverandering goed kunnen meten zonder experimenten uit te voeren. Recent richtte hij zich op de vraag hoe machine learning deze technieken nog beter kan maken. Zo heeft hij een methode ontwikkeld die op basis van de data aangeeft welke subgroepen het sterkst reageren op een beleidswijziging.

Binnen het CPB worden deze datasciencetechnieken ook gebruikt. Voor een econoom is dat wel spannend, want het gaat in tegen veel dingen die we geleerd hebben. En soms is het frustrerend, want uiteindelijk komt natuurlijk altijd die ene vraag: Waarom voorspelt het machine learning-model zo? Daar hoop ik ooit nog eens het antwoord op te kunnen geven. Ondertussen geniet ik van de jolige filmpjes die worden gemaakt door machine learning.

Mark Kattenberg