Kan machine learning gezondheidsrisico’s inschatten?
Emile Cammeraat
Programmaleider of the CPB Netherlands Bureau for Economic Policy AnalysisOp het CPB doen we onderzoek naar de mogelijkheden van machine learning (ML). Daardoor doemt bij mij al snel de vraag op of een betere risico-inschatting met ML de te hoge bilirubinewaarde had kunnen voorkomen. Door ML-technieken zoals image recognition te gebruiken zou een foto van onze pasgeboren dochter misschien al direct na de geboorte het label geelzucht hebben gekregen. In de wetenschappelijke literatuur vind ik later inderdaad studies waarin geelzucht wordt gedetecteerd met behulp van smartphone foto’s (Taylor et al, 2017). Machine-learning biedt hier dus kansen om ons leven te verbeteren. Het voorbeeld van onze dochter laat zien hoe reëel dit is.
Inzet van machine learning
Dit roept de vervolgvraag op of deze technieken niet breder ingezet kunnen worden om nadelige levensgebeurtenissen te detecteren of zelfs van te voren te voorspellen. Dit hangt waarschijnlijk voor een groot deel af van hoe nauwkeurig de voorspellingen van machine learning zijn voor verschillende gebeurtenissen. Om hierachter te komen moeten we de belofte van ML bestuderen en kwantificeren.
Een eerste vraag daarbij is of het praktisch haalbaar is. Om een goed machine-learning model te trainen heb je veel data nodig. Zulke rijke data is meestal niet beschikbaar en loopt anders vaak een paar jaar achter. Daardoor zijn mogelijkheden om ML toe te passen voor beleid (nog) beperkt.
Daarnaast kunnen er ethische bezwaren zijn tegen het verzamelen van veel data en het daadwerkelijk gebruiken van ML voor beleid. De rol voor het CPB hierin is om beleidsmakers te informeren en de vraag te bestuderen of het inzetten van ML zinvol is en op een rechtvaardige manier kan. De CPB-studie Rechtvaardige algoritmes onderzoekt deze risico’s en laat zien dat er ook waarborgen zijn, die het bijvoorbeeld mogelijk maken om kansen van ML te benutten zonder de benadeling van groepen.
Voorspellen van risico’s
Op het CPB doen we ook onderzoek naar de kansen die ML-voorspellingen bieden voor beter beleid. Het programma Risico en Regulering, in samenwerking met het programma Data Science, heeft vorige week een studie uitgebracht over Stapeling en voorspelbaarheid van arbeidsmarkt- en gezondheidsschokken. In deze studie onderzoeken we met ML in hoeverre risico’s zoals werkloosheid en ziekenhuisopnames al kunnen worden voorspeld voordat ze zich voordoen. Waar mijn persoonlijke voorbeeld gaat over het inschatten van het gezondheidsrisico op basis van een individuele risicoanalyse, laat deze CPB analyse zien dat beleidsmatige inzichten op groepsniveau kunnen worden toegepast.
Onderscheidend ten opzichte van conventionele methodes is dat we met ML-technieken veel beter kunnen voorspellen door grotere voorspelkracht, selectievermogen van relevante kenmerken, big data, enz. Met deze voorspellingen kunnen we groepen mensen aanduiden die van te voren een grote kans hadden op een nadelige levensgebeurtenis (bijv. werkloosheid) ongeacht of de gebeurtenis ook heeft plaatsgevonden.
Uit de geschatte kansen op gezondheids- en arbeidsschokken halen we een aantal interessante resultaten. Allereerst lukt het inderdaad om de kans op deze schokken accuraat te voorspellen. Hierdoor is onderscheid mogelijk tussen voorspelbare componenten van schokken, geïnterpreteerd als ex-ante risicotypen, en willekeur.
Een tweede resultaat is dat de kans om ernstig ziek of afhankelijk te worden van een uitkering behoorlijk ongelijk is verdeeld. De meeste mensen in de leeftijdsgroep 25-60 jaar lopen relatief weinig risico, maar één procent van hen heeft een tot wel dertig keer grotere kans op een tegenslag dan gemiddeld.
Stapelende risico’s
Vervolgens vinden we dat tegenslagen op het gebied van arbeid en gezondheid vaak met elkaar samenhangen. De top één-procent met het hoogste zorgkostenrisico’s heeft bijvoorbeeld vier keer meer kans om afhankelijk te worden van een uitkering. Preventief werkloosheidsbeleid kan zich dan richten op deze groep. Dit beleid kan ook worden ingezet om te voorkomen dat de eerste schakel in een reeks nadelige gebeurtenissen plaatsvindt, waardoor mensen niet in een nog slechtere situatie terechtkomen. In beide gevallen is het belangrijk dat we in deze studie de stapeling van risico’s kwantificeren, zodat tegenslagen uit het verleden kunnen worden meegenomen bij gericht preventief beleid.
Beleid kan deze informatie over kansen op (stapelende) risico’s dus gebruiken om na te denken over gerichter preventief beleid voor risicogroepen om te voorkomen dat mensen werkloos of ziek worden. Voorkomen is beter dan genezen. In het voorbeeld van mijn dochtertje wordt dit opeens heel concreet; een eerdere behandeling op basis van een goede voorspelling had kunnen voorkomen dat ze ziek werd.
Hoe is het nu met mijn dochtertje? Zij is inmiddels ruim 1,5 jaar oud en ontwikkelt zich als een speer. Gelukkig is het allemaal met een sisser afgelopen. De bilirubinewaardes waren weliswaar gevaarlijk hoog, maar gelukkig was ze ook te laat geboren waardoor de bloed-hersenbarrière voldoende ontwikkeld bleek om de hoge dosering bilirubine tegen te houden. Kennelijk was er dus nog een factor van betekenis die door de meeste betrokkenen niet was opgepikt. Veel lof voor een ervaren specialist kindergeneeskunde die dit scherp had. Mijn vertrouwen in professionals was weer een beetje toegenomen, al had een goed ML-model deze extra factor er misschien al eerder uitgehaald.
Emile Cammeraat
- more about Emile
Emile Cammeraat
Programmaleider of the CPB Netherlands Bureau for Economic Policy Analysis
- more about Emile
Recent CPB columns
- Van wie is de ruimte? - Jeroen Hinloopen
- Kinderwetje uit 1874 nog steeds actueel - Frits Bos
- Misverstanden plagen aanpak van productiviteit - Pieter Hasekamp