Van veel ziekten en aandoeningen is de exacte oorzaak of samenspel van oorzaken niet bekend. Het overgrote merendeel kan niet echt genezen worden, hetgeen resulteert in chronische aandoeningen die vaak slechts symptomatisch behandeld kunnen worden. Big Data biedt mogelijkheden om de kennislacunes op te vullen. Zorggegevens zijn echter zeer privacygevoelig en in het Big Data-tijdperk wordt het steeds lastiger om gegevens echt te anonimiseren. Een ander punt van zorg is het gevaar van centralisatie van (medische) kennis bij private partijen.
Big Data kan gezien worden als een ontwikkeling waarbij grote hoeveelheden gegevens afkomstig uit verschillende gegevensbronnen, aan elkaar gerelateerd worden om te zoeken naar patronen zonder vooraf opgestelde hypothesen. De gegevens zijn vaak afkomstig uit verschillende domeinen en worden gebruikt voor andere doeleinden dan waarvoor ze oorspronkelijk verzameld zijn. Binnen de zorg zijn er vele verschillende gegevensbronnen. Bijvoorbeeld het medisch dossier, dat inmiddels vrijwel volledig gedigitaliseerd is, waarin de ziektegeschiedenis van de individuele patiënt is vastgelegd. Biobanken bevatten grote hoeveelheden waardevolle informatie in de vorm van bloed, urine en weefsel samples. Nieuwe ‘high-throughput’ laboratoriumtechnieken genereren zeer grote hoeveelheden gegevens, zoals next generation sequencing, waarmee relatief goedkoop het gehele genoom van een patiënt in kaart gebracht kan worden. Via het Internet of Things (IoT) kunnen niet alleen allerlei fysiologische zaken zoals lichaamsbeweging en hartslag gemeten worden, maar ook omgevingsfactoren zoals fijnstof.
Door gegevens uit de verschillende bronnen aan elkaar te relateren – Big Data – kan de kennis over oorzaken van ziekten en aandoeningen en de effectiviteit en doelmatigheid van behandelingen toenemen. Een recent voorbeeld is een onderzoek van het Radboudumc in samenwerking met Verily, een zusteronderneming van Google, bij 650 patiënten met de ziekte van Parkinson. Gegevens van onder andere hersenscans, laboratoriumonderzoek en draagbare sensoren die hartfunctie en activiteitsniveau meten (IoT) worden gecombineerd. De gegevens zijn gepseudonymiseerd zodat onderzoekers de gegevens niet tot een individuele patiënt kunnen herleiden. Uiteindelijk wil men wereldwijd honderdduizenden patiënten volgen om zo meer inzicht te krijgen in de oorzaken van de grote verschillen in beloop van deze ziekte bij vergelijkbare patiënten.
Gebrek aan kennis geldt niet alleen voor de Ziekte van Parkinson. In de geneeskunde zijn ondanks de grote hoeveelheid reeds beschikbare kennis, de ‘echte’ oorzaken van ziekten en aandoeningen van met name de frequent voorkomende aandoeningen, zoals hart- en vaatziekten, diabetes of kanker, niet bekend. Er zijn wel veel risicofactoren geïdentificeerd die de kans op deze ziekten vergroten of verkleinen, maar in verreweg de meeste gevallen gaat het om vrij onspecifieke zaken zoals voeding of te weinig bewegen. Echt genezen lukt (nog) niet. Van de helft van de behandelingen is het effect onbekend, omdat dit (nog) niet onderzocht is. En van de helft die wel onderzocht is, is, zoals Ionannides heeft aangetoond, het resultaat veelal onbetrouwbaar. De computer kan, gevoed door Big Data en met behulp van artificial intelligence, het stellen van een diagnose en het kiezen van de beste behandeling ondersteunen. Een voorbeeld hiervan is beschreven in de The Japan Times van 11 augustus jl. Een patiënte in een universiteitsziekenhuis in Tokyo reageerde niet goed op een maanden durende chemotherapie voor acute myeloide leukemie, een vorm van bloedkanker. Het vermoeden rees dat er sprake was van een ander type leukemie, maar dat kon met gangbare testen niet aangetoond worden. Haar genetische informatie werd ingevoerd in Watson, de supercomputer van IBM. Een zoektocht door zijn database met oncologiegegevens leverde als diagnose op dat ze een zeldzame vorm van secundaire leukemie had. De patiënte reageerde vervolgens goed op een aangepaste therapie.
Big Data-overmoed
Het gebruik van Big Data kent evenwel zijn beperkingen. Zo kunnen alleen correlaties tussen gegevens worden gevonden, maar geen causale verbanden. Veel van de gevonden correlaties zullen op toeval berusten of de relevantie ervan is niet bekend. De mogelijkheden van Big Data moeten niet overschat worden. Met Big Data-overmoed wordt gedoeld op de, veelal impliciete, aanname dat Big Data een alternatief is voor, in plaats van een aanvulling op, de traditionele wijze van gegevens verzamelen en analyseren. Een voorbeeld hiervan is cq. was Google Flu trends, waarbij op basis van Big Data, in dit geval griepgerelateerde zoekvragen, de griepactiviteit werd gemonitord. Klassiek gebeurt dit met behulp van pijlstations. Zo houden in Nederland sinds 1970 circa veertig huisartspraktijken de jaarlijkse griepepidemie bij. In de VS doen de Centres for Disease Control and Prevention (CDC) dit. Deze officiële cijfers lopen gemiddeld twee weken achter op de realiteit. Op basis van zoekvragen op internet zou dit veel simpeler en realtime kunnen was de gedachte. In 2009 publiceerden onderzoekers van Google een artikel in Nature waarin zij aangaven dat de resultaten voor 97% accuraat waren. Een follow-up studie van Butler in 2013 in Nature liet echter zien dat de resultaten in dat jaar er flink naast zaten. Een ander onderzoek gaf aan dat de extrapolatie van zelfs drie weken oude CDC gegevens een betere voorspelling gaven dan Google Flu. Sinds augustus 2015 is de website Google Flu trends overigens uit de lucht. Naast zoekgegevens worden vaak ook gegevens van sociale media in Big Data analyses gebruikt. Om trends in de tijd te volgen zijn evenwel betrouwbare gegevens over een langere periode nodig. De vluchtigheid van sociale media maakt dit lastig.
Privacy
Zorggegevens van patiënten zijn uitermate belangrijk om de eerder geschetste kennislacunes op te vullen. Ze zijn evenwel zeer privacygevoelig. In het Verenigd Koninkrijk ontstond in mei van dit jaar grote opschudding toen bleek dat de NHS, de National Health Service, toegang had gegeven aan DeepMind, een firma gespecialiseerd in kunstmatige intelligentie en zusterbedrijf van Google, tot de medische dossiers van ongeveer 1,6 miljoen patiënten in drie ziekenhuizen. Het bedrijf kreeg daarbij toegang tot niet-geanonimiseerde gegevens. In het Big-Data tijdperk wordt het overigens steeds lastiger om gegevens echt te anonimiseren. Door koppeling van gegevensbestanden kunnen geanonimiseerde gegevens vaak weer gedeanonimiseerd worden. Een belangrijke vraag is of privacy ‘a thing of the past’ gaat worden. Burgers zeggen weliswaar zicht zorgen te maken over hun privacy, maar in hun gedrag blijkt hier weinig van, gezien het gemak waarmee ze allerlei gegevens via sociale media openbaar maken. Op internet betaalt de gebruiker voor veel ‘gratis’ diensten met zijn privacy. Privacy lijkt te verschuiven van iets waarop men recht heeft, naar iets waarvoor men moet betalen. De vraag is of dit ook voor zorggegevens gaat gelden.
Kennis is macht
Een aantal bedrijven, zoals eerder genoemde IBM en DeepMind, werken aan systemen voor kunstmatige intelligentie op het terrein van de medische diagnostiek en behandeling. Dergelijke systemen worden gevoed met wetenschappelijke kennis en patiëntengegevens. Een recent voorbeeld van dit laatste is de analyse van oogscans. DeepMind is met het Moorfields Eye Hospital in het Verenigd Koninkrijk een partnership aangegaan. Een miljoen (geanonimiseerde) oogscans, naast netvliesfoto’s ook zgn. optical coherence tomography scans, zullen de komende vijf jaar geanalyseerd worden. De kennis die gegenereerd wordt en deel uit maakt van de te ontwikkelen AI-software wordt eigendom van het bedrijf volgens een artikel in New Scientist van 6 juli jl.
Binnen de wetenschappelijke wereld wordt de opvatting breed gedragen dat kennis vrijelijk beschikbaar moet zijn voor iedereen. Het is evenwel niet ondenkbaar dat er, net als bij de internetzoekmachines en sociale media, natuurlijke monopolies of oligopolies ontstaan, waarbij één of enkele dominante partijen de kennis extraheren uit vrijelijk beschikbare wetenschappelijke gegevens. Deze kennis is hun eigendom. Hierdoor kan een centralisatie van kennis plaatsvinden, een alomvattende corpus of knowledge die in private handen is. Hierbij kan het door de Amerikaanse hoogleraar Mazzucato beschreven probleem ontstaan dat de samenleving uiteindelijk dubbel betaalt. Allereerst betaalt de samenleving veel van het wetenschappelijk onderzoek dat de gegevens genereert. Bedrijven gebruiken deze vrij beschikbare gegevens om kennis te genereren. Vervolgens kunnen zij hoge prijzen bedingen voor het gebruik van deze kennis.
Daarnaast is een ontwikkeling gaande waarbij de kennisexploratie meer en meer privaat gestuurd wordt. Zo wordt op dit moment reeds veel klinisch onderzoek, met name randomized clinical trials, gefinancierd door de farmaceutische industrie. Zoals hiervoor aangegeven kan Big Data een belangrijke bijdrage leveren aan het opvullen van lacunes in kennis. Als echter deze gegevensstromen via private partijen lopen, zal er commerciële invloed zijn op de richting en wijze waarop de kennislacunes worden opgevuld.
Leo Ottes is auteur van het WRR Working Paper 19 ‘Big Data in de zorg’
Dit artikel verscheen eerder in Digitalezorg.nl Magazine
Mooi overzicht en samenvatting van stand van zaken. De arts (en politiek) hebben hier ook een belangrijke rol: bescherm de patiënt(gegevens) zoals beloofd in je beroepseed. Hippocrates’ eed mag dan wel oud zijn, maar zeker nog van toepassing. Privacy by design, zodat de regie bij de patiënt en behandelend arts blijft, is mogelijk. De vertrouwens- relatie tussen beiden is een groot goed dat behouden moet blijven. Dat kan ook met nieuwe (mobiele) technieken. Techniek is er om te ondersteunen en geen doel an sich.