Reeds in 1968 formuleerden Wilson en Jungner tien criteria om te beoordelen of screening zinvol is (zie kader 1). Een screeningsprogramma dat aan deze criteria voldoet, is de moeite waard.1 Maar de criteria zijn vaak voor meerdere uitleg vatbaar. Wat is een belangrijk gezondheidsprobleem? Wordt dat bepaald door de prevalentie? Dan zou de hielprik voor de opsporing van fenylketonurie (phenylketonuria, PKU) direct moeten worden beëindigd. PKU is een aangeboren stofwisselingsziekte die onbehandeld leidt tot zeer ernstige mentale retardatie, maar het komt nauwelijks voor. De gevolgen zijn echter dramatisch. Gelukkig is het goed te behandelen en is de opsporing buitengewoon precies. We zijn het er daarom over eens dat de hielprik voor PKU een zeer efficiënte screening is, ook al betreft het slechts 10 tot 15 kinderen per jaar in Nederland.
Kader 1 Criteria van Wilson & Jungner
1. Relevantie: de op te sporen ziekte moet tot de belangrijke gezondheidsproblemen behoren.
2. Behandelbaarheid: de ziekte moet behandelbaar zijn met een algemeen aanvaarde behandelingsmethode.
3. Voorzieningen: er moeten voldoende voorzieningen voorhanden zijn om de diagnose te stellen.
4. Herkenbaarheid: er moet een herkenbaar latent stadium bestaan wil opsporing de moeite lonen.
5. Natuurlijk beloop: het natuurlijke beloop van de op te sporen ziekte moet bekend zijn.
6. Wie is ziek? Er moet overeenstemming bestaan over wie als ziek moet worden beschouwd.
7. Opsporingsmethode: er moet een bruikbare opsporingsmethode bestaan.
8. Aanvaardbaarheid: de opsporingstest moet aanvaardbaar zijn voor de bevolking.
9. Kosten-baten: de kosten moeten evenredig zijn met de baten.
10. Continuïteit: het proces van opsporing dient continu te zijn.
Het gaat dus om een samenhangend oordeel, waarin een heleboel verschillende afwegingen een rol spelen. Dat alleen al maakt het onderzoeken van screening tot een ingewikkelde kwestie. Idealiter richt zo’n onderzoek zich op de gehele keten, dus op alle tien Wilson en Jungner-criteria. Dan lijkt de opzet van een dergelijk onderzoek voor de hand te liggen: je randomiseert mensen en doet bij de ene helft wel een screeningstest en bij de andere helft niet. Daarna vervolg je beide groepen lang genoeg en telt …? (Vul maar in, wat tel je?)
We zullen in dit laatste artikel in deze serie enige bekende valkuilen van wetenschappelijk onderzoek naar screenen bespreken. We beperken ons daarbij tot de gekozen uitkomstmaten en de karakteristieken van de te onderzoeken tests (de Wilson en Jungner-criteria 2, 4, 5, 6 en 7). Als voorbeeld gebruiken we de recente campagne van de Nierstichting om nierschade op te sporen in Nederland. Let wel: deze campagne was niet opgezet als wetenschappelijk onderzoek en kende geen gerandomiseerde groepen.
Twee jaar geleden voerde de Nierstichting een campagne waarbij iedereen boven de achttien jaar zich via internet kon aanmelden en dan een test (de niercheck) kreeg opgestuurd om eiwit in de urine op te sporen. Eiwit in de urine kan wijzen op een nieraandoening. De test bestond uit drie teststrookjes die met vijf dagen tussenpauze in de ochtendurine moesten worden gedoopt. Een bepaalde verkleuring wees op teveel eiwit. De strookjes moesten bij daglicht worden afgelezen en indien twee van de drie strookjes positief waren, werd aangeraden de huisarts te bezoeken. De campagne was een groot succes: ruim een miljoen Nederlanders deed mee en van hen vulden 71.714 een enquête in. Van die 71.714 gebruiken we de gegevens: 21% had een positieve testuitslag, en ruim een kwart van de positieve testers was daarmee naar de huisarts gegaan. Van deze 3.983 deelnemers bleken er 193 (5%) inderdaad een nog onontdekte aandoening te hebben: 25 (0,6%) hadden een chronische nierziekte, 152 (3,8%) hypertensie en 31 (0,7%) diabetes.2
Eindmaten
Wat is nu de uitkomst? Voor het gemak richten we ons op nierziekte als eindmaat, terwijl er ook nog een aantal mensen met diabetes mellitus en hypertensie werd gevonden. De dipstick voor urine is voor deze laatste groepen echter geen goede screeningsmethode. Hier volgen de belangrijkste vragen die spelen bij de evaluatie van de opbrengst, gerelateerd aan de criteria van Wilson en Junger (kader 1).
1. Maakt het voor het beloop van de ziekte uit of er eerder wordt behandeld?
Criterium 2. We zijn niet goed geïnformeerd over de aard van de aandoeningen die werden opgespoord. In het algemeen heeft behandeling van nierziekten effect, maar het leidt zelden tot genezing. Wel wordt het moment waarop de patiënt moet gaan dialyseren uitgesteld, mogelijk met zo’n 5 jaar. Dat kan erg belangrijk zijn, want dialyseren is een ingrijpende behandeling en kent ook beperkingen in de tijd. Als we ervan uitgaan dat bij alle 25 patiënten dialyse met 5 jaar wordt uitgesteld, winnen we dus 125 dialysejaren. Op individueel niveau is dat een belangrijke uitkomst. Op groepsniveau (die 71.714 deelnemers) is de winst gering: gemiddeld een halve dag. De kans dat je als deelnemer profijt hebt, is slechts 0,03%.
2. Is er een goed herkenbaar latent stadium en is ziekte helder gedefinieerd?
Criterium 4 en 6. Een latent stadium van een ziekte is het stadium waarin de aandoening nog geen klinische verschijnselen veroorzaakt of klachten tot gevolg heeft, maar al wel kan worden opgespoord. Consensus bestaat min of meer over het niveau van functieverlies waarbij dialyse geïndiceerd is, maar er is geen duidelijk latent stadium van nierschade. De nierfunctie is een glijdende schaal. Er bestaan wel (arbitraire) grenzen, maar deze zijn niet gekoppeld aan een duidelijk ziektestadium, noch aan een duidelijke prognose. Nierfunctieverlies treedt bovendien sowieso op bij het ouder worden. Dat ligt bij veel andere aandoeningen eenvoudiger: PKU heb je wel of niet en hetzelfde geldt voor de meeste soorten kanker. Er is bij nierschade dus geen duidelijk afkappunt.
3. Is de opsporingsmethode bruikbaar?
Criterium 7. De bruikbaarheid van de opsporingsmethode is afhankelijk van de prevalentie van de op te sporen aandoening en de testkarakteristieken van de gebruikte test. De testeigenschappen van de gebruikte test waren vooraf niet goed bekend. Waarom twee positieve sticks, en niet een of drie? Deze keuze gaat over het varen tussen Scylla en Charybdis: tussen onaanvaardbaar hoge aantallen foutpositieven en onaanvaardbaar hoge aantallen mensen met gemiste nierschade.
We kunnen de testeigenschappen ook achteraf niet berekenen, omdat we niet weten hoeveel mensen we hebben gemist die wel nierschade hebben, maar geen positieve test. We kennen wel de positief voorspellende waarde van de test, namelijk 0,6%. Van 1000 positieve testers die naar de huisarts gingen, hadden uiteindelijk 6 personen nierschade, en 994 niet. Om 1 patiënt met nierschade op te sporen, dienen ruim 160 patiënten met een positieve screeningstest te worden onderzocht: extra laboratoriumonderzoek en extra bezoek(en) aan de huisarts. Als we nu uitgaan van een specificiteit van 80% en een prevalentie van nog niet bekende nierschade van 12 per 1000 inwoners, dan missen we per 1000 negatieve testers ongeveer 1 zieke (zie kader 2), of nog anders gezegd: we missen eenderde van alle zieken. Deze mensen worden dus ten onrecht gerustgesteld.
De voorspellende waarde van een test is zeer afhankelijk van de prevalentie van de betreffende ziekte in de groep mensen die je screent. Mocht de prevalentie van niet ontdekte nierschade niet 2, maar 3 per 1000 zijn dan mis je meer zieken dan je opspoort. Voer je deze berekening uit zonder te corrigeren voor mensen die weliswaar een positieve test hadden maar daarmee niet naar de huisarts gingen, dan worden de resultaten veel slechter. Je mist dan immers veel meer mensen met nierschade. Doe je onderzoek op eiwit in de urine bij patiënten met diabetes mellitus of hart- en vaatziekten, dan is je trefkans veel groter. Daarmee verandert de verhouding tussen terecht positieven en foutpositieven dramatisch. Als je vist in een drukbevolkte vijver, heb je meer kans iets te vangen. Een veelgebruikte maat is het number needed to screen (NNS). Bij de niercheckcampagne werden om 1 patiënt op te sporen 2869 tests verstuurd. De NNS is dus 2869.
4. Zouden deze mensen ook zijn opgespoord via de reguliere zorg en zo ja, in welk stadium van hun ziekte?
Criterium 9 (deels). Op deze vraag weten we eigenlijk geen antwoord. Uit de evaluatie van de campagne bleek dat de mensen met een afwijkende uitslag een slechtere gezondheid hadden en vaker bij de huisarts kwamen dan degenen met een normale uitslag. De kans op het vinden van een afwijkende nierfunctie door de reguliere zorg zou bij hen dus al groter kunnen zijn dan gemiddeld. Het lijkt echter wel zo te zijn dat nierfunctieverlies vaak pas laat wordt gediagnosticeerd: wanneer de schade reeds aanzienlijk is.
Een goed antwoord op deze vraag is alleen mogelijk met behulp van een gerandomiseerd onderzoek.
Kader 2 Testuitkomsten dipstick
[[tbl:345]]
De getallen zijn gebaseerd op patiënten die met een afwijkende uitslag de huisarts bezochten (de bovenste cellen, cel a en b). De prevalentie van niet eerder bekende nierschade is een schatting, op basis waarvan cellen c en d kunnen worden berekend.
Nu is het aan jou om te bepalen of je zo’n test met drie dipsticks (de niercheck) een goede test vindt voor een bevolkingsonderzoek. Leg de resultaten van de campagne maar langs de criteria van Wilson en Jungner. Bedenk daarbij dat we niet helemaal goed geïnformeerd zijn over de resultaten van met screening gevonden en behandelde nierschade.
Nog meer problemen
Bij veel screeningsonderzoek ligt de zaak nog gecompliceerder dan in dit voorbeeld. Over het bevolkingsonderzoek op borstkanker woedt nog steeds een strijd over de vraag of dit wel zinvol is. Probleem bij de evaluatie daarvan wordt onder meer veroorzaakt door drie begrippen: lead-time bias, length-time bias en vervangende sterfte. Alledrie hebben betrekking op (mogelijke vertekening van) de uitkomstmaat.
Lead time bias gaat over het schijnbaar positieve effect van testen op de prognose. Als je met een test (mammografie) ziekte in een eerder stadium opspoort dan te doen gebruikelijk en je meet daarna de overleving, dan lijkt de opsporing altijd succesvol. ‘Dit is zelfs zo als eerder behandelen geen enkel effect heeft: mensen leven dan immers gewoon langer mét hun kanker, zonder dat de overleving toeneemt. Dit probleem is bij borstkanker echter voldoende duidelijk: vroeger behandelen leidt tot betere resultaten.
Length time bias heeft te maken met de aard van de opgespoorde aandoeningen. Langzaam groeiende tumoren hebben een langere presymptomatische fase en ook vaak een betere prognose. Omdat een test op een bepaald moment in de tijd wordt gedaan, zullen er naar verhouding veel langzaam groeiende tumoren worden gevonden, juist omdat de presymptomatische fase langer duurt. Tumoren die worden ontdekt bij bevolkingsonderzoek, lijken daarom een betere prognose te hebben.
Tot slot de vervangende sterfte. Mensen gaan allemaal dood. Als je voorkomt dat een vrouw overlijdt aan borstkanker, neemt haar risico toe om te overlijden door een andere oorzaak (bijvoorbeeld een hartinfarct). Ze overlijdt dan mogelijk niet later, maar aan een andere oorzaak. Als je het effect van een screeningsprogramma afmeet aan ziektespecifieke sterfte (bijvoorbeeld borstkanker), zou je dus ten onrechte kunnen concluderen dat het programma zorgt voor een toename van de gemiddelde levensverwachting. Het kan zelfs zijn dat (in het geval van borstkankerscreening) de stralingsbelasting van het onderzoek zorgt voor toename van andere aandoeningen en daarmee tot een toename van sterfte aan andere ziekten. Daarom is het goed om altijd de totale sterfte als uitkomstmaat te nemen. Het nadeel daarvan is dan weer dat het buitengewoon lastig kan zijn om daarmee een effect van het screenen aan te tonen. Omdat sterfte ten gevolge van een ziektespecifieke oorzaak altijd slechts een (klein) deel van de totale sterfte betreft, worden eventuele gunstige resultaten van een screeningsprogramma dan immers sterk verdund.
Conclusie
Wat je precies moet tellen als uitkomst van een screeningstrial, is dus lastig te bepalen. Het gaat vaak om een complex van uitkomsten en door de vaak noodzakelijke langdurige follow-up verandert intussen de wereld: betere diagnostische methoden, andere epidemiologie, behandelingen met een beter resultaat enzovoort. Screeningsonderzoek is een bijzonder lastige vorm van onderzoek en de opbrengst wordt vaak bepaald door een opeenvolging van verschillende uitkomsten: de screening zelf (met gunstige en ongunstige gevolgen), de opbrengst van behandeling (bij degenen die het programma hebben gevolgd, maar ook bij degenen die wel een oproep kregen maar daaraan geen gehoor gaven), enzovoort. De criteria van Wilson en Jungner staan echter ook na ruim veertig jaar nog fier overeind. Als iemand succes claimt van screening, leg de resultaten dan maar langs die lat. Als voldaan wordt aan de criteria, is het mogelijk de moeite waard. Zo niet, dan is eerst nader onderzoek noodzakelijk.
Het is jammer dat veel programma’s worden ingevoerd voordat de antwoorden op de vragen van Wilson en Jungner bekend zijn. Vaak is het wachten op een definitief antwoord politiek gezien lastig. De druk op het invoeren van programma’s voor borstkankerscreening en bijvoorbeeld ook voor baarmoederhalskankerscreening was in het verleden zo groot, dat tot invoering is besloten voordat men over alle antwoorden op de vragen van Wilson en Jungner beschikte. Vandaar ook de voortdurende controverses.
Tot slot
In deze serie zijn de meest gebruikte onderzoeksdesigns aan de orde geweest. We bespraken steeds de belangrijkste aspecten. Voor degenen die zich verder willen verdiepen, bestaan veel boeken en artikelen. Als je een artikel leest, pak er dan het betreffende stukje eens bij en probeer te bekijken of het een valide onderzoek betreft. Dat kan aardige verrassingen opleveren. En tijdwinst, mocht blijken dat je ernstig kan twijfelen aan de geldigheid van de resultaten. Veel plezier ermee!
Bladnaam:
Tijdschrift voor praktijkondersteuning 2010, nummer 2
Literatuurverwijzingen: