Nieuwe serie
We starten in dit nummer met een nieuwe serie over het zoeken en beoordelen van wetenschappelijk onderzoek. Hierin behandelen we begrippen die van belang zijn bij het lezen van verslagen van wetenschappelijk onderzoek. We leggen uit welke methoden bij het doen van dat onderzoek worden gebruikt en we bespreken hoe we de resultaten ervan kunnen opzoeken. In de praktijk werkt het andersom. Je hebt een vraag, gaat op zoek naar een antwoord en dient dan te beoordelen of dat antwoord ook geldig is. Wij kiezen voor de omgekeerde weg omdat we al bij de eerste stap, het stellen van een vraag, rekening moeten houden met de methodologie en gebruikte terminologie.
De serie is opgebouwd rondom de soort vragen die op je af kunnen komen. Vragen over de werkzaamheid van een behandeling, over de waarde van diagnostische tests, over de prognose en over bijwerkingen van behandelingen. En dan is er nog de vraag naar het waarom, waarmee de patiënt de oorzaak bedoelt. Steeds behandelen we eerst de terminologie en de wetenschappelijke methodologie. Aan het eind gaan we zoeken naar antwoorden.
In deze eerste aflevering van ‘wetenschap in een notendop’ beginnen we met vragen over de werkzaamheid van een behandeling. Als voorbeeld nemen we een patiënt, zoals die vaak op het spreekuur van de praktijkondersteuner komt. We bespreken de betekenis van verschillende uitkomstmaten en hun beperkingen.
Casus
De heer Van Velzen is 58 jaar en heeft een maand geleden een hartinfarct gehad. Gelukkig was de dokter er snel bij en kon hij direct terecht in het ziekenhuis, waar de cardioloog hem heeft ‘gedotterd’. Dat is goed gelukt en vandaag zit hij tegenover je in de spreekkamer. Hij is opgelucht dat het allemaal goed is afgelopen, maar verbaast zich wel over de grote hoeveelheid medicijnen die hij moet gebruiken. Ook moet hij van de cardioloog en de huisarts zijn leefstijl veranderen en heeft daar vragen over. Vooral dat fietsen vindt hij maar niks. Als fanatiek visser besteedt hij zijn spaarzame vrije tijd liever aan zijn hobby. Hij wil precies van je weten wat hij opschiet met al dat fietsen en of dat wel is bewezen.
Deze patiënt komt met terechte vragen. Als we iemand adviseren om belangrijke wijzigingen in zijn leven aan te brengen of om medicijnen te gebruiken moeten we er zeker van zijn dat ons advies is gebaseerd op empirisch wetenschappelijk onderzoek. Empirisch onderzoek wil zeggen dat de behandeling is getest op echte patiënten. Wetenschappelijk houdt in dat in dat onderzoek gebruik is gemaakt van methoden die algemeen zijn geaccepteerd door de wetenschappelijke wereld. Gebruikmaken van de resultaten van empirisch wetenschappelijk onderzoek en deze aanpassen aan de wensen en mogelijkheden van een individuele patiënt noemen we ‘evidence based medicine’.
Feitelijk vraagt de heer Van Velzen ons naar de evidence voor ons advies. Daarnaast vraagt hij naar de omvang van de winst die hij kan boeken door veel te fietsen. Kortom: hoeveel levert het me op en hoe zeker bent u daarvan?
Vragen en antwoorden
Voordat je de heer Van Velzen antwoord geeft moet je in de eerste plaats weten wat hij precies bedoelt met winst. Wil hij langer leven, wil hij beter leven, of bedoelt hij nog iets anders? Kortom: aan welke uitkomst van de behandeling hecht de patiënt de meeste waarde? Deze patiënt bedoelt met zijn vraag of hij door te fietsen een recidiverend infarct kan voorkomen (en dus langer kan leven).
Met de NHG-Standaard onder handbereik kun je hem snel antwoord geven (zie kader). Hierin staat immers precies het antwoord op zijn vraag: het effect van lichaamsbeweging op het overlijden na een hartinfarct.
De heer Van Velzen voldoet aan dezelfde criteria als de patiënten die zijn ingesloten in de onderzoeken. De gevonden uitkomst zal dus ook op hem van toepassing zijn, al is zijn precieze risico toch wat moeilijk te bepalen. Er waren immers patiënten met verschillende stadia van atherosclerose in de onderzoeken ingesloten. Dat beïnvloedt de absolute risico’s: de kans op een nieuw infarct zal bij patiënten die al eens een infarct hebben gehad groter zijn dan bij patiënten die nog nooit een infarct kregen.
De kans van iemand van 58 jaar om binnen gemiddeld 2 jaar te overlijden is het achtergrondrisico. Het risico voor de heer Van Velzen is het absolute risico in de controlegroep, de groep zonder bewegingsprogramma. De kans om te overlijden als hij gaat fietsen, is de kans in de groep met een bewegingsprogramma, de interventiegroep. Het verschil tussen beide kansen is zijn winst. Door bewegen vermindert hij zijn risico om binnen 2 jaar te overlijden van 19,2% (het absolute risico in de controlegroep) naar 16,5% (het absolute risico in de interventiegroep). Hij wint door het fietsen dus 2,3% (de absolute risicoreductie = ARR). Omdat zo’n ARR patiënten meestal niet veel zegt, gebruiken we daarvoor ook wel een andere maat: het number needed to treat (NNT). Het NNT geeft aan hoeveel patiënten in eenzelfde situatie als de heer Van Velzen zouden moeten gaan fietsen om 1 patiënt een voortijdige dood te besparen. In dit geval zouden dat er 100 gedeeld door 2,3 zijn: er moeten 44 Van Velzens 2 jaar lang gaan fietsen om 1 overlijden binnen 2 jaar te besparen. Nog anders gezegd: fietsen verhoogt zijn kans om geen recidiverend infarct te krijgen van 80,8% (100% – 19,2%) naar 83,5% (100% – 16,5%).
Er is nog een andere manier om de verhouding tussen de risico’s in de interventiegroep en de controlegroep uit te drukken. Behalve het eenvoudigweg van elkaar aftrekken van de risico’s kun je het risico in de interventiegroep ook delen door het risico in de controlegroep. Er ontstaat dan een verhouding van risico’s, ook wel het relatieve risico (RR) genoemd. Het RR van de heer Van Velzen is 16,5 gedeeld door 19,2 = 0,86. Dat betekent dat lichaamsbeweging het risico op een recidiverend infarct met 14% vermindert (de relatieve risicoreductie, RRR = 1-RR). In tabel 1 zie je de verschillende maten waarin de winst van een therapeutische en preventieve interventie kan worden uitgedrukt.
Tekst van de NHG-Standaard Beleid na een doorgemaakt myocardinfarct
In een Cochrane-review werd de effectiviteit van hartrevalidatie versus gebruikelijke zorg onderzocht bij personen die een AMI, CABG, of PTCA doormaakten, bij personen met angineuze klachten of bij personen bij wie door middel van een coronairangiogram (CAG) significante coronairsclerose was vastgesteld [Jolliffe 2001]. In de groep die uitsluitend oefentherapie onderging (12 RCT’s, n = 2582), was de gemiddelde leeftijd 53 jaar en het percentage vrouwen 4,4%; patiënten met comorbiditeit en hartfalen werden meestal uitgesloten.
Het bleek dat hartrevalidatie met uitsluitend oefentherapie na gemiddeld ruim 2 jaar follow-up een significante verlaging gaf van de totale mortaliteit ten opzichte van gebruikelijke zorg, namelijk 16,5% ten opzichte van 19,2% (RR 0,86; 95%-BI 0,59-0,98; ARR (absolute risicoreductie) 2,3%; 95%-BI 0,2-4,5; NNT 44; 95%-BI 22-518) [Jolliffe 2001, Pignone 2004].
[[tbl:253]]
Hoe zeker zijn we?
De zekerheid waarmee we een bewering kunnen doen, drukken we uit met het betrouwbaarheidsinterval (BI). We gebruiken bijna altijd het 95% BI. Dat wil zeggen dat we voor 95% zeker zijn dat de gevonden uitkomst ligt tussen de onder- en de bovengrens van dat interval. Als de betrouwbaarheidsintervallen van het eindpunt (overlijden) in de controlegroep en de interventiegroep elkaar niet overlappen, zijn we er voor 95% zeker van dat er een verschil is tussen beide groepen.
De vermindering van het absolute risico was 2,3%; 95%-BI 0,2-4,5. We zijn er dus voor 95% zeker van dat de werkelijke risicovermindering ergens ligt tussen 0,2% en 4,5%. In de praktijk gebruiken we zelden het betrouwbaarheidsinterval en beperken we ons tot de puntschatter (= 2,3%). Het aantal onderzochte patiënten bepaalt de grenzen van het betrouwbaarheidsinterval. Hoe meer patiënten, hoe kleiner het betrouwbaarheidsinterval en dus hoe preciezer onze schatting van het effect.
Soms wordt bij een onderzoek alleen een P-waarde gerapporteerd. Deze waarde geeft weer of een gevonden verschil tussen twee (of meer) groepen verenigbaar is met de hypothese dat er geen verschil bestaat tussen de onderzochte groepen. Meestal hanteren we daarbij P < 0,05. Dat wil zeggen dat de kans dat een gevonden verschil op toeval berust, kleiner is dan 5%. Een P-waarde geeft geen inzicht in de omvang van een effect en die omvang is wel belangrijk voor de praktijk. Een heel klein verschil kan statistisch significant zijn als de onderzochte groep maar groot genoeg is, maar daarmee hoeft het nog niet klinisch relevant te zijn.
Voor- en nadelen van de verschillende maten
Het voordeel van het gebruik van het NNT is dat de omvang van het effect direct duidelijk is en direct vertaalbaar naar een individuele patiënt. Maar dat voordeel kent ook nadelen. Omdat het NNT afhankelijk is van de incidentie van een bepaalde gebeurtenis zijn NNT’s vaak verschillend tussen bijvoorbeeld mannen en vrouwen, tussen verschillende landen en tussen verschillende leeftijdsgroepen, ook al is de interventie overal dezelfde. Dit geldt ook voor de absolute risico reductie; dat is immers de evenknie van het NNT.
De relatieve risicoreductie heeft het nadeel van incidentieafhankelijkheid niet. Het is immers een relatieve maat: de verhoudingen tussen de interventiegroep en controlegroep veranderen niet als de beoogde uitkomst vaker of minder vaak in de onderzochte populatie voorkomt. Maar de RRR heeft weer als nadeel dat we geen idee hebben van de werkelijke omvang van de te behalen winst, omdat juist die incidentieafhankelijkheid ontbreekt. Als het risico daalt van 2% naar 1%, is de RRR 50%, en als het risico daalt van 60% naar 30%, is de RRR ook 50%. We kunnen met behulp van de RRR altijd de ARR uitrekenen als we het absolute risico kennen.
Ten slotte moeten we steeds goed bedenken wat we nu precies bedoelen met de berekende winst. Het gaat er vooral om hoe lang je een bepaalde interventie moet volhouden en in welke tijd de winst wordt behaald. Naarmate de follow-upduur van een onderzoek toeneemt, zal ook het aantal bereikte eindpunten (in ons voorbeeld overlijden) toenemen en het NNT daarmee afnemen. Verschillende onderzoeken rapporteren vaak verschillende perioden, waardoor de NNT’s meestal moeilijk onderling vergelijkbaar zijn. We kunnen dan proberen om te standaardiseren door het NNT per jaar uit te rekenen. Zo’n berekening heeft echter alleen betekenis als de kans op een gebeurtenis niet verandert gedurende de follow-upperiode. En dat is zelden het geval.
Bladnaam:
Tijdschrift voor praktijkondersteuning 2008, nummer 6
Literatuurverwijzingen: