Michael Moor – GBS Schweiz

Zahlenscheu kann tödlich enden

Michael Moor — Mon, 29 Apr 2013 14:00:47 +0000

Das Errechnen eines Erwartungswertes in den fünf besprochenen Schritten mag sich als aufwendig herausstellen. Dass es aber dennoch wichtig ist, nach dem Erwartungswert vorzugehen, zeigt der vorangehende Artikel.

Deshalb folgt nun ein Beispiel aus dem medizinischen Alltag (in Anlehnung an „Das Bayestheorem und der Base-Rate-Fehlschluss“):

(1) Peter erhielt soeben ein positives Testergebnis, welches besagt, dass er an einer Krankheit leide, welche bei 1% der mit ihm vergleichbaren Menschen auftritt. Als entscheidendes Kriterium für das weitere Vorgehen zählt sein Überleben.

(2) Seine Ärztin klärt ihn über die Schwächen des Tests auf. 10% der Gesunden werden als krank verzeichnet, während 5% der Kranken als gesund erfasst werden. Auch verkündet sie, dass sich diese Krankheit nur operativ behandeln lässt. Des Weiteren listet sie ihm die Risiken auf, welche eine allfällige Operation mit sich bringen würde:
Wird ein Kranker operiert, so liegen seine Überlebenschancen bei 95%. Ein Gesunder, der die Operation vergebens durchführt, überlebt diese mit einer Wahrscheinlichkeit von 99%. Das Ablehnen einer Operation führt beim Kranken in 30% der Fälle zum Tod, beim Gesunden nie.

(3) Nun weiss Peter, dass er entscheiden muss, ob er sich operieren lässt oder nicht. Deshalb notiert er sich für das übersichtliche Zuweisen von Wahrscheinlichkeiten folgende Baumdiagramme:

K= Krank; OP=operiert; U=Überleben; ~X = = Gegenereignis von X

Für die Wertung der möglichen Ereignisse ordnet Peter dem Outcome den Wert zu, dem Outcome hingegen den Wert .

(4) Da noch unklar ist, ob Peter überhaupt erkrankt ist, möchte er vorerst die Wahrscheinlichkeit herausfinden. Dazu geht er nach dem Bayestheorem vor:

Diese Rechnung liefert ihm eine Wahrscheinlichkeit von 8.8%, dass er krank ist.

Um den Erwartungswert der Pfade „operieren“ mit „nicht operieren“ zu vergleichen, kann er nun die Wertungen der Ereignisse betrachten. Da sich der Erwartungswert immer aus der Wahrscheinlichkeit multipliziert mit dem Ausmass errechnen lässt, schlägt Peter folgendes Vorgehen vor:

Entsprechend lässt sich dies auch für ausformulieren. Nun vergleicht er mit

(5) Es folgt: E(U|\bar{OP})" src="http://latex.codecogs.com/gif.latex?\dpi{100}&space;E(U|OP)>E(U|\bar{OP})" align="absmiddle" />; also entscheidet sich Peter für die Operation.

Ein weiterer Lösungsansatz der Decision Analysis würde Peter zusätzlich noch die allgemeine Information liefern, ab welcher es sich denn lohnen würde, zu operieren.

Dazu berechnet er eine neue , bei welcher das Operieren wie auch das Nicht-Operieren identische Überlebenswahrscheinlichkeiten aufweisen. Dies lässt sich beispielsweise so formulieren:

. Das Lösen dieser Gleichung nach (wobei Peter als die gesuchte verwendet) führt zu einem Wert von 3.8%.

Da seine mit 8.8% diesen Schwellwert übersteigt, darf er sich nun guten Gewissens für die Operation entscheiden.

Können wir auf den Erwartungswert verzichten?

Das obige Beispiel mag unwahrscheinlich erscheinen. In der Tat, in den wenigsten Fällen verfügt der rational Entscheidende über die Zahlenwerte sämtlicher benötigten Parameter. Doch das Beispiel beschreibt einen Soll-Wert für das Konzept der Entscheidungsfindung. Welche Entscheidung sich als die zielführendste herausstellt, wird in der Decision Analysis für Anwendungen mit quantitativen Unsicherheiten behandelt.

Auch wenn Max sein „Bauchgefühl“ mitunter zu einem Entscheidungskriterium macht, und sich dieses nur schwer in Zahlen fassen lässt, können wir retrospektiv eine quantitative Aussage über diesen Parameter machen:

Angenommen, Max befindet sich in der gleichen Situation wie Peter, aber er entscheidet sich gegen die Operation; dann können wir berechnen ab welcher minimalen Gewichtung des Bauchgefühls diese Entscheidung hervorgerufen wird. Max kann sich dem Entscheidungsmodell also nicht entziehen. Er darf zwar qualitative Kriterien in das Modell einschleusen; aber diese offenbaren mit der getroffenen Entscheidung immer auch ihren quantitativen Aspekt.

Wir können die Zahlen, welche unseren Entscheidungen zugrunde liegen, nicht verneinen; wir können sie bloss ignorieren. Am Eintreten der Konsequenzen unserer Entscheidungen ändert das Wegschauen jedoch nichts. Und wenn diese Konsequenz unseren Zielen entsprechen sollen, täten wir gut daran, alle verfügbaren Informationen zu verwenden – Zahlenscheu ist da fehl am Platz.

Serie: Erwartungswert und Entscheidungen

Und übrig bleibt die Null
Hohe Erwartungen an den Erwartungswert
Zahlenscheu kann tödlich enden

Hohe Erwartungen an den Erwartungswert

Michael Moor — Thu, 25 Apr 2013 22:11:03 +0000

Die Einen mag der Erwartungswert davon abhalten Lotterie-Scheine zu kaufen, die Anderen ziehen ihn zu Rate, um dem schweren operativen Eingriff, der einem ihrer Elternteile bevorsteht, einen reibungslosen Ausgang zuzuschreiben. Der gezielte Einsatz dieses Instruments mag sich in alltäglichen Situationen als hilfreich herausstellen, aber ist er auch gerechtfertigt?

Wird nun die Frage gestellt, ob der Erwartungswert genutzt werden soll, so machte es sich die befragte Person zu einfach, wenn sie sich auf die angebliche Unmöglichkeit beruft, diesem zu Entrinnen. Das Problem liegt dabei nicht bei der Hypothese der Unmöglichkeit selbst, sondern bei deren Anwendung. Wir verhalten uns nicht zielführend, wenn wir auf Soll-Fragen ohne Weiteres Ist-Antworten geben. Genau diesen Schritt vollzieht auch die oben genannte Person. Zum Beispiel ergibt es wenig Sinn, das Ziel „Frauen sollen gleich viel verdienen wie Männer“ von der aktuellen Datenlage zu geschlechtsabhängigen Lohnunterschieden beeinflussen zu lassen.

Sollen wir den Erwartungswert verwenden?

Nach dem Erwartungswert zu entscheiden, bedeutet, die Wahrscheinlichkeit für erwünschte Ereignisse so weit wie möglich zu erhöhen. Die Komponente „erwünscht“ stösst dazu, wenn wir im ersten Schritt das entscheidungsrelevante Kriterium definieren. Es liegt nahe, dass gewisse Entscheidungen besser zu gegebenen Zielen führen als andere. Selbst wenn alle Entscheidungsmöglichkeiten gleich zielführend erscheinen, lohnt es sich trotzdem, diese Einschätzung zu überprüfen.

Ein Ziel bedingt mindestens dann ein Meta-Ziel, wenn seine vollständige Erfüllung nicht verlangt wird. Wenn also jemand sein oder ihr angeblich allerhöchstes Endziel nur „ein bisschen“ erreichen möchte und nicht auf dessen volles Maximum aus ist, dann können wir daraus folgern, dass diese Person über ein noch höheres Ziel verfügen muss, welches das erwünschte Ausmass des untergeordneten Ziels determiniert. Das höhere Ziel entspricht dann dem eigentlichen Endziel. Somit verfällt die Person dem epistemisch irrationalen Glauben, ihr höchstes Ziel nicht maximal erreichen zu wollen.

Bei der Verfolgung unserer ultimativen Ziele dürfen wir uns nicht nur mit Faustregeln zufrieden geben. Mittels unserer höchsten Ziele sollten wir bei gegebenen situativen Informationen jene Herangehensweise eruieren, welche es uns ermöglicht, die Ist-Welt der Soll-Welt so gut es geht anzunähern.

Bei praktischen Beispielen zu diesem Gedanken stossen wir jedoch noch auf ein Problem: Stellen wir uns vor, ein massiv Übergewichtiger macht sich das Abnehmen zum höchsten Ziel. Nun kann es sein, dass er sein selbstverschriebenes Fitness-Pogramm trotz all seinen Bemühungen nicht einhält. Inwiefern macht es nun Sinn, „Abnehmen“ als höchstes Ziel zu definieren, wenn er nicht danach handelt? Nehmen wir an, er lässt für ein Treffen mit Freunden seine tägliche Pflichtstunde auf dem Hometrainer sausen. Daraus können wir folgern, dass zumindest in dieser Situation eine andere Maxime – nämlich „Führe ein gutes Sozialleben“ –das Sagen hatte.

Eine Antwort darauf bietet die Aufgliederung von Zielen in Reflective Mind und Autonomous Mind. Mit diesem Modell lässt sich aufdecken, welche unserer Ziele wir per Knopfdruck realisieren würden und welche nicht. Die letzteren würden wir, stünde uns ein entsprechender Knopf zur Verfügung, aus unserem Entscheidungsprozess verbannen. Somit würde der übergewichtige Herr vermutlich einen Schalter betätigen, welcher seinen Drang aufhebt, anstatt Sport zu treiben Freunde zu treffen. Hingegen würde er aber nicht unbedingt seinen Wunsch und seine Motivation zum Abnehmen loswerden wollen.

Wenn wir auch unsere Ziele normativ bewerten können, macht es wieder Sinn, auf das höchste „reflective goal“ – wie das Abnehmen im Beispiel – zu fokussieren. Systematisch betrachtet unterstützt uns der Erwartungswert am besten dabei, ein beliebiges Ziel als normativen Parameter zu definieren, und dieses so gut wie möglich zu erreichen. Folgendes Anwendungsbeispiel soll das veranschaulichen:

Auf einer Insel ist eine Epidemie ausgebrochen. Alle 20’000 EinwohnerInnen schweben in Todesgefahr, da jede Infektion dieses Erregers innert drei Tagen zum qualvollen Erstickungstod führt. ExpertInnen schätzen die Dynamik so ein, dass bei fehlender Intervention die gesamte Inselbevölkerung innert weniger Wochen ersticken wird. Die Einwohner dieser Insel verfügen nur über ein spärliches Gesundheitswesen, deshalb sind sie auf externe Hilfe angewiesen. Sie befinden sich auf der grösseren Nachbarsinsel und koordinieren ein Rettungspaket. Dabei stehen Sie vor der Wahl, welche der zwei auf dem Markt verfügbaren Interventionsmethoden Sie einsetzen: SafeRelieve und/oder CheapRelieve. Beide Präparate wirken sowohl kurativ wie auch präventiv. SafeRelieve kostet 2.05 CHF pro behandelte Person und zieht zu 100% eine vollständige Genesung nach sich. CheapRelieve ist ein günstigeres aber auch weniger sicheres Produkt. Nämlich heilt es nur in 50% der Fälle vollständig, bei den restlichen wirkt es überhaupt nicht. Dies bei einem Preis von 1.00 CHF pro behandelte Person. Die Politik gewährt dem Rettungspaket ein Budget von 10’000 CHF. Das Paket ist so geplant, dass jeder Einwohner mit gleich hoher Wahrscheinlichkeit das Medikament erhält. Wie gehen Sie vor?

Angenommen, wir setzen alles auf SafeRelieve, so ersparen wir 10000/2.05, also etwa 4878 Einwohnern die Todesqual. Setzen wir jedoch auf das zweite Pferd, so dürfen wir mit 10000/1*0.5, also genau 5000 Unversehrten, rechnen. CheapRelieve mag weniger sicher erscheinen, aber wir erwarten damit das geringere Übel. Für den Fall, dass wir unserer hirnarchitektonischen Zahlenschwäche treu bleiben wollen und die scheinbar „sicherere“ Option SafeRelieve wählen: Wie erklären wir diese Entscheidung den 122 vernachlässigten Opfern und ihren Angehörigen?

Ein anderer Lösungsansatz schlägt vor, die gleichgewichteten Interessen aller Einwohner einzubeziehen. Eine gute Faustregel, um auf alle Interessen Rücksicht zu nehmen, stellt der Veil of ignorance dar. Man betrachte dazu die Situation als ein Theaterspiel, in welchem das Schauspiel-Team den Verlauf des Drehbuchs wählen darf, wobei noch keiner weiss, ob er oder sie die Königin, den Adligen, die Hofmagd, den Stallknecht oder gar den Habenichts spielen wird. Eine Anwendung auf das Inselbeispiel könnte folgendermassen aussehen: Wir können davon ausgehen, dass die Wahrscheinlichkeit recht hoch ist, dass alle InselbewohnerInnen vor dem vollen Krankheitsverlauf verschont bleiben wollen. Versetzen wir uns also stellvertretend in eine einzelne Person auf der Insel. Diese begrüsst sicherlich jene Entscheidung der Nachbarinsel, welche die Wahrscheinlichkeit erhöht, dass sie behandelt und somit gerettet wird. Die Wahrscheinlichkeit, dass einer beliebigen Person geholfen wird, ist im Szenario SafeRelieve 4’878/20’000 = 0.239. Bei der Option CheapRelieve erhöht sich diese Wahrscheinlichkeit allerdings auf 5’000/20’000 = 0.25. Demnach darf die Inselbevölkerung mit CheapRelieve eine bessere Eindämmung der Katastrophe erwarten.

Dennoch drängt sich bei diesem Diskussionspunkt oft der Einwand auf, dass das Innenleben anderer Individuen gar nicht evaluiert werden könne, und es sich diese Erwartungswert-Evaluation deshalb zu einfach mache. Hierbei fällt auf, dass diese Argumentation vom Grau-Fehlschluss heimgesucht wurde, da sicherlich Aussagen über das Innenleben anderer Individuen gemacht werden können, wenn auch nur in schwachen Graustufen. Falls dies nicht der Fall wäre, könnten wir den erwarteten Nutzen von CheapRelieve mit einem Faustschlag ins Gesicht gleichsetzen. Tragisch wird dieser Einwand erst recht, wenn man merkt, dass diese Position keinen „besseren“ Vorschlag bringen darf, da sie sonst ungewollt den erwarteten Nutzen erhöhen würde.

Serie: Erwartungswert und Entscheidungen

Und übrig bleibt die Null
Hohe Erwartungen an den Erwartungswert
Zahlenscheu kann tödlich enden

Referenzen:

Why Maximize Expected Value – by Brian Tomasik

Und übrig bleibt die Null

Michael Moor — Tue, 23 Apr 2013 10:15:36 +0000

Der Artikel „Überzeugungen müssen sich ausbezahlen“ zeigte uns, dass eine Überzeugung wie „In meiner Garage befindet sich ein Drache, den ich weder sehen, riechen, hören, schmecken noch ertasten kann.“ uns nicht weiter bringt.

Die epistemische Leere dieser Überzeugungen ist nicht der einzige Grund, warum wir diesen angeblichen Drachen nicht in unsere Entscheidungsfindung miteinbeziehen. Selbst wenn dieser Drache tatsächlich existierte, stünden wir vor der schwierigen Frage, wie wir überhaupt dessen Interessen berücksichtigen können.

Meine Antwort darauf bedient sich eines Entscheidungsmodells, dessen Anwendung leider nicht immer gleichermassen auf der Hand liegt: Der Erwartungswert. Wer eine Entscheidung aufgrund des Erwartungswerts fällt, durchläuft folgende Etappen:

Entscheiden aufgrund des Erwartungswerts

Bestimmen der entscheidungsrelevanten Kriterien.
Simulation jener Strategien durchführen, die die Ausgänge der Ereignismenge beeinflussen.
Zuschreiben von Wahrscheinlichkeiten und gewerteten Ausmassen auf die möglichen Verlaufspfade.
Berechnen des Erwartungswerts für die Ereignismenge nach für die gesamte Verästelung von Pfaden.
Wählen des Pfades mit dem höchsten Erwartungswert.

Folgen wir diesem Ablauf, so wird uns schnell klar, dass unsichtbare Fantasiefiguren wohl kaum unsere Handlungsweise bestimmen können. Wir können zwar in einem ersten Schritt entscheidungsrelevante Kriterien wählen – beispielsweise dass ein Drache möglichst wenig Leid erfahren soll – jedoch stossen wir schon ab dem zweiten Schritt an empirische Grenzen. Es lässt sich zwar nicht logisch ausschliessen, dass es diesen Drachen gibt und dass dieser auch etwas wahrnimmt; die Wahrscheinlichkeit eines solchen Szenarios beläuft sich aber bei gegebener Datenlage auf einen verschwindend kleinen Wert.

Angenommen wir möchten nun, dass es diesem unwahrscheinlichen Drachen gut geht, dann benötigen wir Strategien, die ein solches Outcome ermöglichen. Dazu fehlt uns jedoch die Datenlage, welche zeigt, was dem Drachen gefällt und was nicht. Ohne diese Daten sind wir nicht in der Lage auf rationalem Wege unser Vorgehen zu planen. Somit sind wir gezwungen, den Erwartungswert für alle Strategien, die das Wohlergehen des Drachens sichern, gleich null zu setzen. Dadurch heben sich in der Erwartung mögliche Schäden und Nutzen gegenseitig auf. Das bedeutet nicht, dass wir nichts wissen; vielmehr liefert uns der Erwartungswert den Nachweis dafür, dass wir dieses Ereignis (den angeblichen Drachen) ignorieren können.

Nun können wir unsere Überzeugungen durchforsten und zukünftig darauf achten, ob unsere angewandten Strategien wirklich den erwünschten Nutzen bringen. Je nachdem beleuchten wir selektiv eher die bestätigenden Aspekte und weniger diejenigen, welche das Outcome der jeweiligen Strategie wieder auf null herunterzerren würden. Nicht selten können wir auch angebliche Knockdown-Argumente mithilfe dieser Eliminations-Strategie abwehren. Dazu aber mehr in den folgenden Artikeln.

Serie: Erwartungswert und Entscheidungen

Und übrig bleibt die Null
Hohe Erwartungen an den Erwartungswert
Zahlenscheu kann tödlich enden

Schlechte Statistik – Das Ende einer Ära

Michael Moor — Mon, 11 Mar 2013 11:06:33 +0000

Null Hypothesis Significance Testing (NHST) stellt eine Standardmethode in der Auswertung von Experimenten dar. Diese Methode verwendet sogenannte p-Werte. Diese geben die Wahrscheinlichkeit an, bestimmte Daten zu erhalten, gegeben dass die Null-Hypothese (Annahme, dass der untersuchte Effekt nicht vorhanden ist) zutrifft. Hierbei stellt sich folgende Frage: Soll nicht die Wahrscheinlichkeit für das Zutreffen einer Hypothese bei gegebenem Datensatz ermittelt werden, anstatt die Wahrscheinlichkeit für das Erhalten der vorliegenden Daten unter Annahme dieser Hypothese?

Dazu die Meinung des Biostatistikers Steven Goodman:

The p-value is almost nothing sensible you can think of. I tell students to give up trying.

Traurigerweise sind die Mängel des NHST altbekannt und wurden schon diskutiert, als Ronald Fisher die Methode in den Zwanziger-Jahren zu verfechten begonnen hat. Im Jahr 1960 meinte der Philosoph William Rozeboom dazu¹:

Despite the awesome pre-eminence NHST has attained… it is based upon a fundamental misunderstanding of the nature of rational inference, and is seldom if ever appropriate to the aims of scientific research.

NHST und allgemein die frequentistische Statistik bringen noch viele weitere Probleme mit sich². Das Wichtigste: NHST folgt nicht aus den Axiomen der Wahrscheinlichkeitstheorie. Es handelt sich nicht um eine verlässliche statistische Methode, sondern vielmehr um eine Wundertüte von Techniken, welche abhängig von der Anwendung (auf die immer gleichen Daten) zu unterschiedlichen Resultaten führen kann. Ein Umstand, der jeden mathematischen Geist entsetzen sollte. Die inferentielle Methode, also die Methode zum Schlussfolgern, welche die Probleme des Frequentismus löst und deduktiv den Axiomen der Wahrscheinlichkeitstheorie folgt, nennt sich Bayessche Statistik.

Man fragt sich nun vielleicht, wieso nicht alle WissenschaftlerInnen bayesianisch anstatt frequentistisch schlussfolgern. Zum einen Teil gründet dies in Tradition des frühen letzten Jahrtausends. Aber der Erfolg des NHST kann auch dem naheliegenden Fakt zugeschrieben werden, dass bayesianischen Berechnungen oft schwieriger durchzuführen sind als frequentistische. Glücklicherweise können neue Software-Tools wie WinBUGS³ die statistische Hürde nehmen und so den Grossteil des kognitiven Gewichtestemmens übernehmen. Ein weiterer Punkt könnte der träge Systemwechsel darstellen. Ist einmal eine Methode verankert, ist es schwierig, diese zu verdrängen, selbst mit den besten Gründen. Es ist also durchaus möglich, an der Universität Statistikkurse und -bücher zu konsultieren, ohne die Bayesian Inference kennen zu lernen.

Betrachten wir noch einmal den Fall von Bems Studie⁴ zu Präkognition. Es überrascht nicht, dass er ebenfalls NHST verwendete. Eine spätere bayesianische Analyse⁵ widerrief die ursprünglich erstaunliche Konklusion Bems.

Der Weg zu besserer Statistik

Studierende sollten Wahrscheinlichkeitstheorie lernen und nicht NHST. WissenschaftlerInnen sollten in bayesianischen Methoden trainiert werden. Bayesianische Software-Tools sollten benutzerfreundlicher und weiter verbreitet werden.
Falls es zutrifft, dass die wissenschaftliche Praxis diese tief hängenden Früchte zur einfachen Verbesserung trägt, dann deutet das darauf hin, dass die Forschungsinstitute, welche diese Reparaturen vornehmen, bei gleichen Ressourcen andere in den Schatten stellen können. Dies bezieht sich auf richtige Entdeckungen und nicht bloss auf veröffentlichte.
Forschungsgruppen sollten zukünftig in der Lage sein, bayesianisch geschulte WissenschaftlerInnen anzustellen, welche auch dem Publication Bias und Experimenter Bias ausweichen können. Forschende, welche wertvolle Fakten aus einem Meer von Publikationen extrahieren können – damit Skandale wie Bems Präkognitionsstudie in Zukunft den Platz für richtige Entdeckungen räumen müssen.

Serie: Wie man die Wissenschaft repariert

Wie man die Wissenschaft repariert – Eine Standortbestimmung
Publication Bias: Ungeschick oder Absicht?
Experimenter Bias: Sieben Abschnitte der Fehlbarkeit
Schlechte Statistik – Das Ende einer Ära

Aus dem Englischen von Michael Moor. Originalartikel auf lesswrong.com

Referenzen:

1. The Fallacy of the Null-Hypothesis Significance Test
2. Odds Are, It’s Wrong, What to believe: Bayesian methods for data analysis, Bayesian Versus Frequentist Inference
3. The BUGS Project
4. Daryl J. Bem: Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect
5. Why Psychologists Must Change the Way They Analyze Their Data: The Case of Psi

Experimenter Bias: Sieben Abschnitte der Fehlbarkeit

Michael Moor — Thu, 07 Mar 2013 15:06:09 +0000

WissenschaftlerInnen sind kluge Menschen. Doch auch kluge Menschen sind nicht vor kognitiven Denkfehlern gefeit. Sie sprechen auf Anreize an, die einer rationalen Wissensgenerierung entgegenwirken. Folglich sollte davon ausgegangen werden, dass ein Experiment auch von den Durchführenden selbst verfälscht werden kann.

Der Experimenter Bias kann sich in verschiedenen Abschnitten der Forschungsarbeit negativ auswirken:

1. Einlesen in das Themengebiet
Der Publication Bias kann dazu führen, dass vermehrt positive Zusammenhänge veröffentlicht werden. Eine derart verzerrte Fachliteratur verfälscht die Prämissen der wissenschaftlichen Leserschaft.

2. Auswählen und Konkretisieren des Studiendesigns
Die Wahl von Format und Konzept kann den wissenschaftlichen Prozess beeinträchtigen. So werden beispielsweise Probandengruppen oftmals schlecht gewählt (Selection Bias). Einen interessanten Spezialfall dieses systematischen Fehlers stellt das Berkson’s Paradox dar.

3. Durchführen des Experiments
Im medizinischen Bereich kann die Persönlichkeit der durchführenden Fachpersonen Einfluss auf das Studienresultat haben. Auch können Verzerrungen auftreten, wenn sich StudienteilnehmerInnen der Studie entziehen und die austretenden Personen sich von den restlichen TeilnehmernInnen signifikant unterscheiden.

4. Messen des Outcomes
Das Erwarten oder Befürchten bestimmter Resultate kann die Messung der Parameter beeinflussen. Ein Problem stellt dabei die oft intuitiv angewendete positive Teststrategie dar. Dabei handelt es sich um die Suche nach Daten, welche die eigene Hypothese bestätigen. Weshalb es jedoch sinnvoll wäre, vordefinierte Hypothesen zu falsifizieren zu versuchen, zeigt die berühmte 2-4-6-Aufgabe von Peter Wason.

5. Analysieren der Daten
Beim Data Dredging oder Data Fishing werden Daten nach allen möglichen Korrelationen durchkämmt, um dann einen zufällig aufgetretenen Zusammenhang zu präsentieren, ohne diese neue Hypothese isoliert zu testen. Das Untersuchen von Daten ohne eine vorgängig formulierte Hypothese – eine sogenannte Prior Hypothesis – sollte bloss der Bildung neuer Hypothesen dienen.

6. Beim Interpretieren der Analyse
In diesem Schritt liegt der Cognitive Dissonance Bias vor, wenn der Glaube an einen Mechanismus durch widerlegende Evidenz gestärkt wird.

7. Veröffentlichen der Resultate
Auch hier wurde ein spezifischer Bias definiert: Publication Bias: Ungeschick oder Absicht?¹

Es gibt Hinweise darauf, dass Rationalität lernbar ist². Das bewusste Trainieren der Identifikation und Korrektur von Biases könnte WissenschaftlerInnen helfen, ihre Fehlerquote in den verschiedenen Abschnitten des Forschungsprozesses zu senken.

Serie: Wie man die Wissenschaft repariert

Wie man die Wissenschaft repariert – Eine Standortbestimmung
Publication Bias: Ungeschick oder Absicht?
Experimenter Bias: Sieben Abschnitte der Fehlbarkeit
Schlechte Statistik – Das Ende einer Ära

Aus dem Englischen von Michael Moor. Originalartikel auf lesswrong.com

Referenzen:

1. Sackett 1979
2. Is Rationality Teachable?

Publication Bias: Ungeschick oder Absicht?

Michael Moor — Sun, 03 Mar 2013 15:05:50 +0000

Der Publication Bias liegt vor, wenn unliebsame oder uninteressante Studienergebnisse nicht veröffentlicht oder gar unter den Tisch gekehrt werden. Sowohl die Reviewer als auch die Leserschaft erliegen der Gefahr, falsche Schlüsse zu ziehen, weil nicht die Gesamtheit aller durchgeführten Studien öffentlich zugänglich ist. In manchen Fällen kann dies dramatische Folgen haben, wenn z.B. eine ineffektive oder gefährliche Behandlungsmethode fälschlicherweise gutgeheissen wird¹.

Als Daryl Bems Studie zum Nachweis von Präkognition publiziert wurde, erstellte der Psychologe Richard Wisemen eine Datenbank. Diese diente dazu, Versuche zur Replikation der Studie im Voraus anzukündigen. Eine Datenbank für Replikationen schützt vor dem Publication Bias. Bisweilen sind mindestens fünf Versuchswiederholungen registriert, welche Bems Resultate allesamt nicht replizieren können. Dennoch lehnten es JPSP und andere Highend-Psychologie-Journals ab², die Replikationen zu veröffentlichen, da blosse Replikationen uninteressant seien. Sie priorisieren neue Resultate, neue Studien.

Aus Sicht der Journals ergibt dieser Grundsatz durchaus Sinn: Kühne Behauptungen werden tendenziell öfter zitiert und erhöhen den Impact Factor des Journals (der von der Anzahl Zitierungen pro Artikel abhängt). Dies führt dazu, dass trotz hoher statistischer Signifikanz viele neue Befunde falsch sind. Folglich schaffen die grossen Journals den WissenschaftlerInnen Anreize, ihre Daten so zu zurechtzubiegen, dass sie falsche, aber bahnbrechende Resultate veröffentlichen können. Vernünftiger wäre es, wenn die Anreize in die umgekehrte Richtung gesetzt würden, so dass WissenschaftlerInnen falsche Behauptungen anfechten müssten. Der Publication Bias kann aber auch auf der Ebene der Studienautoren auftrete. Bei der Tendenz, dass Autoren aufgrund negativer oder uneindeutiger Ergebnisse ihre Studie gar nicht erst zu veröffentlichen versuchen, spricht man vom „File Drawer Problem„.

Der Publication Bias kann auch mit Absicht erfolgen. Der Fall des entzündungshemmenden Schmerzmedikaments Rofecoxib (Vioxx) ist einer der schwerwiegendsten Fälle: Das Arzneimittel wurde 80 Millionen PatientInnen verschrieben. Später wurde bekannt, dass der Produzent Merck der Öffentlichkeit Studien zu Risiken des Wirkstoffes vorenthalten hatte. Merck war in der Folge gezwungen, das Medikament zurückzuziehen – es hatte allerdings bereits zwischen 88’000 und 144’000 Fälle schwerwiegender Herz-Kreislauferkrankungen verursacht. Ein aktuelles Beispiel in diesem Zusammenhang liefert auch das Grippemedikament Tamiflu.

Im Rahmen einer Metaanalyse lässt sich mit dem statistischen Tool „Funnel Plot“ der Verdacht auf einen Publication Bias überprüfen. Dabei untersucht man die Streuung von Studienergebnissen. Es wird angenommen, dass sich grössere und damit genauere Studien näher um den Mittelwert scharen als kleinere. Eine Abweichung von diesem Muster kann auf unveröffentliche Resultate und somit auf den Bias hinweisen.

Ein für Journals effektiver Weg, den Publication Bias zu vermeiden, besteht darin, nur Experimente anzunehmen, welche vor Experimentbeginn in einer öffentlichen Datenbank registriert wurden. So wird ersichtlich, welche Experimente durchgeführt, aber nicht veröffentlicht wurden. Ein entscheidendes Kriterium stellt dabei die Bestimmung des primären Endpunktes der Studie dar, da andernfalls bei registrierten Studien ohne Endpunktdefinition die untersuchte Hypothese den Resultaten angepasst werden könnte. Mehrere wichtige medizinische Journals – The Lancet, New England Journal of Medicine, Annals of Internal Medicine, and JAMA machten 2004 eine entsprechende Ankündigung – gehen nach diesem Prinzip vor. Leider wird die Anforderung einer korrekten Registrierung von vielen grossen Journals nach wie vor nicht durchgesetzt.

Serie: Wie man die Wissenschaft repariert

Wie man die Wissenschaft repariert – Eine Standortbestimmung
Publication Bias: Ungeschick oder Absicht?
Experimenter Bias: Sieben Abschnitte der Fehlbarkeit
Schlechte Statistik – Das Ende einer Ära

Aus dem Englischen von Michael Moor. Originalartikel auf lesswrong.com

Referenzen:

1. Shulman Carl (2011): Follow-up on ESP study: „We don’t publish replications“
2. Wilson Andrew (2011): Failing to Replicate Bem’s Ability to Get Published in a Major Journal
3. Rothstein et al. (2005): Publication Bias in Meta-Analysis: Prevention, Assessment and Adjustments

Wie man die Wissenschaft repariert – eine Standortbestimmung

Michael Moor — Thu, 28 Feb 2013 10:05:29 +0000

Im Jahre 2005 wiesen verschiedene Analysen¹ darauf hin, dass der Grossteil von publizierten Studienresultaten der medizinischen Forschung fehlerhaft ist. Ein Bericht² von 2008 zeigt, dass etwa 80 Prozent der akademischen Artikel in Fachzeitschriften statistische Signifikanz mit umgangssprachlicher Signifikanz verwechselten. Vor diesem grundlegenden Fauxpas in der Statistik warnt schon die Einführungsliteratur. 2011 zeigte eine ausführliche Untersuchung³, dass die Hälfte der veröffentlichten Papers der Neurowissenschaften simple statistische Fehler enthält. Im Jahr 2011 publizierte der anerkannte Psychologe Daryl Bem in einem führenden Journal eine Studie⁴, die behauptete, Beweise für Präkognition zu liefern. Präkognition ist die angebliche Fähigkeit, ein Ereignis oder einen Sachverhalt für die Zukunft vorherzusagen, ohne dass dafür zu diesem Zeitpunkt rationales Wissen zur Verfügung stand. Die Redaktion begründete die Veröffentlichung des Artikels damit, dass er klar und deutlich formuliert war und die gewohnten Standards für statistische und experimentelle Methoden befolgt wurden.

Der Wissenschaftsjournalist Jonah Lehrer fragt: „Is there something wrong with the scientific method?„. Beispiele wie das oben genannte weisen darauf hin: Yes, there is.
Das überrascht nicht. Was jetzt gerade als „Wissenschaft“ bezeichnet wird, ist mit höchster Wahrscheinlichkeit nicht die allerbeste Methode, um die Geheimnisse unseres Universums zu lüften. Es kann jedoch mit Sicherheit gesagt werden, dass aus allen möglichen Methoden ein Repertoire zusammengestellt wurde, welches sich nicht als höchst unnütz erwiesen hat.

Ein Blick in die Wissenschaftsgeschichte zeigt, dass die wissenschaftliche Methode einer stetigen Weiterentwicklung unterworfen war: Schon im antiken Griechenland gab es Wissenschaftler (damals eine reine Männerdomäne), jedoch testeten nur wenige ihre Hypothesen mit mathematischen Methoden. Ein Grundstein legte Ibn al-Haythams „Schatz der Optik“ im 11. Jahrhundert. Im selben Jahrhundert betonte Al-Bjruni, wie wichtig es sei, Untersuchungen zur Reduktion von Fehlern oftmalig zu wiederholen. Galileo verschaffte der Mathematik mehr Aufmerksamkeit seitens der Wissenschaft, Bacon beschrieb die eliminative Induktion, Newton vereinigte die Gesetze der Schwerkraft von Galileo mit den Gesetzen der Planetenbewegung nach Kopernikus, Peirce klärte die Rollen von Induktion, Deduktion und Abduktion, und Popper etablierte die Bedeutung von Falsifikation. All diese Erkenntnisse haben die wissenschaftliche Methode massgeblich verändert und bewiesen, dass es sich dabei nicht um ein statisches Vorgehen, sondern eine prozesshafte Arbeitsweise handelt, die äusserst flexibel ist und sein soll.

In jüngster Zeit kamen weitere Methoden hinzu, die zur Qualitätssteigerung wissenschaftlicher Forschung und Arbeit beitragen. Errungenschaften wie Peer Review, Kontrollgruppen, Randomisierung, Verblindung und verschiedene statistische Tools⁵ fliessen in das Konzept der wissenschaftlichen Methode ein und verändern dieses so fortwährend. In vielerlei Hinsicht erweist sich die Wissenschaft heute als besser denn je zuvor, dennoch hat sie weiterhin mit grossen Problemen zu kämpfen: Ein Grossteil der wissenschaftlichen Forschung wird mangelhaft durchgeführt. Die gute Nachricht: Viele Schwierigkeiten und meist auch entsprechende Herangehensweisen sind bekannt.

Die folgende Serie legt eine Auswahl der grundlegenden Probleme und deren Lösungsansätze dar.

Serie: Wie man die Wissenschaft repariert

Wie man die Wissenschaft repariert – eine Standortbestimmung
Publication Bias: Ungeschick oder Absicht?
Experimenter Bias: Sieben Abschnitte der Fehlbarkeit
Schlechte Statistik – Das Ende einer Ära

Aus dem Englischen von Michael Moor. Originalartikel auf lesswrong.com

Referenzen:

1. Ioannidis JPA (2005): Why Most Published Research Findings Are False
2. Stephen T. Ziliak, Deirdre N. McCloskey (2008): The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives
3. Sander Nieuwenhuis, Birte U Forstmann, Eric-Jan Wagenmakers (2011): Erroneous analyses of interactions in neuroscience: a problem of significance
4. Daryl J. Bem (2011): Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect
5. Statistische Tools: Statistischer Test, Varianzanalyse, Stratified sampling

Artikelbild: www.sxc.hu/photo/187220

Evidenzbasierte Medizin – Wie weiss ich, was wirkt?

Michael Moor — Mon, 14 Jan 2013 00:22:47 +0000

„Meinem Onkel hat das immer geholfen und bei mir wirkt es auch.“ oder „Was nicht nützt, schadet auch nicht.“ sind im Alltag oft gehörte Beispiele für anekdotisches Wissen über Medizin und Medikamente. Hierbei handelt es sich aber weniger um valides medizinisches Wissen, als um durch Erfahrungen und Erzählungen akkumulierte Überzeugungen oder gar Mythen. Und solch placebo-ähnliches Wissen entscheidet in manchen Fällen über Leben und Tod.

So wurden beispielsweise mit der traditionellen Methode des Aderlasses seit Jahrtausenden Blutadern eröffnet in der Annahme, man könne so die vier Körpersäfte wieder ins Gleichgewicht bringen. Leopold II., Kaiser des Heiligen Römischen Reiches, George Washington und weitere berühmte Persönlichkeiten sind aufgrund dieser meist kontraproduktiven Behandlung gestorben. Dieser Zusammenhang wurde aber erst viele Jahre später geklärt, da die damalige Medizin über keine bessere Alternative verfügte. Nach heutigem wissenschaftlichem Stand wird von Aderlass als Behandlungsmethode bis auf einzelne Ausnahmen klar abgeraten. Dennoch beteuern viele, dass der Aderlass bei ihnen gewirkt habe.

Wie verschafft man sich also in einem Meer von Behauptungen Klarheit?
Die Antwort darauf lautet: Mit evidenzbasierter Medizin.

In der Schweiz hat sich die Lebenserwartung bei Geburt seit 1900 beinahe verdoppelt. Neben der Verbesserung der Hygiene und der Ernährung hat auch die Einführung der randomisierten kontrollierten Studie (im Englischen RCT für Randomized Controlled Trial) einen grossen Beitrag dazu geleistet. Denn Resultate aus dem Bereich der Kognitionspsychologie haben gezeigt, dass unsere subjektive Wahrnehmung durch etliche Faktoren beeinflusst und verzerrt wird. Wenn wir möglichst sicheren Wissensgewinn generieren möchten, welcher ohne absoluten Wahrheitsanspruch die bestmöglichen Aussagen hervorbringen kann, müssen wir uns auf faire Vergleiche stützen und nicht nur auf unser verzerrtes subjektives Empfinden.

Ein anschauliches Beispiel einer strukturierten Untersuchung bietet Sir Ron Fisher, britischer Pionier klinischer Studien im 20. Jahrhundert. In Cambridge sprach er mit einer Frau darüber wie man den besten Tee zubereite. Sie war der Überzeugung, dass der Tee besser schmecke, wenn man die Milch vor dem Tee in die Tasse giesse. Sir Ron Fisher und beisitzende Wissenschaftler beharrten dem entgegen darauf, dass die Reihenfolge bei der Teezubereitung keinen Einfluss auf den Geschmack habe. Zur Prüfung schlug Fisher einen blinden Direktvergleich vor. Die Frau sah bei der Teezubereitung nicht zu und beide Tassen waren identisch. Dennoch konnte sie die beiden vermeintlich gleichen Tees deutlich voneinander unterscheiden. Die unterschiedliche Geschmacksempfindung lässt sich wissenschaftlich begründen: Die Milchproteine werden beim Zugiessen in das heisse Wasser zersetzt, was beim umgekehrten Verfahren nicht der Fall ist. Es ist sehr wahrscheinlich, dass es sich bei der Aussage der Frau um anekdotisches Wissen gehandelt hat. Um nun aber über die Gültigkeit der Aussage urteilen zu können, reichen akkumulierte Erfahrungen nicht. Die Behauptung muss vielmehr in einem standardisierten Versuch überprüft werden.

Medizin, welche mit RCTs arbeitet, nennt sich Evidence-based Medicine, kurz EBM. Evidence-based bedeutet, dass diese Medizin mit strukturierten Methoden strikte geprüftes Wissen generiert. Dies beinhaltet auch die Reproduktion von Ergebnissen durch unterschiedliche Quellen zur Aufdeckung allfälliger Fehler. EBM stellt sicher, dass jede untersuchte Substanz oder Behandlung so gut wie möglich evaluiert wird. So bringt sie Anwendungen hervor mit statistisch verlässlichem Nutzen. Dies beinhaltet auch diejenigen Naturprodukte, welche eben diese EBM-Kriterien erfüllen.

„You know what they call alternative medicine that’s been proved to work? – Medicine.“

– Tim Minchin, australischer Sänger

Die Gefahr solcher Zitate besteht darin, dass die Problematik zu wenig ernst genommen wird. Humor trägt in diesem Fall jedoch nichts zur Lösung des Problems bei, im Gegenteil: Er raubt den ernsthaften Konsequenzen den Fokus. Kritik sollte die Betroffenen weiterbringen, ihnen Entscheidungshilfen anbieten und sie selbst oder ihre Behandlungswahl keinesfalls ins Lächerliche ziehen. Vielmehr sollten umstrittene Gedanken von ihrem gewohnten Kontext isoliert werden. Würden Sie sich beispielsweise mit einer homöopathischen Zahnpaste die Zähne putzen? Genauer gefragt: Erachten Sie es als sinnvoll bei Karies hochpotenzierten Zucker in Form einer Zahnpaste zu verabreichen, um dem Grundsatz simila similibus curentur (Ähnliches werde durch Ähnliches geheilt) gerecht zu werden? Würde in diesem Falle – wenn es nichts nützt – wirklich kein Schaden entstehen?

Auch der modernen Medizin hilft konstruktive Kritik und eine hinterfragende Haltung, denn auch sie funktioniert längst noch nicht optimal und hat Verbesserungspotential. Es mangelt bei vielen Studien beispielsweise an der Reproduzierbarkeit. Sowohl grosse Pharmakonzerne als auch Alternativmediziner manipulieren Studienresultate. Wie gehen wir also mit dieser Problematik um? Auch wenn es sich um eine schwierige Sachlage handelt, gibt es Lösungsansätze. Es benötigt staatlich unterstützte Institutionen, welche Verzerrungen und Fälschungen von Studien systematisch aufdecken und beheben. Und es braucht Organisationen, welche sich auf internationaler Ebene für evidenzbasierte Medizin einsetzen. Die Cochrane Collaboration tut dies seit ihrer Gründung im Jahre 1993. Ihr Ziel ist es, eine systematische Übersicht medizinischer Therapie-Evaluationen zu liefern, diese aktuell zu halten, auszuweiten und für ein grösstmögliches Publikum erreichbar zu machen.

Doch ein jeder von uns kann selbst etwas tun, um in Zukunft besser fundierte Entscheidungen zu treffen. Anekdotisches Wissen befruchtet Verzerrungen und Fälschungen unseres Verstandes und gehört deshalb in den nicht-medizinischen Alltag. Weiter gibt es systematische Verzerrungen (englisch Biases), welche Studienergebnisse beeinträchtigen können. Die wichtigsten Biases im Zusammenhang mit Studien sind:

Es geht bei evidenzbasierter Medizin nicht um den Ausschluss fremder Ansichten, sondern um die Zuverlässigkeit von medizinischen Aussagen. Ziel ist es, dass jeder Mensch Zugang hat zu fundierter Information und aufgrund derer aus den vielfältigen Wahlmöglichkeiten seinen optimalen Behandlungsplan (mit-)gestalten kann.

Randomisierte kontrollierte Studie – Welche Pille ist die beste?

Michael Moor — Thu, 10 Jan 2013 11:39:41 +0000

Die randomisierte kontrollierte Studie (englisch RCT für randomized controlled trial) ist das erwiesenermassen beste Studiendesign medizinischer Forschung und bildet die Basis evidenzbasierter Medizin. Ein RCT liefert auf eindeutige Fragestellungen Ergebnisse mit optimaler Aussagekraft. Oftmals handelt es sich dabei um Fragen der Kausalität, sprich „Führt Parameter P zu Zustand Z?“ oder „Senkt Medikament M die Ausprägung des Symptoms S?“.

Zur Qualitätssicherung einer Untersuchung sollte ein RCT möglichst folgende vordefinierte Kriterien erfüllen:

1. Randomisierung: Zufällige Zuordung der Probanden in die untersuchten Gruppen. Damit wird sichergestellt, dass keiner der Akteure (Probanden, behandelnde Mediziner und Auswerter) die Zusammenstellung der Gruppen und somit die Studienergebnisse beinflussen kann. Der grösste Nutzen dabei ist, dass bekannte und unbekannte Eigenschaften der Probanden, welche Einfluss auf die untersuchte Anwendung haben, zufällig und nicht entsprechend dem gewünschten Resultat verteilt werden.

2. Kontrolle: Vergleich der Ergebnisse einer Experimentalgruppe mit den Ergebnissen einer Kontrollgruppe. In Medikamentenstudien erhält die Experimentalgruppe das zu untersuchende Präparat (Verum), die Kontrollgruppe ein Scheinarzneimittel (Placebo). Parallel dazu erhalten beide Gruppen eine vergleichbare Behandlung (Standardtherapie), um möglichst alle Kontextparameter identisch zu gestalten. Bei der Untersuchung therapeutischer Interventionen führt die Experimentalgruppe die zu untersuchende Intervention durch, die Kontrollgruppe keine.

3. Verblindung: Die Information darüber, welcher Proband welcher Gruppe zugeordnet wurde, steht unter Verschluss. Qualitativ werden drei Stufen von Verblindung unterschieden:

einfachblind: Die Probanden wissen nicht, ob sie in der Experimentalgruppe oder der Kontrollgruppe sind.
doppelblind: Weder die Probanden noch die behandelnden Mediziner wissen wer in welcher Gruppe ist.
dreifachblind: Keiner der beteiligten Akteure (Proband, behandelnder Mediziner und Auswerter) weiss, wer in welcher Gruppe ist.

Eine dreifachblinde Studie stellt das Optimum dar, ist aber nicht in allen Fällen möglich. Bei der Untersuchung einer physiotherapeutischen Behandlung beispielsweise ist auch die einfache Verblindung nicht möglich, da die Probanden an der Behandlung aktiv teilnehmen.

4. Registration: Eine Studie, welche eine Korrelation untersucht, muss zuvor in mindestens einem der zwölf Journals des ICMJE (International Committee of Medical Journal Editors) angemeldet werden. Damit soll verhindert werden, dass eine Forschungsgruppe eine Untersuchung mehrmals durchführt und nur jene mit erwünschtem Resultat veröffentlicht . Die obligatorische Registration wurde von ICMJE bereits 2005 eingeführt. Viele Forschungsgruppen setzen diese Forderung jedoch noch nicht konsequent um.

5. Anzahl Probanden: Eine grosse Anzahl Versuchspersonen (grosses Sample) erlaubt, Informationen mit statistischer Relevanz zu erhalten. Beim Vergleich zweier qualitativ und inhaltlich vergleichbarer Studien ist in jedem Fall jene mit dem grösseren Sample stärker zu gewichten, da in dieser personenabhängige Faktoren die Resultate statistisch gesehen weniger stark beeinflussen.

Diese fünf Grundpfeiler eines RCTs stellen das Optimum evidenzbasierter Medizin dar. Es gilt in jedem Fall spezifisch zu entscheiden, welche Kriterien anwendbar sind und wie sie gewichtet werden.