Schlechte Statistik – Das Ende einer Ära

Michael Moor on März 11. 2013

Null Hypothesis Significance Testing (NHST) stellt eine Standardmethode in der Auswertung von Experimenten dar. Diese Methode verwendet sogenannte p-Werte. Diese geben die Wahrscheinlichkeit an, bestimmte Daten zu erhalten, gegeben dass die Null-Hypothese (Annahme, dass der untersuchte Effekt nicht vorhanden ist) zutrifft. Hierbei stellt sich folgende Frage: Soll nicht die Wahrscheinlichkeit für das Zutreffen einer Hypothese bei gegebenem Datensatz ermittelt werden, anstatt die Wahrscheinlichkeit für das Erhalten der vorliegenden Daten unter Annahme dieser Hypothese?

Dazu die Meinung des Biostatistikers Steven Goodman:

The p-value is almost nothing sensible you can think of. I tell students to give up trying.

Traurigerweise sind die Mängel des NHST altbekannt und wurden schon diskutiert, als Ronald Fisher die Methode in den Zwanziger-Jahren zu verfechten begonnen hat. Im Jahr 1960 meinte der Philosoph William Rozeboom dazu¹:

Despite the awesome pre-eminence NHST has attained… it is based upon a fundamental misunderstanding of the nature of rational inference, and is seldom if ever appropriate to the aims of scientific research.

NHST und allgemein die frequentistische Statistik bringen noch viele weitere Probleme mit sich². Das Wichtigste: NHST folgt nicht aus den Axiomen der Wahrscheinlichkeitstheorie. Es handelt sich nicht um eine verlässliche statistische Methode, sondern vielmehr um eine Wundertüte von Techniken, welche abhängig von der Anwendung (auf die immer gleichen Daten) zu unterschiedlichen Resultaten führen kann. Ein Umstand, der jeden mathematischen Geist entsetzen sollte. Die inferentielle Methode, also die Methode zum Schlussfolgern, welche die Probleme des Frequentismus löst und deduktiv den Axiomen der Wahrscheinlichkeitstheorie folgt, nennt sich Bayessche Statistik.

Man fragt sich nun vielleicht, wieso nicht alle WissenschaftlerInnen bayesianisch anstatt frequentistisch schlussfolgern. Zum einen Teil gründet dies in Tradition des frühen letzten Jahrtausends. Aber der Erfolg des NHST kann auch dem naheliegenden Fakt zugeschrieben werden, dass bayesianischen Berechnungen oft schwieriger durchzuführen sind als frequentistische. Glücklicherweise können neue Software-Tools wie WinBUGS³ die statistische Hürde nehmen und so den Grossteil des kognitiven Gewichtestemmens übernehmen. Ein weiterer Punkt könnte der träge Systemwechsel darstellen. Ist einmal eine Methode verankert, ist es schwierig, diese zu verdrängen, selbst mit den besten Gründen. Es ist also durchaus möglich, an der Universität Statistikkurse und -bücher zu konsultieren, ohne die Bayesian Inference kennen zu lernen.

Betrachten wir noch einmal den Fall von Bems Studie⁴ zu Präkognition. Es überrascht nicht, dass er ebenfalls NHST verwendete. Eine spätere bayesianische Analyse⁵ widerrief die ursprünglich erstaunliche Konklusion Bems.

Der Weg zu besserer Statistik

Studierende sollten Wahrscheinlichkeitstheorie lernen und nicht NHST. WissenschaftlerInnen sollten in bayesianischen Methoden trainiert werden. Bayesianische Software-Tools sollten benutzerfreundlicher und weiter verbreitet werden.
Falls es zutrifft, dass die wissenschaftliche Praxis diese tief hängenden Früchte zur einfachen Verbesserung trägt, dann deutet das darauf hin, dass die Forschungsinstitute, welche diese Reparaturen vornehmen, bei gleichen Ressourcen andere in den Schatten stellen können. Dies bezieht sich auf richtige Entdeckungen und nicht bloss auf veröffentlichte.
Forschungsgruppen sollten zukünftig in der Lage sein, bayesianisch geschulte WissenschaftlerInnen anzustellen, welche auch dem Publication Bias und Experimenter Bias ausweichen können. Forschende, welche wertvolle Fakten aus einem Meer von Publikationen extrahieren können – damit Skandale wie Bems Präkognitionsstudie in Zukunft den Platz für richtige Entdeckungen räumen müssen.

Serie: Wie man die Wissenschaft repariert

Wie man die Wissenschaft repariert – Eine Standortbestimmung
Publication Bias: Ungeschick oder Absicht?
Experimenter Bias: Sieben Abschnitte der Fehlbarkeit
Schlechte Statistik – Das Ende einer Ära

Aus dem Englischen von Michael Moor. Originalartikel auf lesswrong.com

Referenzen:

1. The Fallacy of the Null-Hypothesis Significance Test
2. Odds Are, It’s Wrong, What to believe: Bayesian methods for data analysis, Bayesian Versus Frequentist Inference
3. The BUGS Project
4. Daryl J. Bem: Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect
5. Why Psychologists Must Change the Way They Analyze Their Data: The Case of Psi