Menu

GBS Schweiz

  • de
  • en

Schlechte Statistik – Das Ende einer Ära

on 11. März 2013

Null Hypothesis Significance Testing (NHST) stellt eine Standardmethode in der Auswertung von Experimenten dar. Diese Methode verwendet sogenannte p-Werte. Diese geben die Wahrscheinlichkeit an, bestimmte Daten zu erhalten, gegeben dass die Null-Hypothese (Annahme, dass der untersuchte Effekt nicht vorhanden ist) zutrifft. Hierbei stellt sich folgende Frage: Soll nicht die Wahrscheinlichkeit für das Zutreffen einer Hypothese bei gegebenem Datensatz ermittelt werden, anstatt die Wahrscheinlichkeit für das Erhalten der vorliegenden Daten unter Annahme dieser Hypothese?

Dazu die Meinung des Biostatistikers Steven Goodman:

The p-value is almost nothing sensible you can think of. I tell students to give up trying.

Traurigerweise sind die Mängel des NHST altbekannt und wurden schon diskutiert, als Ronald Fisher die Methode in den Zwanziger-Jahren zu verfechten begonnen hat. Im Jahr 1960 meinte der Philosoph William Rozeboom dazu1:

Despite the awesome pre-eminence NHST has attained… it is based upon a fundamental misunderstanding of the nature of rational inference, and is seldom if ever appropriate to the aims of scientific research.

NHST und allgemein die frequentistische Statistik bringen noch viele weitere Probleme mit sich2. Das Wichtigste: NHST folgt nicht aus den Axiomen der Wahrscheinlichkeitstheorie. Es handelt sich nicht um eine verlässliche statistische Methode, sondern vielmehr um eine Wundertüte von Techniken, welche abhängig von der Anwendung (auf die immer gleichen Daten) zu unterschiedlichen Resultaten führen kann. Ein Umstand, der jeden mathematischen Geist entsetzen sollte. Die inferentielle Methode, also die Methode zum Schlussfolgern, welche die Probleme des Frequentismus löst und deduktiv den Axiomen der Wahrscheinlichkeitstheorie folgt, nennt sich Bayessche Statistik.

Man fragt sich nun vielleicht, wieso nicht alle WissenschaftlerInnen bayesianisch anstatt frequentistisch schlussfolgern. Zum einen Teil gründet dies in Tradition des frühen letzten Jahrtausends. Aber der Erfolg des NHST kann auch dem naheliegenden Fakt zugeschrieben werden, dass bayesianischen Berechnungen oft schwieriger durchzuführen sind als frequentistische. Glücklicherweise können neue Software-Tools wie WinBUGS3 die statistische Hürde nehmen und so den Grossteil des kognitiven Gewichtestemmens übernehmen. Ein weiterer Punkt könnte der träge Systemwechsel darstellen. Ist einmal eine Methode verankert, ist es schwierig, diese zu verdrängen, selbst mit den besten Gründen. Es ist also durchaus möglich, an der Universität Statistikkurse und -bücher zu konsultieren, ohne die Bayesian Inference kennen zu lernen.

Betrachten wir noch einmal den Fall von Bems Studie4 zu Präkognition. Es überrascht nicht, dass er ebenfalls NHST verwendete. Eine spätere bayesianische Analyse5 widerrief die ursprünglich erstaunliche Konklusion Bems.

Der Weg zu besserer Statistik