Laborjournal 2019-10

| 10/2019 24 Serie „Die Wissenschaft wehrt sich gegen die p-Wert-Tyrannei!“ So zumindest verkündete es vor kurzemdie Financial Times . Denn über- all ist die Aufregung groß. Mehr als achthun- dert Forscher, darunter viele prominente Bio­ statistiker, haben dazu aufgerufen, sich gegen den p-Wert zu erheben. Und dies ist nur der Höhepunkt eines Aufstands, der schon imver- gangenen Jahr begonnen hatte. Eine Grup- pe vonWissenschaftlern forderte damals, dass wir die Schwelle für„statistische Signifikanz“ ganz neu definieren sollten. Von derzeit meist 0,05 auf 0,005 – insbesondere wenn Wissen- schaftler damit behaupten wollen, etwas ent- deckt zu haben. Für viele Forscher und Exper- ten ging diese Forderung allerdings nicht weit genug, sie fordern daher, statistische Signifi- kanz gleich ganz zubeseitigen, statt nur neu zu definieren.Wieso die Aufregung?Worumgeht es überhaupt? Und ist das alles wirklich neu? Wir erinnern uns: Im Jahr 2012 gewannen Craig Bennett und Kollegen mit einer bemer- kenswerten Studie den Ig-Nobelpreis für Neu- rowissenschaften. Sie positionierten einen to- ten Lachs aus einem lokalen Supermarkt in ei- nem Kernspintomographen. Dort zeigten sie dem Fisch Bilder vonMenschen in sozialen Si- tuationenmit einer bestimmten emotionalen Aufladung, etwa einen Streit oder einen Kuss. Der tote Lachs musste dann entscheiden, wel- che Gefühle die Abgebildeten wohl durchlebt habenmussten. Tatsächlich zeigte die Bildge- bung mittels funktioneller Magnetresonanz­ tomographie dabei signifikante Veränderun- gen in der Oxygenierung des toten Lachshirns – was auf eine Aufgaben-spezifische neurona- le Verarbeitung im Fischgehirn hinwies. Wie aber können„ Post-mortem -neuronale Korrelate von Interspezies-Einfühlsamkeit im Lachs“ erklärt werden, wie es der Titel des Ar- tikels neurowissenschaftlich formuliert? Ganz einfach: Damit, dass sich die Auswertung auf statistische Standard-Signifikanzschwellen stützte und Mehrfachvergleiche nicht ange- messen kontrollierte. Der Clou dabei war je- doch: Die Autoren zeigten in der Arbeit zu- dem, dass in 60 bis 70 Prozent der veröffent- lichten funktionellen Neuroimaging -Studien ähnlich ausgewertet wurde – und stellten da- mit die Ergebnisse eines Großteils der kogni- tiven Neurowissenschaften in Frage. Finden sich solche„toten Fische“ vielleicht auch imBecken anderer Disziplinen, die eben- falls stark auf multiple Testungen zurückgrei- fen? Etwa in Genexpressions- und -assoziati- onsstudien? In der Tat, auch die Genetik er- kannte vor einigen Jahren – ganz ohne Ig-No- belpreis –, dass sie ein Riesenproblem hatte: Ein Großteil der bis dato beschriebenen diffe- renziell exprimierten Gene und Genassoziatio- nen entpuppte sich als falsch-positive Befunde. ZumGlück haben die Genetiker und funk- tionellen Hirnbildgeber mittlerweile ihre Lek- tion gelernt. Genetische oder Bildgebungs- Datensätze sind heute kaumnoch ohne Post- hoc-Korrektur für multiple Vergleiche zu ver- öffentlichen. Außerdem werden, zumindest in der Genetik, Validierungen mit unabhän- gigen Datensätzen gefordert, bevor Assozia- tionen akzeptiert werden. Das ist dochmal eine gute Nachricht, dass ganze Forschungsfelder vor ihrer Haustür ge- kehrt haben! Die schlechte ist jedoch, dass an- dernorts unzureichende Korrektur für Mehr- fachtests, laxe Schwellenwerte für Typ-I-Feh- ler, geringe statistische Power sowie fehlen- de Validierung immer noch die Norm sind. Mindestens so problematisch sind jedoch weithin verbreitete falscheVorstellungen über das, was der p-Wert ist, undwas das Label„Sta- tistisch signifikant“ bedeutet. So glauben viele Forscher, dass p dieWahrscheinlichkeit angibt, dass die Null-Hypothese wahr ist. Und folglich 1-p dieWahrscheinlichkeit, dass die alternative Hypothese (also ihre eigene Hypothese) rich- tig ist. Oder umgangssprachlich ausgedrückt: „Bei einem alpha von 5 Prozent laufe ich Ge- fahr, dass 5 Prozent meiner Hypothese trotz Signifikanz doch nicht richtig sind“. Also eine Verwechslung mit der falsch-positiven Rate. Ein weiteres häufiges Missverständnis ist, dass der p-Wert mit der theoretischen oder praktischen Relevanz des Befunds korrelie- ren würde. So wie der schwerwiegende Irr- tum, dass die Nicht-Ablehnung der Null-Hy- pothese (p > 0,05) belegt, dass diese richtig wäre, also kein Effekt vorliegt. Und soweiter… Aber was ist denn dann der p-Wert, und was kann er uns über unsere Ergebnisse sa- gen?Wenn wir die Analyse viele Male wieder- holen würden und jedes Mal neue Daten ge- nerieren, und wenn die Null-Hypothese wirk- lich wahr ist, würden wir sie bei p = 0,05 in nur 5 Prozent der Fälle (fälschlicherweise) ableh- nen. Mit anderenWorten: Der p-Wert stellt die Wahrscheinlichkeit dar, Daten so extrem wie (oder noch extremer als) diejenigen Ergeb- nisse zu erhalten, die gelten, wenn die Null- Hypothese wahr ist. Aber klingen diese Definitionen nicht ver- einbar mit der Interpretation des p-Werts als falsch-positive Rate? Schauen wir deshalb ge- nauer hin: In den obigen Lehrbuch-Definitio- nen wird die Wahrscheinlichkeit auf die Da- ten bezogen. Ein Irrtum ist es, sie auf die Er- klärung, das heißt auf die Hypothese anzu- wenden. Außerdem wissen wir ja nicht, ob die Null wahr ist oder nicht. Und dann gibt es da noch das Problem der Wahrscheinlichkeit unserer Hypothese, die sogenannte Base Ra- te . Ebenso die statistische Power – das heißt dieWahrscheinlichkeit, einen Effekt zu erken- nen, wenn es denn einen gibt. Dass Base Rate und Power für die Interpretation des p-Werts entscheidend sind, ist vielen Kollegen nicht bekannt. Und genau da liegt der sprichwört- liche Hase im Pfeffer! Die Frage, die wir doch eigentlich gerne beantwortenmöchten, ist die folgende:Wenn wir einen „signifikanten“ p-Wert nach einem gut durchgeführten Experiment erhalten ha- Brüder, zur Sonne, dem p-Wert ein Ende, Brüder, zum Lichte empor! Einsichten eines Wissenschaftsnarren (23) Viele wollen die statistische Signifi- kanz via p-Wert neu definieren oder sogar ganz aus der Wissenschaft verbannen. Dabei leistet er meist gar nicht das, was sie ihm zuschreiben. »Schwimmen „tote Fische“ auch im Becken anderer Disziplinen?«

RkJQdWJsaXNoZXIy Nzk1Nzg=