Laborjournal 2017-12

| 12/2017 20 Serie Viele erheben den p-Wert zum Non­ plusultra, um zwischen falschen und richtigen Hypothesen zu unterschei- den. Oftmals hilft er hierbei aber nur wenig – oder gar nicht. In der letzten Ausgabe nahm sich der Narr dieWissenschaftskultur in der Physik vor, und fand gar einiges, was wir Lebenswissenschaft- ler von dort abschauen könnten. Überhaupt ist die Physik – insbesondere die Teilchenphysik – eine Fundgrube von Lehrstücken. Zwei be- sonders aktuelle will ich heute mit Ihnen dis- kutieren. Manch einer wird sich erinnern: Im Jahr 2011 erschütterte das Resultat eines großen, internationalen Experiments nicht nur die Phy- sik, sondern die ganze Welt. Am 22. Septem- ber titelte die New York Times auf Seite 1 „Ein- stein, roll over? Tiny neutrinos may have broken cosmic speed limit” ! Was war geschehen? Ein sehr komplexer Versuchsaufbau war aufgebo- ten worden, umdie Geschwindigkeit von Neu- trinos zumessen. Sie wurden vomTeilchenbe- schleuniger des CERN in Genf produziert und auf eine 730 Kilometer lange Reise geschickt. Dann registrierte deren Ankunft ein Detektor, der durchTausende vonMetern Stein in die Do- lomiten gesprengt wurde. Und siehe da: Die Neutrinos kamen schneller an, als Photonen dies über dieselbe Strecke geschafft hätten! Auch dem Nichtphysiker wird sofort klar, was mit dem Ergebnis dieses sogenannten OPERA-Experiments alles auf dem Spiel steht (Spezielle Relativitätstheorie) – oder dann viel- leicht möglich würde (beispielsweise Zeitrei- sen). Das hatten natürlich auch die Physiker gleich begriffen, weshalb sie ausgesprochen vorsichtig waren: Zum einen erhöhten sie das in der Teilchenphysik für die Entdeckung neu- er Elementarteilchen geforderte Signifikanzni- veau von sagenhaften 5 Sigma (entspricht p < 3x10 -7 !) auf 6 Sigma. Außerdemwiederhol- ten sie das Experiment mehrmals. Trotzdem, kein Zweifel, die Neutrinos machten sich nichts aus der Lichtgeschwindigkeit, und das Signi- fikanzniveau lag bei unerreichten 6,2 Sigma. Also wurde flugs dieWeltpresse informiert, und ein Paper geschrieben. Allerdings hatten die Autoren trotz rekordverdächtigem p-Wert weiterhin Zweifel ameigenen Befund, weshalb der Artikel endet: „The potentially great impact of the result motivates the continuation of our studies in order to investigate possible still un- known systematic effects that could explain the observed anomaly. ” Wir allewissen, dass wir beimZeitreisen bis- her nicht über das Kino-Stadiumhinausgekom- men sind. Genauso wie wir wissen, dass Pho- tonen immer noch den absoluten Geschwin- digkeitsrekord halten. In den Wochen nach dem Medienrummel nahmen sich die Physi- ker ihren Versuchsaufbau also nochmals ge- nau vor. Und fanden, dass das zur Entfernungs- messung genutzte GPS nicht korrekt synchro- nisiert war. Außerdem, man glaubt es kaum: Ein Kabel war locker! Und die Moral von der Geschicht’: Glaube Deinem p-Wert nicht! Die Physiker hatten zwar gut daran getan, für eine sehr unwahrscheinliche Hypothese ein radikal niedriges Signifikanzniveau anzu- setzen. Aber, und das scheint trivial, wenn der Versuchsaufbau einen systematischen Fehler beinhaltet, nutzt weder ein extrem niedriger p-Wert etwas noch eine Replikation am sel- ben Versuchsaufbau. Wir Lebenswissenschafter können daraus natürlich das Gleiche lernen. Ein p-Wert kann einembei der Beantwortung der Frage, ob un- sere Hypothese richtig ist – etwa, dass ein Me- dikamentenkandidat wirkt, oder ähnliches –, recht wenig und oftmals sogar gar nichts nüt- zen. Und: Eine Replikation eines Experiments im selben Labor ist sowieso von sehr beding- temWert (siehe auch, was der Wissenschafts- narr hierzu in Laborjournal 4/2017 auf den Sei- ten 24 bis 25 schrieb). Diese ganze Sache ist unter anderem des- halb so aktuell, weil gerade ein All-Star -Teamaus Statistik, Epidemiologie und Psychologie in Na- tureHumanBehavior (doi: 10.1038/s41562-017- 0189-z) einen aufsehenerregenden Vorschlag gemacht hat: Nämlich das von Ronald A. Fisher in den 1920er Jahren eingeführte Signifikanz- niveau um eine Größenordnung abzusenken. Von dem von uns fast wie eine Naturkonstan- te behandeltenWert p < 0,05 auf p < 0,005! Die Autoren haben natürlich recht, dass damit die Rate der falsch positiven Resultate, unter der wir alle zu leiden haben, deutlich reduziert wer- den könnte. Und damit auch die Anzahl publi- zierter Studien, denn an der 0,005-Hürde wür- den viele Veröffentlichungen scheitern. Ich halte den Vorschlag, auch mit Blick auf die OPERA-Schlappe, dennoch für einen Feh- ler. Den Experten, die diese Absenkung vor- schlagen, ist klar, was ein p-Wert ist – und was nicht. So wissen sie, dass nicht nur alpha , also der Fehler 1. Art, für die Frage wichtig ist, ob ein Ergebnis falsch positiv ist. Dies hängt nämlich auch von beta , also dem Fehler 2. Art, bezie- hungsweise der Power ab – genauso wie von derWahrscheinlichkeit, mit welcher die Hypo- these richtig ist. Die Autoren verwechseln al- so den p-Wert nicht mit dem positiv prädikti- venWert, wie so viele von uns. Indem sie aber die Aufmerksamkeit in dieser Weise auf den p-Wert – ja, konkret auf einen bestimmten p- Wert – lenken, adeln sie ihn. Sie erwecken da- mit den Anschein, dass der p-Wert eben doch geeignet ist, zwischen richtigen und falschen Hypothesen zu unterscheiden, er muss eben nur den richtigen Wert annehmen. Wer den Ar- tikel indes aufmerksam liest, wird alles Richti- ge dazu erfahren. In der Berichterstattung zu diesem Vorschlag ging es aber einzig und al- lein umdie neue Schwelle – und damit umdie „Rettung des p-Werts“. Nicht zuletzt deshalb hier gleich noch ein für uns Lebenswissenschaftler lehrreiches Bei- spiel aus der Physik. Bei OPERA ging es umeine sehr unwahrscheinliche Hypothese – und am Und die Moral von der Geschicht ‘ : Glaube Deinem p-Wert nicht! Einsichten eines Wissenschaftsnarren (7) »Hat der Versuchsaufbau einen systematischen Fehler, nutzt ein niedriger p-Wert gar nichts.« ‘

RkJQdWJsaXNoZXIy Nzk1Nzg=