Wie Wissenschaftler aufhören können, sich über Statistiken etwas vorzumachen

Ein spannender Artikel von Dorothy Bishop erschienen in Nature 584, 9 (2020); doi: 10.1038/d41586-020-02275-8

Das Sammeln simulierter Daten kann gemeinsame Wege aufzeigen, auf denen unsere kognitiven Vorurteile uns in die Irre führen.

Einpaar Worte zu Autorin:

Professor Dorothy Bishop

Professor für Entwicklungsneuropsychologie, Abteilung für Experimentalpsychologie; Fellow des St. John's College

Professor Bishop erforscht Sprachbeeinträchtigungen bei Kindern. In einigen Fällen haben Sprachschwierigkeiten eine offensichtliche Ursache, wie z.B. Hörverlust oder eine Erkrankung wie das Down-Syndrom. In anderen Fällen haben Kinder ohne offensichtlichen Grund besondere Schwierigkeiten, sprechen zu lernen oder Sprache zu verstehen. Professor Bishop hat Kinder mit "spezifischer Sprachbehinderung" oder SLI untersucht, die etwa 3% der Bevölkerung ausmachen, aber von den Forschern tendenziell vernachlässigt werden. Anhand von Zwillingsstudien hat sie die genetische Komponente dieser Störungen untersucht und mit Molekulargenetikern zusammengearbeitet, um herauszufinden, welche Gene beteiligt sind. Quelle Bild: Wikipedia

Wie Wissenschaftler aufhören können, sich über Statistiken etwas vorzumachen

In den letzten zehn Jahren wurden zahlreiche Anstrengungen unternommen, um robuste und glaubwürdige Forschung zu fördern. Einige konzentrieren sich darauf, die Anreize zu verändern, z.B. durch Änderung der Förderungs- und Publikationskriterien, um offene Wissenschaft gegenüber sensationellen Durchbrüchen zu bevorzugen. Aber auch dem Einzelnen muss Aufmerksamkeit geschenkt werden. Allzu menschliche kognitive Verzerrungen können dazu führen, dass wir Ergebnisse sehen, die nicht vorhanden sind. Fehlerhafte Argumentation führt zu schlampiger Wissenschaft, selbst wenn die Absichten gut sind.

Forscher müssen sich dieser Fallstricke stärker bewusst werden. So wie es Laborwissenschaftlern nicht erlaubt ist, ohne Sicherheitstraining mit gefährlichen Substanzen umzugehen, sollte es Forschern nicht erlaubt sein, auch nur in die Nähe eines P-Wertes oder eines ähnlichen statistischen Wahrscheinlichkeitsmaßes zu kommen, bis sie nachgewiesen haben, dass sie verstehen, was das bedeutet.

Wir alle neigen dazu, Beweise zu übersehen, die unseren Ansichten widersprechen. Wenn wir mit neuen Daten konfrontiert werden, können unsere bereits vorhandenen Ideen dazu führen, dass wir Strukturen sehen, die nicht vorhanden sind. Dies ist eine Form der Bestätigungsverzerrung, bei der wir nach Informationen suchen und uns an Informationen erinnern, die zu dem passen, was wir bereits denken. Sie kann anpassungsfähig sein: Menschen müssen in der Lage sein, wichtige Informationen auszusondern und schnell zu handeln, um aus der Gefahr herauszukommen. Aber diese Filterung kann zu wissenschaftlichen Fehlern führen.

Die Messung der Ladung des Elektrons durch den Physiker Robert Millikan aus dem Jahr 1913 ist ein Beispiel dafür. Obwohl er behauptete, dass seine Arbeit alle Datenpunkte aus seinem berühmten Öltröpfchenexperiment enthielt, enthüllten seine Notizbücher andere, nicht gemeldete Datenpunkte, die den Endwert nur geringfügig verändert hätten, ihm aber einen größeren statistischen Fehler beschert hätten. Es gab eine Debatte darüber, ob Millikan beabsichtigte, seine Leser in die Irre zu führen. Es ist jedoch nicht ungewöhnlich, dass ehrliche Personen Erinnerungen an unbequeme Tatsachen unterdrücken (R. C. Jennings Sci. Eng. Ethik 10, 639-653; 2004).

Eine andere Art der Begrenzung fördert Missverständnisse in der Wahrscheinlichkeitsrechnung und Statistik. Wir wissen seit langem, dass Menschen Schwierigkeiten haben, die Unsicherheit zu begreifen, die mit kleinen Stichproben verbunden ist (A. Tversky und D. Kahneman Psychol. Bull. 76, 105-110; 1971). Als aktuelles Beispiel nehmen wir an, dass 5% der Bevölkerung mit einem Virus infiziert sind. Wir haben 100 Krankenhäuser, die jeweils 25 Personen testen, 100 Krankenhäuser, die 50 Personen testen, und 100, die 100 Personen testen. Wie viel Prozent der Krankenhäuser werden keine Fälle finden und fälschlicherweise den Schluss ziehen, dass das Virus verschwunden ist? Die Antwort lautet: 28 % der Krankenhäuser, die 25 Menschen testen, 8 % der Krankenhäuser, die 50 Menschen testen, und 1 % der Krankenhäuser, die 100 Menschen testen. Die durchschnittliche Zahl der von den Krankenhäusern entdeckten Fälle ist unabhängig von der Zahl der getesteten Fälle gleich, aber die Spanne ist bei einer kleinen Stichprobe viel größer.

Diese nicht-lineare Skalierung ist intuitiv schwer zu erfassen. Sie führt dazu, dass man unterschätzt, wie verrauscht kleine Stichproben sein können, und daher Studien durchführt, denen es an der für die Erkennung eines Effekts erforderlichen statistischen Aussagekraft fehlt.

Die Forscher erkennen auch nicht, dass die Signifikanz eines Ergebnisses, ausgedrückt in einem P-Wert, entscheidend vom Kontext abhängt. Je mehr Variablen Sie untersuchen, desto wahrscheinlicher ist es, dass Sie einen fälschlicherweise "signifikanten" Wert finden. Wenn Sie z.B. 14 Metaboliten auf eine Assoziation mit einer Störung testen, dann ist die Wahrscheinlichkeit, dass Sie zufällig mindestens einen P-Wert unter 0,05 finden - ein häufig verwendeter Schwellenwert von statistischer Signifikanz - nicht 1 zu 20, sondern näher an 1 zu 2.

Wie können wir ein Verständnis dafür vermitteln? Eines ist klar: Eine herkömmliche Ausbildung in Statistik ist unzureichend oder sogar kontraproduktiv, weil sie dem Anwender unangebrachtes Vertrauen geben könnte. Ich experimentiere mit einem alternativen Ansatz: der Erzeugung von simulierten Daten, die die Studierenden verschiedenen statistischen Analysen unterziehen können. Ich verwende dies, um zwei entscheidende Konzepte zu vermitteln.

Erstens: Wenn den Schülern Nulldatensätze (wie Zufallszahlen) vorgelegt werden, entdecken sie schnell, wie einfach es ist, falsche Ergebnisse zu finden, die statistisch "signifikant" erscheinen. Forscher müssen lernen, dass die Interpretation eines P-Wertes bei der Frage "Ist A mit B assoziiert?" ganz anders ist als bei der Frage "Gibt es für die Variablen A, B, C, D und E Korrelationen, bei denen P < 0,05 ist? Die Frage, ob ein bestimmter Metabolit mit einer Krankheit assoziiert ist, ist nicht dasselbe wie die Suche nach einer Reihe von Metaboliten, um festzustellen, ob irgendwelche mit ihr assoziiert sind. Letzteres erfordert wesentlich strengere Tests.

Die vier Reiter der Irreproduzierbarkeit im Zaum halten

Simulierte Daten liefern auch Erkenntnisse, wenn die Proben aus zwei "Populationen" mit unterschiedlichen Mitteln stammen. Die Schülerinnen und Schüler lernen schnell, dass ein Experiment bei kleinen Stichprobengrößen nutzlos sein kann, um auch nur einen moderaten Unterschied aufzudecken. Eine 30-minütige Datensimulation kann Forscher fassungslos machen, wenn sie die Auswirkungen verstehen.

Forscher müssen sich lebenslange Gewohnheiten aneignen, um zu vermeiden, dass sie durch Bestätigungsverzerrungen in die Irre geführt werden. Beobachtungen, die unseren Erwartungen widersprechen, bedürfen besonderer Aufmerksamkeit. Charles Darwin sagte 1876, er habe es sich zur Gewohnheit gemacht, "immer dann, wenn mir eine veröffentlichte Tatsache, eine neue Beobachtung oder ein neuer Gedanke über den Weg lief, der im Gegensatz zu meinen allgemeinen Ergebnissen stand, unbedingt und sofort ein Memorandum darüber zu verfassen: denn ich hatte aus Erfahrung festgestellt, dass solche Tatsachen und Gedanken viel eher geeignet waren, der Erinnerung zu entgehen, als günstige". Das habe ich selbst erlebt. Beim Verfassen von Literaturbesprechungen habe ich mit Schrecken festgestellt, dass ich völlig vergessen hatte, Paper zu erwähnen, die meinem eigenen Instinkt zuwiderlaufen, obwohl die Paper keine besonderen Mängel aufwiesen. Ich bemühe mich nun, sie aufzulisten.

Es fällt uns allen schwer, die Fehler in unserer eigenen Arbeit zu erkennen - das ist ein normaler Teil der menschlichen Kognition. Aber wenn wir diese blinden Flecken verstehen, können wir sie vermeiden.

Drucken