Trinken Sie gerne Tee? In unseren Breiten selten mit Milch, oder? Aber wenn doch, dann Milch zuerst in die Tasse oder umgekehrt? Sie denken, das macht keinen Unterschied? Auch der junge Ronald Fisher (später zum Säulenheiligen der Statistik avanciert) dachte das, als er Muriel Bristol einst eine frisch aufgegossene Tasse Tee anbot und diese mit dem Hinweis ablehnte, es schmecke ihr besser, wenn die Milch zuvor hinzugefügt würde. Dies geschah an einem Nachmittag in den frühen 1920er Jahren an der Agrarforschungsstation in Rothamsted, an der die beiden beschäftigt waren. Der genaue Tag ist nicht bekannt, aber die Uhrzeit war 16.00 Uhr, zur in Rothamsted rituell eingehaltenen Teepause.
Die Algenforscherin Bristol wird Ihnen möglicherweise unbekannt sein, aber als „The Lady Tasting Tea“ ist sie durch diese Teepause in die Wissenschaftsgeschichte eingegangen. Fisher nämlich, der ihre Behauptung, sie könne unterscheiden, ob der Tee oder die Milch zuerst in die Tasse gegossen wurde, nicht glauben wollte, entschloss sich, diese mit einem Experiment zu überprüfen. Dieser Versuch, welchen Fisher später in seinem berühmten, 1935 erschienenen Buch „The Design of Experiments“ beschreibt, gilt als der Geburtsmoment der statistischen Versuchsplanung und quasi als Vorbild für die Standardvorgehensweise in allen experimentellen Wissenschaften.
Was war Fishers bahnbrechender Vorschlag? Er ließ vier Tassen zuerst mit Tee (T) und vier Tassen zuerst mit Milch (M) füllen und präsentierte diese Dr. Bristol in zufälliger Reihenfolge. Nur wenn Bristol in der Lage wäre, alle davon korrekt zu identifizieren, würde er ihr die behauptete Fertigkeit zugestehen. Was auf den ersten Blick wie ein unspektakulärer Vorschlag aussieht, bereitete die Grundlage für in der Statistik nunmehr unbestrittene Versuchsprinzipien wie Randomisierung, Replikation sowie Balance und führte gleich nebenher das exakte statistische Testen ein. In seinem brillanten, nur neun Seiten langen und 1956 erschienenen Artikel „Mathematics of a Lady Tasting Tea“ erklärt Fisher einleuchtend (und ohne Verwendung von Formeln), welche Abweichungen von seiner Versuchsanordnung welche negativen Konsequenzen hätten.
Hauptsächlich ging es dabei natürlich darum, möglichst auszuschließen, dass Dr. Bristol einfach durch Raten zum richtigen Ergebnis gelangte. Nun, bei jeweils vier Tassen können sich verschiedene zufällige Anordnungen ergeben. Die Wahrscheinlichkeit, bei diesem Versuch durch pures Raten immer Recht zu haben, beträgt daher etwa 1,4 %, was für Fisher ausreichend unwahrscheinlich wäre, um als zufällig zu gelten (die bekannte 5%-Signifikanzhürde geht auch auf ihn zurück).
Man bemerke, dass hiermit nicht nur der Permutationstest, sondern auch der sogenannte p-Wert eingeführt wurde, Konzepte, welche heute in den experimentellen Anwendungen entscheidende Bedeutung haben, insbesondere zum Beispiel bei klinischen Tests von Medikamenten oder Behandlungsverfahren.
Ob Frau Bristol den Test bestanden hat, ist übrigens nicht ganz geklärt. Herr Fisher verliert in seinen Schriften kein Wort darüber, Zeugen der berühmten Teepause sind eher auf Bristols Seite.
JKU: PLATZ FÜR FAKTEN STATT FAKE NEWS