Zur JKU Startseite
Kepler Tribune
Was ist das?

Institute, Schools und andere Einrichtungen oder Angebote haben einen Webauftritt mit eigenen Inhalten und Menüs.

Um die Navigation zu erleichtern, ist hier erkennbar, wo man sich gerade befindet.

Platz für Statistik Ausgabe 4/2019

Platz für Statistik

Am 11. Novem­ber ist der boli­via­ni­sche Prä­si­dent Evo Mora­les nach anhal­ten­den Mas­sen­pro­tes­ten auf Druck des Mili­tärs zurück­ge­tre­ten. Einer der Gründe für die Pro­teste waren Vor­würfe über Betrü­ge­reien bei den im Okto­ber abge­hal­te­nen Wah­len, bei denen Mora­les den erfor­der­li­chen Abstand von 10 Pro­zent­punk­ten zum Gegen­kan­di­da­ten knapp erreichte.

Die Orga­ni­sa­tion Ame­ri­ka­ni­scher Staa­ten hatte dar­auf­hin eine Unter­su­chung ein­ge­lei­tet, die auf Basis der Wahl­er­geb­nisse und der zuge­hö­ri­gen Zeit­s­tem­pel zum Schluss kam, dass das Ergeb­nis sta­tis­tisch unwahr­schein­lich sei, und emp­fahl des­halb eine Neu­wahl.

Bemer­kens­wert war hier­bei die Ver­wen­dung sta­tis­ti­scher Ver­fah­ren zur Ent­schei­dungs­fin­dung – welch Gegen­satz zu unse­ren letz­ten Prä­si­dent­schafts­wah­len!

Die am 22. Mai 2016 statt­ge­fun­dene Stich­wahl zwi­schen Nor­bert Hofer und Alex­an­der van der Bel­len, wel­che Letz­te­rer mit etwa 30.000 Stim­men Vor­sprung gewann, wurde ja nach Ein­spruch der FPÖ vom Ver­fas­sungs­ge­richts­hof auf­ge­ho­ben. Die­ser hatte 11 Wahl­be­zirke iden­ti­fi­ziert, für wel­che nicht aus­ge­schlos­sen wer­den konnte, dass die darin abge­ge­be­nen Brief­wahl­stim­men mani­pu­liert wor­den waren. Der VfGH argu­men­tierte in sei­nem Erkennt­nis allein mit der prin­zi­pi­el­len Mög­lich­keit, dass der Wahl­aus­gang dadurch beein­flusst hätte sein kön­nen, ohne jedoch die vor­lie­gen­den Daten her­an­zu­zie­hen.

Der Sta­tis­ti­ker Erich Neu­wirth von der Uni­ver­si­tät Wien aber unter­suchte unter der Annahme eines über die Wahl­kreise durch­schnitt­lich kon­stan­ten Ver­hält­nis­ses von Urnen-​ zu Brief­wahl­stim­men, die soge­nann­ten Resi­duen, das heißt die Abwei­chun­gen der Daten vom zugrun­de­ge­leg­ten Modell. Bei even­tu­ell vor­lie­gen­den Mani­pu­la­tio­nen hät­ten sich diese Resi­duen in den bean­stan­de­ten Wahl­krei­sen in sta­tis­tisch signi­fi­kan­ter Weise, das heißt über die natür­li­chen zufäl­li­gen Schwan­kun­gen hin­aus, von denen in den rest­li­chen 106 Wahl­krei­sen unter­schei­den müs­sen.

Dies war aller­dings nicht im Gerings­ten der Fall. Zusätz­lich lässt sich über die Resi­duen die Wahr­schein­lich­keit dafür bestim­men, dass es trotz allem zu einer ergeb­nis­ver­än­dern­den Mani­pu­la­tion gekom­men wäre. Neu­wirth und Wal­ter Scha­cher­mayr bezif­fern diese in einem Arti­kel in der öster­rei­chi­schen Zeit­schrift für Sta­tis­tik mit 1 zu 7,56 Mil­li­ar­den, also etwa einem Tau­sends­tel der Chance auf einen Lot­to­sech­ser.

In einer unab­hän­gi­gen, auch resi­du­en­ba­sier­ten Ana­lyse kam Wal­ter Mebane, Sta­tis­tik­pro­fes­sor an der Uni­ver­sity of Michi­gan, zu ähn­li­chen, in der „Washing­ton Post“ der brei­ten Öffent­lich­keit vor­ge­leg­ten Schluss­fol­ge­run­gen. Warum wur­den diese har­ten Fak­ten vom Ver­fas­sungs­ge­richts­hof nicht berück­sich­tigt, ja womög­lich gar nicht in Erwä­gung gezo­gen? Dar­über kann nur gemut­maßt wer­den, denn Indi­zien mit Wahr­schein­lich­keits­an­ga­ben wer­den ja in ande­ren Ver­fah­ren durch­aus benutzt, man denke nur an DNA-​Vergleiche.

Aber schon 2016 haben ich im „Stan­dard“ und Neu­wirth und Scha­cher­mayr im „Fal­ter“ fest­ge­stellt, dass mög­li­cher­weise in der Höchst­rich­ter­schaft, aber auch in der Bevöl­ke­rung im All­ge­mei­nen, das Bewusst­sein für sta­tis­ti­sche Fra­ge­stel­lun­gen kaum vor­han­den ist. Dabei wird die „sta­tis­ti­cal liter­acy“ – also die Daten-​Alphabetisierung – häu­fig als Schlüs­sel­kom­pe­tenz des 21. Jahr­hun­derts genannt. Und nur wer Daten lesen und ver­ste­hen kann, wird in einer Welt der Daten Ver­trauen in die Demo­kra­tie haben. Diese Kolumne besteht auch in der Hoff­nung, zur Ver­brei­tung die­ser „data liter­acy“ bei­zu­tra­gen.

JKU: PLATZ FÜR FAK­TEN STATT FAKES  

Von Werner Müller
Platz für Statistik Ausgabe 3/2019

Die selt­same Wahl­um­fra­gen­kon­stanz

Auf der Web­seite https://neu­wal.com/wahl­um­fra­gen wer­den Ergeb­nisse von Wahl­um­fra­gen in Öster­reich doku­men­tiert. In den letz­ten 25 unab­hän­gi­gen Wahl­um­fra­gen vor der Natio­nal­rats­wahl 2017 lag die ÖVP, damals noch Juni­or­part­ner der SPÖ in der Regie­rung, mit ihrem Anteil kon­stant zwi­schen 32 und 34 Pro­zent (siehe 1. Abbil­dung).

Wäh­rend die­ser Umstand in der brei­ten Öffent­lich­keit wohl so wahr­ge­nom­men wird, dass sich in der Gesamt­be­völ­ke­rung in die­sem Zeit­raum offen­bar nichts getan hat, schril­len bei Sach­kun­di­gen die Alarm­glo­cken. Denn auch wenn sich in der Popu­la­tion abso­lut nichts ändert, unter­lie­gen selbst nach den Regeln der Survey-​Statistik durch­ge­führte Erhe­bun­gen einer natür­li­chen Stich­pro­ben­schwan­kung. Durch die Zufäl­lig­keit der Aus­wahl der Stich­pro­ben­ele­mente lässt sich dann aber die Unge­nau­ig­keit der Resul­tate auf Basis der Wahr­schein­lich­keits­theo­rie bestim­men.

Geht man vom Ide­al­fall im Hin­blick auf die Genau­ig­keit aus, also davon, dass es sich um 25 unab­hän­gige ein­fa­che Zufalls­stich­pro­ben ohne Non­re­sponse gehan­delt hat (denn sonst könn­ten die Ergeb­nisse womög­lich noch stär­ker streuen), dann kann z. B. bei ange­nom­me­nen kon­stan­ten 33 Bevöl­ke­rungs­pro­zen­ten die Wahr­schein­lich­keit dafür bestimmt wer­den, dass trotz der Stich­pro­ben­schwan­kung zufäl­lig diese kon­stan­ten Ergeb­nisse von gerun­de­ten 32 bis 34 Pro­zent für die ÖVP zu Stande gekom­men sind. Dies besitzt eine Wahr­schein­lich­keit von 0,00000411. Das bedeu­tet, dass eine sol­che Kon­stanz von 25 Umfra­gen durch Zufall im Schnitt nur jedes 1 : 0,00000411 ≈ 240.000-​ste Mal pas­sie­ren wird. So unwahr­schein­lich ist es selbst unter Ide­al­be­din­gun­gen, dass 25 unab­hän­gige Stich­pro­ben für eine Par­tei immer 32 bis 34 Pro­zent erge­ben, wenn der Popu­la­ti­ons­wert 33 Pro­zent beträgt!

Ein belie­bi­ger zufäl­li­ger Ver­lauf, der sich an die Gesetz­mä­ßig­kei­ten der Wahr­schein­lich­keits­theo­rie hält, wäre zum Ver­gleich etwa jener in der 2. Abbil­dung. Sehen Sie den Unter­schied zu den ver­öf­fent­lich­ten Wahl­um­fra­gen?

Wieso glei­chen sich die berich­te­ten Umfra­ge­er­geb­nisse also so stark, wenn es äußerst unwahr­schein­lich ist, dass sie es zufäl­lig tun? Sind diese Umfra­gen womög­lich gar keine Umfra­gen, son­dern „Unfra­gen“?  

Von Andreas Quatember
Platz für Statistik Ausgabe 2/2019

Platz für Statistik

Trin­ken Sie gerne Tee? In unse­ren Brei­ten sel­ten mit Milch, oder? Aber wenn doch, dann Milch zuerst in die Tasse oder umge­kehrt? Sie den­ken, das macht kei­nen Unter­schied? Auch der junge Ronald Fisher (spä­ter zum Säu­len­hei­li­gen der Sta­tis­tik avan­ciert) dachte das, als er Muriel Bris­tol einst eine frisch auf­ge­gos­sene Tasse Tee anbot und diese mit dem Hin­weis ablehnte, es schme­cke ihr bes­ser, wenn die Milch zuvor hin­zu­ge­fügt würde. Dies geschah an einem Nach­mit­tag in den frü­hen 1920er Jah­ren an der Agrar­for­schungs­sta­tion in Rot­hamsted, an der die bei­den beschäf­tigt waren. Der genaue Tag ist nicht bekannt, aber die Uhr­zeit war 16.00 Uhr, zur in Rot­hamsted ritu­ell ein­ge­hal­te­nen Tee­pause.

Die Algen­for­sche­rin Bris­tol wird Ihnen mög­li­cher­weise unbe­kannt sein, aber als „The Lady Tas­ting Tea“ ist sie durch diese Tee­pause in die Wis­sen­schafts­ge­schichte ein­ge­gan­gen. Fisher näm­lich, der ihre Behaup­tung, sie könne unter­schei­den, ob der Tee oder die Milch zuerst in die Tasse gegos­sen wurde, nicht glau­ben wollte, ent­schloss sich, diese mit einem Expe­ri­ment zu über­prü­fen. Die­ser Ver­such, wel­chen Fisher spä­ter in sei­nem berühm­ten, 1935 erschie­ne­nen Buch „The Design of Expe­ri­ments“ beschreibt, gilt als der Geburts­mo­ment der sta­tis­ti­schen Ver­suchs­pla­nung und quasi als Vor­bild für die Stan­dard­vor­ge­hens­weise in allen expe­ri­men­tel­len Wis­sen­schaf­ten.

Was war Fishers bahn­bre­chen­der Vor­schlag? Er ließ vier Tas­sen zuerst mit Tee (T) und vier Tas­sen zuerst mit Milch (M) fül­len und prä­sen­tierte diese Dr. Bris­tol in zufäl­li­ger Rei­hen­folge. Nur wenn Bris­tol in der Lage wäre, alle davon kor­rekt zu iden­ti­fi­zie­ren, würde er ihr die behaup­tete Fer­tig­keit zuge­ste­hen. Was auf den ers­ten Blick wie ein unspek­ta­ku­lä­rer Vor­schlag aus­sieht, berei­tete die Grund­lage für in der Sta­tis­tik nun­mehr unbe­strit­tene Ver­suchs­prin­zi­pien wie Ran­do­mi­sie­rung, Repli­ka­tion sowie Balance und führte gleich neben­her das exakte sta­tis­ti­sche Tes­ten ein. In sei­nem bril­lan­ten, nur neun Sei­ten lan­gen und 1956 erschie­ne­nen Arti­kel „Mathe­ma­tics of a Lady Tas­ting Tea“ erklärt Fisher ein­leuch­tend (und ohne Ver­wen­dung von For­meln), wel­che Abwei­chun­gen von sei­ner Ver­suchs­an­ord­nung wel­che nega­ti­ven Kon­se­quen­zen hät­ten.

Haupt­säch­lich ging es dabei natür­lich darum, mög­lichst aus­zu­schlie­ßen, dass Dr. Bris­tol ein­fach durch Raten zum rich­ti­gen Ergeb­nis gelangte. Nun, bei jeweils vier Tas­sen kön­nen sich ver­schie­dene zufäl­lige Anord­nun­gen erge­ben. Die Wahr­schein­lich­keit, bei die­sem Ver­such durch pures Raten immer Recht zu haben, beträgt daher etwa 1,4 %, was für Fisher aus­rei­chend unwahr­schein­lich wäre, um als zufäl­lig zu gel­ten (die bekannte 5%-​Signifikanzhürde geht auch auf ihn zurück).

Man bemerke, dass hier­mit nicht nur der Per­mu­ta­ti­ons­test, son­dern auch der soge­nannte p-​Wert ein­ge­führt wurde, Kon­zepte, wel­che heute in den expe­ri­men­tel­len Anwen­dun­gen ent­schei­dende Bedeu­tung haben, ins­be­son­dere zum Bei­spiel bei kli­ni­schen Tests von Medi­ka­men­ten oder Behand­lungs­ver­fah­ren.

Ob Frau Bris­tol den Test bestan­den hat, ist übri­gens nicht ganz geklärt. Herr Fisher ver­liert in sei­nen Schrif­ten kein Wort dar­über, Zeu­gen der berühm­ten Tee­pause sind eher auf Bris­tols Seite.

JKU: PLATZ FÜR FAK­TEN STATT FAKE NEWS  

Von Werner Müller
Platz für Statistik Ausgabe 1/2019

PLATZ FÜR STATISTIK

Neh­men wir mal an, Sie wol­len Ihr Finanz­amt bei Ihrer Steu­er­erklä­rung betrü­gen. Nicht, dass wir das von Ihnen ver­mu­ten wür­den, aber wenn doch, dann soll­ten Sie beim Aus­fül­len der For­mu­lare mit irgend­wel­chen Fan­ta­sie­zah­len vor­sich­tig sein. Ver­wen­den Sie dabei näm­lich, was viele als nahe­lie­gend und ver­nünf­tig anneh­men, alle Zif­fern gleich­mä­ßig, so las­sen sich Ihre nume­ri­schen Anga­ben rela­tiv ein­fach als Fäl­schun­gen iden­ti­fi­zie­ren. Das kommt von einem erstaun­li­chen Umstand, wel­cher in der Sta­tis­tik nach sei­nen Ent­de­ckern (New­comb)- Benford-​Gesetz genannt wird und zur Folge hat, dass etwa Zah­len mit füh­ren­den Ein­sen in vie­len Zusam­men­hän­gen öfter vor­kom­men als sol­che mit füh­ren­den Zweien, mit füh­ren­den Zweien wie­derum öfter als mit füh­ren­den Dreien und so fort. Genauer gesagt tritt nach die­sem Gesetz eine Zahl mit Zif­fer z an ers­ter Stelle mit einer zu erwar­ten­den Häu­fig­keit log10(1+1/z) auf. Die Eins tritt dem­nach in etwa 30 % aller Fälle auf, die Zwei in ca. 18 % und so wei­ter. (vgl. etwa: https://de.wiki­pe­dia.org/wiki/Ben­ford­sches_­Ge­setz)

Für das Auf­tre­ten die­ser spe­zi­el­len Ver­tei­lung las­sen sich vie­ler­lei Erklä­run­gen fin­den. Am ein­gän­gigs­ten ist viel­leicht jene über einen gleich­mä­ßi­gen Wachs­tums­pro­zess. Pflan­zen Sie etwa einen ein Meter hohen Baum, wel­cher monat­lich im Schnitt mit einem kon­stan­ten Fak­tor, sagen wir 1 %, wächst, dann dau­ert es 70 Monate, bis die­ser Baum zwei Meter hoch ist, wei­tere 41 Monate, bis er drei Meter misst und so wei­ter. Bei einer Höhe von neun Metern dau­ert es nur noch elf Monate bis zur Höhe von zehn Metern und dann steht wie­der eine Eins am Anfang und der Pro­zess setzt sich fort. Natür­lich wach­sen Bäume, in der Rea­li­tät nicht gleich­mä­ßig und schon gar nicht unbe­schränkt, aber betrach­tet man eine grö­ßere Anzahl unter­schied­lich alter Bäume spielt dies keine Rolle. Andere Bei­spiele für Benford-​verteilte Zah­len sind Haus­num­mern oder Bevöl­ke­rungs­grö­ßen. Das Phä­no­men ist aller­dings nicht auf spe­zi­fi­sche Daten­sätze beschränkt.

Machen Sie selbst einen Ver­such: Neh­men Sie eine grö­ßere Kol­lek­tion von Daten aus Ihrem Umfeld, z. B. Ihren For­schun­gen, die nicht zu klein ist und bei wel­cher der Daten­be­reich nicht auf eine bestimmte Zahl von Stel­len beschränkt ist, ord­nen Sie die Werte nach der füh­ren­den Zif­fer und zäh­len Sie: Sie wer­den stau­nen (oder jetzt viel­leicht nicht mehr).

Das Benford-​Gesetz lässt sich übri­gens auf wei­tere Stel­len der unter­such­ten Zah­len erwei­tern, aller­dings mit abneh­men­der Ungleich­mä­ßig­keit. Die letz­ten Zif­fern soll­ten, wie man sich leicht über­le­gen kann, mit jeweils glei­cher, also je 10 % Häu­fig­keit auf­tre­ten.

Das Fäl­schen einer Steu­er­erklä­rung erfor­dert also wesent­lich mehr sta­tis­ti­sches Know-​how, als man ver­mu­ten möchte. Von 100 ein­zu­tra­gen­den Zah­len soll­ten rund 30 mit einer Eins, rund 18 mit einer Zwei, und so fort begin­nen. Aber auch die zwei­ten Stel­len soll­ten sich nach den ent­spre­chen­den Regeln für die zwei­ten Zif­fern rich­ten. Und die drit­ten gege­be­nen­falls nach jenen für die drit­ten … In der Pra­xis wer­den Ver­let­zun­gen der Ben­ford’schen Ver­tei­lung übri­gens nicht nur zum Auf­de­cken von Wirt­schafts­kri­mi­na­li­tät, son­dern auch etwa von Gen­ano­ma­li­tä­ten oder Wahl­be­trug ver­wen­det.

JKU: PLATZ FÜR FAK­TEN STATT FAKE NEWS

Von Werner Müller und Andreas Quatember
Stabdiagramm der Benford-Verteilung zum Klimawandel
Platz für Statistik Ausgabe 4/2018

Platz für Statistik

Das EU-​Sommerzeit-Nichtreferendum

Von Andreas Quatember
Platz für Statistik Ausgabe 3/2018

Platz für Statistik

2017 war eines der drei wärms­ten Jahre, der April 2018 der wärmste, der dar­auf fol­gende Mai der hei­ßeste seit Mess­be­ginn – ein Rekord jagt den ande­ren.

Von Werner Müller & Andreas Quatember
Die Temperaturkurve seit dem Jahr 1919
Platz für Statistik Ausgabe 2/2018

Platz für Statistik

Know your sta­tus, but know your pro­ba­bi­lity too!
 

Von Andreas Quatember
Platz für Statistik Ausgabe 1/2018

Platz für Statistik

Wie gelingt es Pro­zent­zah­len, dass die Grenze zwi­schen Fak­ten und Fake News ver­schwimmt?

Von Andreas Quatember