Nehmen wir mal an, Sie wollen Ihr Finanzamt bei Ihrer Steuererklärung betrügen. Nicht, dass wir das von Ihnen vermuten würden, aber wenn doch, dann sollten Sie beim Ausfüllen der Formulare mit irgendwelchen Fantasiezahlen vorsichtig sein. Verwenden Sie dabei nämlich, was viele als naheliegend und vernünftig annehmen, alle Ziffern gleichmäßig, so lassen sich Ihre numerischen Angaben relativ einfach als Fälschungen identifizieren. Das kommt von einem erstaunlichen Umstand, welcher in der Statistik nach seinen Entdeckern (Newcomb)- Benford-Gesetz genannt wird und zur Folge hat, dass etwa Zahlen mit führenden Einsen in vielen Zusammenhängen öfter vorkommen als solche mit führenden Zweien, mit führenden Zweien wiederum öfter als mit führenden Dreien und so fort. Genauer gesagt tritt nach diesem Gesetz eine Zahl mit Ziffer z an erster Stelle mit einer zu erwartenden Häufigkeit log10(1+1/z) auf. Die Eins tritt demnach in etwa 30 % aller Fälle auf, die Zwei in ca. 18 % und so weiter. (vgl. etwa: https://de.wikipedia.org/wiki/Benfordsches_Gesetz, öffnet eine externe URL in einem neuen Fenster)
Für das Auftreten dieser speziellen Verteilung lassen sich vielerlei Erklärungen finden. Am eingängigsten ist vielleicht jene über einen gleichmäßigen Wachstumsprozess. Pflanzen Sie etwa einen ein Meter hohen Baum, welcher monatlich im Schnitt mit einem konstanten Faktor, sagen wir 1 %, wächst, dann dauert es 70 Monate, bis dieser Baum zwei Meter hoch ist, weitere 41 Monate, bis er drei Meter misst und so weiter. Bei einer Höhe von neun Metern dauert es nur noch elf Monate bis zur Höhe von zehn Metern und dann steht wieder eine Eins am Anfang und der Prozess setzt sich fort. Natürlich wachsen Bäume, in der Realität nicht gleichmäßig und schon gar nicht unbeschränkt, aber betrachtet man eine größere Anzahl unterschiedlich alter Bäume spielt dies keine Rolle. Andere Beispiele für Benford-verteilte Zahlen sind Hausnummern oder Bevölkerungsgrößen. Das Phänomen ist allerdings nicht auf spezifische Datensätze beschränkt.
Machen Sie selbst einen Versuch: Nehmen Sie eine größere Kollektion von Daten aus Ihrem Umfeld, z. B. Ihren Forschungen, die nicht zu klein ist und bei welcher der Datenbereich nicht auf eine bestimmte Zahl von Stellen beschränkt ist, ordnen Sie die Werte nach der führenden Ziffer und zählen Sie: Sie werden staunen (oder jetzt vielleicht nicht mehr).
Das Benford-Gesetz lässt sich übrigens auf weitere Stellen der untersuchten Zahlen erweitern, allerdings mit abnehmender Ungleichmäßigkeit. Die letzten Ziffern sollten, wie man sich leicht überlegen kann, mit jeweils gleicher, also je 10 % Häufigkeit auftreten.
Das Fälschen einer Steuererklärung erfordert also wesentlich mehr statistisches Know-how, als man vermuten möchte. Von 100 einzutragenden Zahlen sollten rund 30 mit einer Eins, rund 18 mit einer Zwei, und so fort beginnen. Aber auch die zweiten Stellen sollten sich nach den entsprechenden Regeln für die zweiten Ziffern richten. Und die dritten gegebenenfalls nach jenen für die dritten … In der Praxis werden Verletzungen der Benford’schen Verteilung übrigens nicht nur zum Aufdecken von Wirtschaftskriminalität, sondern auch etwa von Genanomalitäten oder Wahlbetrug verwendet.
JKU: PLATZ FÜR FAKTEN STATT FAKE NEWS