Statistik: Benfords Gesetz

Hallo,

ich hätte eine Frage zu Benfords Gesetz aus der Statistik. Demnach kommt es bei „großen Zahlenmengen“ (sorry: muß es so schwammig ausdrücken, denn ich kenne die Verteilung nicht) zu dem Phänomen, daß die 1 die häufigste Anfangsziffer aller vorkommenden Zahlen ist (>30%), die 2 ist die zweithäufigste (>17%), etc.
Intuitiv würde man (ich) erstmal erwarten, daß alle Anfangsziffern gleich oft vorkommen. Dem ist aber nicht so.

Ich kann mir zwar halbwegs eine Erklärung zurechtlegen, wüßte aber gern eine fundierte, mathematisch saubere Begründung dafür, bzw. Literatur, wo ich eine solche finden kann.

Es ist schon recht verblüffend, z.B. die Dateigrößen auf der eigenen Festplatte zu analysieren! Selbst bei einer solch geringen Anzahl ist das Gesetz schon erstaunlich gut erkennbar.

Danke,

Frank.

Und jetzt wie aus dem Lehrbuch:
(Krämer/Trenkler: Lexikon der populären Irrtümer)

…[wie von dir genannt] Diese Wahrscheinlichkeiten sind unter der Annahme berechnet, dass die erste Nachkommastelle des Logarithmus’ der ausgewählten Zahl eine auf dem Intervall (0,1) gleichverteilte Zufallsvariable ist.

Genauer unter Krämer: „Denkste! Trugschlüsse aus der Welt des Zufalls und der Zahlen“

Diese Zahlen sind einfach logarithmisch verteilt.
Beispielsweise sind auch die Bauelementwerte in der Elektronik logarithmisch abgestuft, damit eben nicht die Differenz, sondern das Verhältnis zweier nebeneinander liegender Werte konstant ist.
Genau so kommen eben Zahlen z.B. in der Zeitung (was empirisch auch stimmt) in etwa logarithmisch verteilt vor.

Grüße

Weiteres Wissenswertes unter
http://www.fh-fulda.de/~fd9006/dnkfln
Gruß Tyll

1 „Gefällt mir“

Hallo,

vielen Dank für Deine Antwort. Allerdings ist mir der Sachverhalt selbst schon klar, aber was ich suche, ist ein Begrüdnung, warum die Zahlen logarithmisch verteilt sind.
(Eine Erklärung ähnlich dem zentralen Grenzwertsatz zum Beispiel.)

CU,

Frank.

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

…[wie von dir genannt] Diese Wahrscheinlichkeiten sind unter
der Annahme berechnet, dass die erste Nachkommastelle des
Logarithmus’ der ausgewählten Zahl eine auf dem Intervall
(0,1) gleichverteilte Zufallsvariable ist.

Das geht so nicht. Eine diskrete ZV kann nicht auf einem Inervall gleichverteilt sein.

Diese Zahlen sind einfach logarithmisch verteilt.
Beispielsweise sind auch die Bauelementwerte in der Elektronik
logarithmisch abgestuft, damit eben nicht die Differenz,
sondern das Verhältnis zweier nebeneinander liegender Werte
konstant ist.
Genau so kommen eben Zahlen z.B. in der Zeitung (was empirisch
auch stimmt) in etwa logarithmisch verteilt vor.

Aber warum das so ist, kann man sich auch klar machen. Das folgende habe ich nicht komplett bewiesen, müsste aber funktionieren.
Die gesuchte Zufallsvariable X sollte nicht von der Einheit abhängen, in der die Größen gemessen werden. Falls X auf {0,…,9} gleichverteilt ist, ist leicht einzusehen, dass 2X *nicht* mehr gleichverteilt ist. für jedes a>0 sind also aX und X identisch verteilt. Was fehlt, ist der Beweis, dass X dann logarithmisch verteilt ist.

Gruß,
Jan

1 „Gefällt mir“

…[wie von dir genannt] Diese Wahrscheinlichkeiten sind unter
der Annahme berechnet, dass die erste Nachkommastelle des
Logarithmus’ der ausgewählten Zahl eine auf dem Intervall
(0,1) gleichverteilte Zufallsvariable ist.

Das geht so nicht. Eine diskrete ZV kann nicht auf einem
Inervall gleichverteilt sein.

Das war ein Zitat.
Aber ich glaube der meinte tatsächlich nicht „erste Nachkommastelle“ sondern alle Nachkommastellen. a-floor(a)

Gibt sonst keinen Sinn.

Gruß