Buchstabenverteilungen europeischer Sprachen

Manuel_Marsch · 9. Oktober 2000 um 15:23

Hi,

suche fuer alle europaische Sprachen die Buchstabenhaeufigkeitsverteilung, wie oft welcher Buchstaben durchschnittlich in laengeren Texten vorkommt?

Wer kann mir helfen.

Bei erfolgreicher Hilfe winkt Geldpraemie.

Viele Gruesse

MANU

Eve_d333e1 · 9. Oktober 2000 um 17:42

Hallo Manuel,

nachfolgend ein link für Deutsch, bei den anderen Sprachen muss ich leider passen:wink:

http://www.qsl.net/dk5ke/morse.html

Gruss
Eve*

PS: der Tipp war umsonst…*lach*

Anonym · 10. Oktober 2000 um 09:37

So etwas wird meist in Foren diskutiert, die sich mit Kryptographie beschäftigen. Die Beispiele, die ich gefunden habe, sind zwar schon etwas älter, aber im Prinzip dürfte sich nichts geändert haben. Zuerst die Verteilung für Englisch, ermittelt an Hand von Dickens’ „A Tale of Two Cities“:
Newsgroups: sci.crypt
From: [email protected] (Karl Hahn)
Subject: Frequency of Letters
Organization: Loral Data Systems
Date: Thu, 4 Aug 1994 21:41:25 GMT

English Letter Usage Statistics using as a sample, _A Tale of Two Cities_ by Charles Dickens (with Roman Numeral chapter numbers removed).

Total letter count = 586747

Letter use frequencies:
E: 72881 12.4%
T: 52397 8.9%
A: 47072 8.0%
O: 45116 7.6%
N: 41316 7.0%
I: 39710 6.7%
H: 38334 6.5%
S: 36770 6.2%
R: 35946 6.1%
D: 27487 4.6%
L: 21479 3.6%
U: 16218 2.7%
M: 14928 2.5%
W: 13835 2.3%
C: 13223 2.2%
F: 13152 2.2%
G: 12121 2.0%
Y: 11849 2.0%
P: 9452 1.6%
B: 8163 1.3%
V: 5044 0.8%
K: 4631 0.7%
-: 2327 0.3%
': 1168 0.1%
Q: 655 0.1%
X: 637 0.1%
J: 623 0.1%
Z: 213 0.0%

Total doubled letter count = 14421

Doubled letter frequencies:
LL: 2979 20.6%
EE: 2146 14.8%
SS: 2128 14.7%
OO: 2064 14.3%
TT: 1169 8.1%
RR: 1068 7.4%
–: 701 4.8%
PP: 628 4.3%
FF: 430 2.9%
NN: 301 2.0%
CC: 243 1.6%
MM: 207 1.4%
DD: 201 1.3%
GG: 99 0.6%
BB: 41 0.2%
ZZ: 13 0.0%
AA: 2 0.0%
HH: 1 0.0%

Total initial letters = 135664
Initial letter frequencies:
T: 20665 15.2%
A: 15564 11.4%
H: 11623 8.5%
W: 9597 7.0%
I: 9468 6.9%
S: 9376 6.9%
O: 8205 6.0%
M: 6293 4.6%
B: 5831 4.2%
C: 4962 3.6%
F: 4843 3.5%
D: 4701 3.4%
L: 4044 2.9%
P: 3654 2.6%
N: 3108 2.2%
R: 2775 2.0%
Y: 2388 1.7%
E: 2283 1.6%
G: 2207 1.6%
U: 1549 1.1%
K: 858 0.6%
V: 692 0.5%
J: 474 0.3%
Q: 306 0.2%
': 119 0.0%
-: 77 0.0%
Z: 2 0.0%

Total ending letters = 135759
Ending letter frequencies:
E: 26439 19.4%
D: 17313 12.7%
S: 14737 10.8%
T: 13685 10.0%
N: 10525 7.7%
R: 9491 6.9%
Y: 7915 5.8%
O: 6226 4.5%
F: 5133 3.7%
G: 4463 3.2%
H: 3579 2.6%
A: 3080 2.2%
L: 2948 2.1%
M: 2594 1.9%
I: 1922 1.4%
W: 1518 1.1%
U: 1439 1.0%
K: 1434 1.0%
P: 811 0.5%
C: 145 0.1%
': 142 0.1%
-: 140 0.1%
X: 42 0.0%
B: 32 0.0%
Z: 4 0.0%
J: 2 0.0%

Top 250 digraphs:
TH: 17783
HE: 17226
IN: 10783
ER: 10172
AN: 9974
RE: 8139
ND: 7793
HA: 6611
ON: 6464
OU: 6418
ED: 6217
AT: 6200
EN: 5849
HI: 5730
TO: 5703
IS: 5566
NG: 5564
IT: 5559
OR: 4915
AS: 4836
AR: 4826
ES: 4502
ST: 4365
OF: 4341
NE: 4185
TE: 4137
SE: 4119
VE: 3748
EA: 3667
ME: 3595
LE: 3427
DE: 3261
NT: 3060
AD: 3057
LL: 2979
WA: 2954
RO: 2908
TI: 2897
NO: 2896
BE: 2876
AL: 2720
HO: 2718
UR: 2685
WI: 2579
RI: 2578
LO: 2498
CO: 2367
WH: 2363
LI: 2344
OW: 2340
CH: 2309
AI: 2298
CE: 2283
MA: 2280
OT: 2258
EL: 2233
OM: 2225
EE: 2146
SS: 2128
SO: 2127
OO: 2064
FO: 2037
UT: 2034
IM: 2024
YO: 2020
UN: 1976
RA: 1906
ET: 1902
GE: 1893
SH: 1883
SI: 1862
WE: 1859
IL: 1811
PE: 1802
US: 1795
LY: 1785
GH: 1771
SA: 1746
ID: 1702
LA: 1689
DO: 1678
LD: 1657
KE: 1597
CA: 1596
TR: 1585
IO: 1580
MO: 1580
RS: 1575
AC: 1566
AY: 1545
UL: 1540
RY: 1485
NC: 1478
EM: 1468
PR: 1461
IC: 1434
IG: 1434
IE: 1430
IR: 1412
TA: 1395
FA: 1385
WO: 1365
MI: 1329
DI: 1326
AV: 1308
RT: 1300
AM: 1285
OS: 1283
NS: 1264
HT: 1198
PO: 1188
TT: 1169
EC: 1168
PA: 1158
EV: 1129
EY: 1076
SU: 1071
RR: 1068
OL: 1067
DA: 1058
NI: 1057
FE: 1033
BL: 1015
BU: 1015
CT: 1013
IF: 1007
FR: 963
EF: 932
FI: 923
RN: 923
RD: 911
AG: 898
OP: 889
TS: 871
NA: 836
EI: 835
UP: 834
SP: 827
OK: 824
UG: 806
GO: 799
TL: 781
EP: 774
MY: 770
TU: 761
UC: 750
PL: 744
CR: 734
CI: 732
BA: 729
OD: 714
AB: 708
YE: 707
BO: 706
–: 701
GA: 693
GR: 681
IV: 678
TY: 676
AK: 675
CK: 672
VI: 671
BR: 670
AP: 667
DS: 666
‚S: 663
QU: 655
MR: 642
KN: 641
PP: 628
WN: 618
KI: 615
RU: 610
OV: 603
BY: 594
OC: 586
DR: 585
MP: 583
PI: 539
UI: 520
LF: 519
RG: 519
CL: 506
NY: 506
EX: 488
OI: 487
MU: 468
UE: 465
AW: 458
FT: 452
HR: 447
CU: 442
RM: 440
FU: 439
AU: 437
NK: 431
FF: 430
EW: 428
MS: 424
HU: 417
LU: 413
OA: 408
PU: 405
GL: 393
GI: 391
TW: 390
SC: 385
N‘: 381
RK: 377
LS: 361
UM: 358
IA: 338
YS: 337
AF: 333
MB: 323
IK: 315
RL: 314
RC: 307
GU: 306
DY: 303
NN: 301
UA: 294
E-: 289
FL: 286
VA: 285
OB: 285
UB: 282
SK: 266
SL: 265
UD: 259
NF: 259
RV: 259
EU: 253
IB: 252
LT: 252
VO: 245
CC: 243
EG: 240
GN: 238
SW: 238
PS: 235
PT: 230
'T: 224
DL: 223
DU: 211
NL: 207
MM: 207
GS: 203
DD: 201
SM: 201

Jetzt die Häufigkeitsverteilung für verschiedene westeuropäische Sprachen ermittelt mit Unix „grep“:

Date: Tue, 24 May 94 17:47:30 BS5.593, 5.555 Letter frequency information – NOTICE OF ERROR
From: „Henry S. Thompson“
Subject: 5.593, 5.555 Letter frequency information – NOTICE OF ERROR

Many thanks to Penni Sibun for noticing the anomaly she reported in 5.593. In fact in my message dated Sun, 15 May 94 23:11:52 BST in 5.555 ALL THE COUNTS (except Danish and Swedish) ARE IN ERROR, as a result of a classic UN*X goof, i.e. that in using grep to get the text lines from the corpora, I got file-names (hence the high count for / which Penni noticed) and line numbers on every line!

Many apologies to anyone led astray by the bogus numbers, a better set follows.
(I don’t dare say a CORRECT set at this point – buy the CD and do your own checking! Orders to [email protected].)

The following was computed quickly [TOO quickly, the first time–ht] on the basis of some of the material now available on the Multilingual Corpus 1 CD-ROM from the European Corpus Initiative. Note these are raw counts, and that in particular the counts for the upper-case characters have NOT been folded in.

Also note that ISO-8859-1 (ISO Latin 1) has been used throughout, so the third column will not have survived being mailed through 7-bit mailers.
[Note this answers Penni’s second question – we believe no escape
sequences remain in the corpora as distributed, all have been
converted to ISO Latin 1]

[Wrt Penni’s third question, these are raw counts, and ^J is included
just as is – it would be misleading to merge those counts
without checking first that none of the sub-corpora I’ve counted over include line-final soft hyphens, which I haven’t done, although I don’t THINK there are any.]

Dutch German English
37312899 bytes total: 60009192 bytes total: 15803864 bytes total:
char code char code char code
dec oct char count dec oct char count dec oct char count
101 \145 e 5525869 101 \145 e 7608479 32 \40 sp 2472774
32 \40 sp 5011391 32 \40 sp 6912597 101 \145 e 1515990
110 \156 n 2935636 110 \156 n 4627187 116 \164 t 1204028
97 \141 a 2216489 114 \162 r 3635022 97 \141 a 956007
105 \151 i 1975708 105 \151 i 3591895 111 \157 o 951382
116 \164 t 1963544 116 \164 t 2936208 110 \156 n 894681
114 \162 r 1921217 97 \141 a 2636054 105 \151 i 865061
111 \157 o 1739080 115 \163 s 2596653 115 \163 s 731842
100 \144 d 1583389 100 \144 d 2063950 114 \162 r 723496
115 \163 s 1221229 104 \150 h 1947435 104 \150 h 658534
108 \154 l 1118443 117 \165 u 1795680 100 \144 d 450392
103 \147 g 945101 108 \154 l 1738965 108 \154 l 410549
10 \12 ^J 773499 10 \12 ^J 1622880 99 \143 c 352905
118 \166 v 734867 103 \147 g 1345448 109 \155 m 305783
107 \153 k 671580 99 \143 c 1239132 117 \165 u 303818
104 \150 h 667855 111 \157 o 1238644 10 \12 ^J 285088
109 \155 m 660578 109 \155 m 1121373 102 \146 f 259597
117 \165 u 580741 98 \142 b 826480 112 \160 p 216147
112 \160 p 442242 102 \146 f 730349 103 \147 g 201047
98 \142 b 436117 46 \56 . 594979 98 \142 b 195540

French Italian Spanish
38021456 bytes total: 2469488 bytes total: 13958952 bytes total:
char code char code char code
dec oct char count dec oct char count dec oct char count
32 \40 sp 5361058 32 \40 sp 345678 32 \40 sp 1965055
101 \145 e 4131518 105 \151 i 223913 101 \145 e 1409861
115 \163 s 2335470 101 \145 e 217182 97 \141 a 1231944
97 \141 a 2272281 97 \141 a 203107 111 \157 o 878141
110 \156 n 2267706 111 \157 o 177112 105 \151 i 792062
105 \151 i 2225502 110 \156 n 139952 110 \156 n 787118
116 \164 t 2162710 116 \164 t 131164 115 \163 s 757648
114 \162 r 2027634 114 \162 r 127381 114 \162 r 678584
111 \157 o 1626766 108 \154 l 120421 108 \154 l 609150
117 \165 u 1609134 115 \163 s 95885 100 \144 d 597188
108 \154 l 1581308 99 \143 c 78309 116 \164 t 516170
100 \144 d 1256893 100 \144 d 76409 99 \143 c 500272
99 \143 c 981676 117 \165 u 55427 117 \165 u 355674
112 \160 p 814895 112 \160 p 53349 112 \160 p 248288
233 \351 i 782450 10 \12 ^J 48042 109 \155 m 243311
109 \155 m 757723 109 \155 m 47094 10 \12 ^J 234992
10 \12 ^J 636220 103 \147 g 31753 98 \142 b 189891
44 \54 , 419417 118 \166 v 28350 46 \56 . 126337
118 \166 v 396152 44 \54 , 22249 44 \54 , 121622
39 \47 ’ 348276 122 \172 z 20445 103 \147 g 108702

Danish Norwegian Swedish
153289 bytes total: 11658190 bytes total: 2055441 bytes total:
char code char code char code
dec oct char count dec oct char count dec oct char count
32 \40 sp 19648 32 \40 sp 2125882 32 \40 sp 316189
101 \145 e 18385 101 \145 e 1339855 101 \145 e 162444
114 \162 r 10590 110 \156 n 717039 97 \141 a 151823
116 \164 t 9123 116 \164 t 688487 116 \164 t 143871
110 \156 n 9101 114 \162 r 625776 110 \156 n 142849
105 \151 i 8443 97 \141 a 585927 114 \162 r 141769
115 \163 s 7671 115 \163 s 488037 115 \163 s 105005
97 \141 a 6592 105 \151 i 455922 105 \151 i 91171
111 \157 o 6580 100 \144 d 436354 108 \154 l 85919
100 \144 d 6216 108 \154 l 403734 100 \144 d 68517
108 \154 l 6014 111 \157 o 394917 111 \157 o 67460
103 \147 g 5303 103 \147 g 368560 109 \155 m 56034
109 \155 m 4306 107 \153 k 360533 103 \147 g 53521
107 \153 k 4018 10 \12 ^J 330461 107 \153 k 52427
102 \146 f 3457 109 \155 m 270585 118 \166 v 37356
10 \12 ^J 2878 118 \166 v 229530 228 \344 d 35293
118 \166 v 2759 104 \150 h 222695 102 \146 f 31486
117 \165 u 2049 46 \56 . 167689 104 \150 h 30990
112 \160 p 1886 229 \345 e 167028 117 \165 u 28861
46 \56 . 1650 117 \165 u 160796 229 \345 e 27498

Die Tabellen sind leider durch das „Cut and Paste“ etwas durcheinander geraten, aber die Hauptsache lässt sich wohl noch erkennen. Ich hoffe, das hilft erstmal.

Gruß
Manfred Kiefer

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Anonym · 10. Oktober 2000 um 14:36

Geldprämie?
also, da kannste ja viel geld sparen. ich sag dir wie:

such dir lange online.texte in den europäischen sprachen raus, du kannst auch mehrere hinternander hängen, und kopier sie in worddokumente. mit der suche-tausche-funktion A gegen irgendwas austauschen, das fenster teilt dir ja die anzahl der änderungen mit. musste mit diakritischen zeichen extra machen, aber die kriegst du, indem du immer denselben tauschvorgang wiederholst (A gegen %, B gegen % etc), zum Schluss schaust du dir im Text an, was noch ausser % übrig geblieben ist…
für einen ersten eindruck dürfte das reichen, oder?

dietmar

Renato · 11. Oktober 2000 um 09:23

Wusste ichs doch, dass das *ERNSTL* aus dem Glückrad kein Zufall ist…

Gruss
Renato