Maß für Abstand von Sprachen

michael_f7f5bc · 26. Mai 2012 um 19:46

hi,
kennt jemand ein einigermaßen seriöses „maß“ für den abstand von sprachen? eine zahl (o.ä., vielleicht ein vektor), die sagt, wie sehr 2 sprachen miteinander verwandt sind.

???

ich hab ein bisschen recherchiert, aber nichts gefunden.

ich denk, es müsste doch möglich sein, die verwandtschaft von sprachen auch irgendwie als maß zu erfassen.
man könnte das systemlinguistisch machen: da müssten dann ähnlichkeiten in phonologie, morphologie, syntax und vokabular einfließen.
man könnte es auch pragmalinguistisch aufziehen: wie leicht / schwer ist es, einen text der anderen sprache zu lesen, zu verstehen? wie viel aufwand ist eine übersetzung?

das könnte sich auch auf dialekte innerhalb einer sprache und auf varietäten von sprachen beziehen.

beispiel: ich denk, der abstand zwischen deutsch (standard) und niederländisch ist geringer als der zwischen deutsch und englisch. der abstand zu schwyzerdütsch ist noch etwas geringen - aber nur wenig. der abstand des niederländischen zum englischen ist vermutlich etwas größer als zum deutschen - aber nur wenig.
also schätzungsweise:
D / E: 10
D / NL: 6
NL / E: 8
D / CH: 5

???

m.

regreb · 27. Mai 2012 um 12:40

Hi,

ich weiss nicht ob das hier das richtige Unterforum ist. Aber trotzdem mal so ein paar wilde Gedanken:

* Die Länge eines Vektors kann durch die Bildung eines Skalarproduktes bestimmt werden (s. lineare Algebra).

* Wenn alle Sätze von zwei Sprachen gleich sind ist der Abstand 0. Anstatt von allen Sätzen könnte man versuchen einen Menge von repräsentativen Zufallssätzen zu finden. Und diese dann in die unterschiedlichen Sprachen übersetzen, vielleicht unter Verwendung der international Lautschrift.

* Dann müsste man eine geeignete Definition der Differenz und des Skalarprodukts zweier Sätze finden.

* Für die Lautsymbole der Lautschrift müsste man wahrscheinlich auch ein Ähnlichkeitmass finden. Einige Schwierigkeiten, aber vermutlich alle lösbar.

* Und vermutlich wurde das Problem schon angegangen, da müsstest Du mal die Linguistische Literatur wälzen …

Gr uß
r

miezekatze · 27. Mai 2012 um 13:01

Hi,

wir haben diese Frage mal gestellt in einem Seminar zur slavistischen Sprachwissenschaft.

Die Frage läßt sich nicht beantworten, da Verständlichkeit von vielen veschiedenen Faktoren abhängt, und die Veränderung von Sprachen ein fließender Prozess ist - man hat immer nur Momentaufnahmen.
Zwei Sprachen mögen sich in Wortstämmen sehr ähnlich sein, aber in der Grammatik große Unterschiede aufweisen - verändert das gleich die Verständlichkeit?
In jedem Verwendungsbereich hat eine beliebige Sprache verschiedenen Wortschatz, das Deutsche ist da keine Ausnahme: guck dir hier das Medizinbrett an, ie viele Leute wollen da befunde erklärt habn.
Wie sehr unterscheiden dich Dialekte einer Srache voneinander - das ist meist deutlicher als der Unterschied zu einer anderen Sprache.
Überhaupt - was ist „Sprache“? (Auch idese Diskussion wurde hier schon geführt). Sprache ist im wesntlichen DEfiniionssache: das Slowakische und das Tschechische (heute 2 erschiedene Sprachen, in den Achtzigern noch Dialekte einer Sprache) unterschiden sich im wesentlichen durch 1-2 Laute voneinander, der Unterschied im Wortschatz wird im wesentlichen durch politischen Willen vorangetrieben (ich entschuldige mich für die sehr große Verallgemeinerung). Da sind die Unterschiede im Deutschen Sprachraum wesentlich gravierender: man muss gar nicht den Unterschied zwischen Plattdeutsch und Bairisch hernehmen, es reicht der zwischen dem Sächsichen im Meißner und Leipziger Raum.

Man muss sich also zuerst fragen, was man unter dem Begriff „Sprache“ versteht, dann muss man klären, wie man „Ähnlichkeit“ definiert, und dann erst solltem man sich fragen, obv man den Unterschied messen will - und erst ganz zum Schluss, wie man das denn anstellen will.
(lat. discus „Scheibe“ wurde zu dt. Tisch, Diskus und engl. disc, und das Engl. disc ist wieder ins Deutsche gekommen. lat. tabzula wurde dt. Tafel und engl table. Wie ähnlich ist das?)

die Franzi

Reinhard_Kern_4bc529 · 27. Mai 2012 um 15:05

Zwei Sprachen mögen sich in Wortstämmen sehr ähnlich sein,
aber in der Grammatik große Unterschiede aufweisen - verändert
das gleich die Verständlichkeit?

Hallo Franzi,

dazu fällt mir sofort Joda von den Jedis ein - gleiche Worte, Satzbau verkehrt herum (Sprache ist Sprache, selbst eine erfundene). Die Verständlichkeit leidet darunter kaum, aber die meisten Linguisten würden das als grossen Unterschied ansehen, schon weil sich solche Strukturen viel zäher ändern als Worte.

Ich entschuldige mich für die totale Unwissenschaftlichkeit…

Gruss Reinhard

Andr_M_ller · 27. Mai 2012 um 15:35

Hallo Michael,
Ich arbeite selbst in einem lingustischen Projekt mit, wo wir genau das machen. Wir berechnen die Abstände von Sprachen (und Dialekten) anhand ihrer lexikalisch-phonetischen Eigenschaften. Unser Projekt heißt ASJP (Automated Similarity Judgment Program) und die dazugehörige Webseite ist http://email.eva.mpg.de/~wichmann/ASJPHomePage.htm

Und so geht’s:
Man kann von einer Sprache nicht das gesamte Lexikon vergleichen, weil das sehr unterschiedlich ist (manche Sprachen haben kein Wort für „Schnee“, manche haben mehrere), außerdem wäre das viel zu viel. Deswegen muss man sich für einen kleineren Teil entscheiden. Es bietet sich da die sog. Swadesh-Liste an, eine Liste von Wörtern, die relativ kultur-unspezifisch sind, die selten entlehnt sind und in Sprachen selten durch andere Wörter ersetzt werden. Die Wörter sind allesamt ganz natürliche Dinge. Wir haben diese Liste noch weiter verkürzt auf die 40 stabilsten Wörter davon, das sind vor allem die Pronomen „ich“, „du“ und „wir“, die Zahlen „eins“ und „zwei“, das Wort „Person“, ein paar Tiere (Fisch, Hund, Laus), ein paar weitere natürliche Objekte (Baum, Blatt, Berg, Feuer, Wasser,z Sonne, Nacht), eine Reihe von Körperteilbezeichnungen, das Wort „Name“, dann noch 5 Verben (sehen, sterben, trinken, kommen, hören) und die beiden Adjektive „voll“ und „neu“. Diese Liste mit 40 Wörtern sammeln wir in allen Sprachen, die wir finden können. 5751 sind es wohl zurzeit, aber dazu gehören auch sehr viele Dialekte… das ist bei weitem die größte komparative Liste von Sprachdaten, die je gesammelt wurde.
Die 40 Wörter werden dann transkribiert in Lautschrift; man muss sich ja auf eine einheitliche Schreibung einigen.

Jetzt kommt der Computer zum Einsatz. Mit der so genannten Levenshtein-Distanz lässt sich der Abstand zweier Zeichenketten messen. Also wenn man von Wort A auf Wort B kommt, in dem man ein Zeichen löscht, ist die Levenshtein-Distanz genau 1 (abcd > abc = 1); muss man ein Zeichen hinzufügen, ist sie auch 1 (abc > abcd = 1); muss man ein Zeichen ändern, ist sie auch 1 (abcd > abed; = 1). Wenn man das für alle 40 Wörter macht, bekommt man die Distanz zwischen zwei Sprachen in Bezug auf diese 40 Wörter heraus.
Im Prinzip wäre das schon alles, Chinesisch und Deutsch hätten hier einen sehr sehr großen Abstand, während Deutsch und Niederländisch nur einen geringen Abstand haben.
Natürlich muss man hier noch etwas ausgleichen: manche Sprachen haben von Natur aus längere Wörter als andere, oder andere Sprachen haben nur ein sehr geringes Phoneminventar von 12 Lauten, während andere über 80 oder über 100 haben. Das wäre nicht gerecht, aber man kann das durch einige Modifikationen in der Formel ausgleichen. Auch eventuelle Lehnwörter kann man automatisch aufspüren und rausrechnen lassen (das ist aber sehr kompliziert und ich versteh das nicht so 100 %, weil sich da andere Linguisten in unserer Gruppe drum gekümmert haben)… es kommen da noch ein paar mehr Sachen hinzu, so dass man am Ende wirklich allein den lexikalisch-phonetischen Abstand berechnen kann und die Sprachen alle gerecht behandelt, auch wenn sie unterschiedliche Eigenschaften haben.
Der Abstand ist dann eine Zahl zwischen 0 und 1, glaube ich.

Das tolle kommt jetzt erst:
Also die Sprachen haben einen unterschiedlichen Abstand zueinander. Norwegisch und Schwedisch hätten vielleicht den Abstand .02, während Chinesisch und Deutsch den Abstand .83 hätte, vielleicht. Diese Zahlen sind nur ein Beispiel, habe sie mir ausgedacht, weil ich diese Zahlen im Projekt nie zu Gesicht bekomme (ich sammle vor allem Sprachdaten und transkribiere sie). Eigentlich sollte Chinesisch und Deutsch aufgrund seiner Unverwandtschaft natürlich den Abstand 1 haben (also komplett unverwandt), aber das ist praktisch unmöglich, weil der Zufall immer einige Wörter ähnlich aussehen lässt. Wir heißt auf Deutsch „wir“ und auf Chinesisch „women“; beide fangen zufällig mit „w“ an, das senkt den Abstand natürlich etwas.
Ein anderes Computerprogramm kann nun aus den Abständen aller Sprachen zueinander (bei 5751 Sprachen wären das über 16,5 Millionen Sprachpaare, wenn ich mich nicht verrechnet habe!) einen Baum erstellen. Einen Stammbaum, allerdings ohne Wurzel (da ja keine der erfassten Sprachen irgendwie „die Ursprache“ ist). Eng verwandte (lexikalisch-phonetisch ähnliche Sprachen) befinden sich auf benachbarten Ästen, weiter entfernte Sprachen eben auf weiter entfernten Ästen, die vom gleichen Ast ausgehen. Komplett unverwandte Sprachen sind dann eben auch sehr weit voneinander entfernt im Baum, an verschiedenen Enden, aber sie müssen natürlich irgendwo sein, auch wenn der Abstand nur 0.99 sein sollte. So sieht es aus, als wären alle Sprachen miteinander verwandt, aber das darf man so nicht sehen… (es ist eher unwahrscheinlich, dass alle menschlichen Sprachen von einer Ursprache abstammen).
Man kann dann toll sehen, wie z.B. alle romanischen Sprachen auf einem großen Büschel hängen, dazwischen auch Esperanto, die germanischen Sprachen auf einem anderen Büschel, dazwischen z.B. auch Kreolsprachen wie das Tok Pisin, Türkisch hängt weit entfernt auf einem ganz anderen Büschel, weil es mit den indo-europäischen Sprachen nicht verwandt ist. Manchmal gibt es „Ausreißer“, so kommt oftmals Albanisch oder Armenisch nicht bei den anderen indo-europäischen Sprachen raus, weil es so krasse Lautverschiebungen durchgemacht hat, dass unser Programm denkt, es sei eine völlig andere Sprache und dann gruppiert es Albanisch oder Armenisch manchmal sehr weit ab vom Schuss mit ein paar anderen sehr isolierten Sprachen, mit denen es garantiert nicht verwandt ist.
Also wenn die gemeinsame Wurzel von zwei Sprachen sehr sehr weit hinten liegt, ist die Wahrscheinlichkeit dann doch eher gering, dass sie wirklich verwandt sind.
Dieser „Weltbaum“ aller Sprachen (zu sehen z.B. hier: http://email.eva.mpg.de/%7Ewichmann/tree.pdf) ist kein Verwandtschafts oder Abstammungsbaum sondern zeigt nur die Ähnlichkeit der Sprachen. Aber er gibt – für eine automatisierte Methode – doch recht gut die verwandtschaftlichen Beziehungen wieder. Im Baum sind auch die Sprachfamilien jeweils markiert, da sieht man ungefähr, wie „gut“ das geht… angucken und bissl nach Sprachen suchen (Strg+F) lohnt sich! =)

Was ganz ähnliches lässt sich auch mit anderen Daten machen, z.B. mit typologischen Eigenschaften von Sprachen, also z.B. ob das Adjektiv vor oder nach dem Nomen steht, wie die Wortreihenfolge ist (SOV, SVO, VSO usw.), ob es ein Dezimalsystem hat oder was anderes, ob es mehr oder weniger als 5 Vokale gibt, ob es eine Tonsprache ist, und und und… dazu gibt es den WALS (World Atlas of Language Structures), inzwischen auch online verfügbar: http://wals.info/
Die dort gespeicherten Daten kann man ganz ähnlich wie oben erklärt auswerten und einen Baum erstellen. Irgendwer aus unserem Projekt hat auch das mal verglichen. Der Baum ist auch gut, aber zeigt die Verwandtschaft von Sprachen nicht so gut wie „unserer“ ASJP-Baum, offenbar weil sich die Eigenschaften von Sprachen schneller und stärker ändern als die Wörter.

So. Das war „kurz“ erklärt die Methode, die angewendet wird. Leider ist Lexikostatistik in der Sprachwissenschaft sehr umstritten und wird oft einfach abgetan, was auch irgendwie nachvollziehbar ist: man kann durch automatisierte Methoden keine perfekten Daten auf diese Weise bekommen — aber sie kann Wissenschaftlern helfen, die dann diese Daten auswerten.

Bei Fragen bin ich jederzeit fragbar!

André

P.S.: Ich wünschte, ich könnte meine Magisterarbeit eben so schnell aus dem Handgelenk schütteln wie diese Erklärung grad.

michael_f7f5bc · 27. Mai 2012 um 15:49

hi,

wir haben diese Frage mal gestellt in einem Seminar zur
slavistischen Sprachwissenschaft.

freut mich, dass nicht nur mich das interessiert.

Die Frage läßt sich nicht beantworten, da Verständlichkeit von
vielen veschiedenen Faktoren abhängt, und die Veränderung von
Sprachen ein fließender Prozess ist - man hat immer nur
Momentaufnahmen.

eh klar.

Zwei Sprachen mögen sich in Wortstämmen sehr ähnlich sein,
aber in der Grammatik große Unterschiede aufweisen - verändert
das gleich die Verständlichkeit?

sehr interessante frage. wütde drauf hinauslaufen, dass im abstandsvektor die lexikonkoordinate fast gleich sind, aber die grammatikkoordinaten (morphologie, syntax) verschieden sind.

[…]

Überhaupt - was ist „Sprache“? (Auch idese Diskussion wurde
hier schon geführt). Sprache ist im wesntlichen
DEfiniionssache: das Slowakische und das Tschechische (heute 2
erschiedene Sprachen, in den Achtzigern noch Dialekte einer
Sprache) unterschiden sich im wesentlichen durch 1-2 Laute
voneinander, der Unterschied im Wortschatz wird im
wesentlichen durch politischen Willen vorangetrieben (ich
entschuldige mich für die sehr große Verallgemeinerung).

danke für die info; ist mir so neu.

[…]

Man muss sich also zuerst fragen, was man unter dem Begriff
„Sprache“ versteht, dann muss man klären, wie man
„Ähnlichkeit“ definiert, und dann erst solltem man sich
fragen, obv man den Unterschied messen will - und erst ganz
zum Schluss, wie man das denn anstellen will.

eh. klar. seh ich auch so. aber vielleicht hats ja schon wer getan.

(lat. discus „Scheibe“ wurde zu dt. Tisch, Diskus und engl.
disc, und das Engl. disc ist wieder ins Deutsche gekommen.
lat. tabzula wurde dt. Tafel und engl table. Wie ähnlich ist
das?)

vielen dank.
(*)

m.

michael_f7f5bc · 27. Mai 2012 um 16:06

hi,

Hallo Michael,
Ich arbeite selbst in einem lingustischen Projekt mit, wo wir
genau das machen. Wir berechnen die Abstände von Sprachen (und
Dialekten) anhand ihrer lexikalisch-phonetischen
Eigenschaften. Unser Projekt heißt ASJP (Automated Similarity
Judgment Program ) und die dazugehörige Webseite ist
http://email.eva.mpg.de/~wichmann/ASJPHomePage.htm

wow! hätt nicht gedacht, dass ich mit meiner frage an die grenze der wissenschaft stoße.

ihr probiert also einen systemlinguistischen ansatz. spielt grammatik (morphologie, syntax) dabei eine rolle?

Und so geht’s:
Man kann von einer Sprache nicht das gesamte Lexikon
vergleichen, weil das sehr unterschiedlich ist (manche
Sprachen haben kein Wort für „Schnee“, manche haben mehrere),
außerdem wäre das viel zu viel. Deswegen muss man sich für
einen kleineren Teil entscheiden. Es bietet sich da die sog.
Swadesh-Liste an, eine Liste von Wörtern, die relativ
kultur-unspezifisch sind, die selten entlehnt sind und in
Sprachen selten durch andere Wörter ersetzt werden. Die Wörter
sind allesamt ganz natürliche Dinge. Wir haben diese Liste
noch weiter verkürzt auf die 40 stabilsten Wörter davon, das
sind vor allem die Pronomen „ich“, „du“ und „wir“, die Zahlen
„eins“ und „zwei“, das Wort „Person“, ein paar Tiere (Fisch,
Hund, Laus), ein paar weitere natürliche Objekte (Baum, Blatt,
Berg, Feuer, Wasser,z Sonne, Nacht), eine Reihe von
Körperteilbezeichnungen, das Wort „Name“, dann noch 5 Verben
(sehen, sterben, trinken, kommen, hören) und die beiden
Adjektive „voll“ und „neu“. Diese Liste mit 40 Wörtern sammeln
wir in allen Sprachen, die wir finden können. 5751 sind es
wohl zurzeit, aber dazu gehören auch sehr viele Dialekte…
das ist bei weitem die größte komparative Liste von
Sprachdaten, die je gesammelt wurde.
Die 40 Wörter werden dann transkribiert in Lautschrift; man
muss sich ja auf eine einheitliche Schreibung einigen.

die 40 wörter sind ein sehr wichtiger nebeneffekt. eine art generischer grundwortschatz. wie das teflon der raumfahrt.

Jetzt kommt der Computer zum Einsatz. Mit der so genannten
Levenshtein-Distanz lässt sich der Abstand zweier
Zeichenketten messen. Also wenn man von Wort A auf Wort B
kommt, in dem man ein Zeichen löscht, ist die
Levenshtein-Distanz genau 1 (abcd > abc = 1); muss man ein
Zeichen hinzufügen, ist sie auch 1 (abc > abcd = 1); muss man
ein Zeichen ändern, ist sie auch 1 (abcd > abed; = 1). Wenn
man das für alle 40 Wörter macht, bekommt man die Distanz
zwischen zwei Sprachen in Bezug auf diese 40 Wörter heraus.
Im Prinzip wäre das schon alles, Chinesisch und Deutsch hätten
hier einen sehr sehr großen Abstand, während Deutsch und
Niederländisch nur einen geringen Abstand haben.
Natürlich muss man hier noch etwas ausgleichen: manche
Sprachen haben von Natur aus längere Wörter als andere, oder
andere Sprachen haben nur ein sehr geringes Phoneminventar von
12 Lauten, während andere über 80 oder über 100 haben. Das
wäre nicht gerecht, aber man kann das durch einige
Modifikationen in der Formel ausgleichen. Auch eventuelle
Lehnwörter kann man automatisch aufspüren und rausrechnen
lassen (das ist aber sehr kompliziert und ich versteh das
nicht so 100 %, weil sich da andere Linguisten in unserer
Gruppe drum gekümmert haben)… es kommen da noch ein paar
mehr Sachen hinzu, so dass man am Ende wirklich allein den
lexikalisch-phonetischen Abstand berechnen kann und die
Sprachen alle gerecht behandelt, auch wenn sie
unterschiedliche Eigenschaften haben.
Der Abstand ist dann eine Zahl zwischen 0 und 1, glaube ich.

hochinteressant!

Das tolle kommt jetzt erst:
Also die Sprachen haben einen unterschiedlichen Abstand
zueinander. Norwegisch und Schwedisch hätten vielleicht den
Abstand .02, während Chinesisch und Deutsch den Abstand .83
hätte, vielleicht. Diese Zahlen sind nur ein Beispiel, habe
sie mir ausgedacht, weil ich diese Zahlen im Projekt nie zu
Gesicht bekomme (ich sammle vor allem Sprachdaten und
transkribiere sie).

hab ich auch gemacht. vor 25 jahren.

Eigentlich sollte Chinesisch und Deutsch
aufgrund seiner Unverwandtschaft natürlich den Abstand 1 haben
(also komplett unverwandt), aber das ist praktisch unmöglich,
weil der Zufall immer einige Wörter ähnlich aussehen lässt.
Wir heißt auf Deutsch „wir“ und auf Chinesisch „women“; beide
fangen zufällig mit „w“ an, das senkt den Abstand natürlich
etwas.
Ein anderes Computerprogramm kann nun aus den Abständen aller
Sprachen zueinander (bei 5751 Sprachen wären das über 16,5
Millionen Sprachpaare, wenn ich mich nicht verrechnet habe!)
einen Baum erstellen. Einen Stammbaum, allerdings ohne Wurzel
(da ja keine der erfassten Sprachen irgendwie „die Ursprache“
ist). Eng verwandte (lexikalisch-phonetisch ähnliche Sprachen)
befinden sich auf benachbarten Ästen, weiter entfernte
Sprachen eben auf weiter entfernten Ästen, die vom gleichen
Ast ausgehen.

ich frage mich, ob nicht das netz das bessere bild wäre als der baum. netze haben gegenüber bäumen schleifen und nicht per se einen ausgezeichneten punkt („wurzel“)

Komplett unverwandte Sprachen sind dann eben
auch sehr weit voneinander entfernt im Baum, an verschiedenen
Enden, aber sie müssen natürlich irgendwo sein, auch wenn der
Abstand nur 0.99 sein sollte. So sieht es aus, als wären alle
Sprachen miteinander verwandt, aber das darf man so nicht
sehen… (es ist eher unwahrscheinlich, dass alle menschlichen
Sprachen von einer Ursprache abstammen).
Man kann dann toll sehen, wie z.B. alle romanischen Sprachen
auf einem großen Büschel hängen, dazwischen auch Esperanto,
die germanischen Sprachen auf einem anderen Büschel,
dazwischen z.B. auch Kreolsprachen wie das Tok Pisin, Türkisch
hängt weit entfernt auf einem ganz anderen Büschel, weil es
mit den indo-europäischen Sprachen nicht verwandt ist.

etwas, was ich mir schon lange wünsche.

Manchmal gibt es „Ausreißer“, so kommt oftmals Albanisch oder
Armenisch nicht bei den anderen indo-europäischen Sprachen
raus, weil es so krasse Lautverschiebungen durchgemacht hat,
dass unser Programm denkt, es sei eine völlig andere Sprache
und dann gruppiert es Albanisch oder Armenisch manchmal sehr
weit ab vom Schuss mit ein paar anderen sehr isolierten
Sprachen, mit denen es garantiert nicht verwandt ist.

baskisch?

Also wenn die gemeinsame Wurzel von zwei Sprachen sehr sehr
weit hinten liegt, ist die Wahrscheinlichkeit dann doch eher
gering, dass sie wirklich verwandt sind.
Dieser „Weltbaum“ aller Sprachen (zu sehen z.B. hier:
http://email.eva.mpg.de/%7Ewichmann/tree.pdf) ist kein
Verwandtschafts oder Abstammungsbaum sondern zeigt nur die
Ähnlichkeit der Sprachen. Aber er gibt – für eine
automatisierte Methode – doch recht gut die
verwandtschaftlichen Beziehungen wieder. Im Baum sind auch die
Sprachfamilien jeweils markiert, da sieht man ungefähr, wie
„gut“ das geht… angucken und bissl nach Sprachen suchen
(Strg+F) lohnt sich! =)

Was ganz ähnliches lässt sich auch mit anderen Daten machen,
z.B. mit typologischen Eigenschaften von Sprachen, also z.B.
ob das Adjektiv vor oder nach dem Nomen steht, wie die
Wortreihenfolge ist (SOV, SVO, VSO usw.),

das wären grammatische ansätze

ob es ein
Dezimalsystem hat oder was anderes,

das wär eher was semantisches, meine ich.

ob es mehr oder weniger

als 5 Vokale gibt, ob es eine Tonsprache ist, und und und…
dazu gibt es den WALS (World Atlas of Language Structures),
inzwischen auch online verfügbar: http://wals.info/
Die dort gespeicherten Daten kann man ganz ähnlich wie oben
erklärt auswerten und einen Baum erstellen. Irgendwer aus
unserem Projekt hat auch das mal verglichen. Der Baum ist auch
gut, aber zeigt die Verwandtschaft von Sprachen nicht so gut
wie „unserer“ ASJP-Baum, offenbar weil sich die Eigenschaften
von Sprachen schneller und stärker ändern als die Wörter.

So. Das war „kurz“ erklärt die Methode, die angewendet wird.
Leider ist Lexikostatistik in der Sprachwissenschaft sehr
umstritten und wird oft einfach abgetan, was auch irgendwie
nachvollziehbar ist: man kann durch automatisierte Methoden
keine perfekten Daten auf diese Weise bekommen — aber sie kann
Wissenschaftlern helfen, die dann diese Daten auswerten.

super. vielen dank! (*)

Bei Fragen bin ich jederzeit fragbar!

André

P.S.: Ich wünschte, ich könnte meine Magisterarbeit eben so
schnell aus dem Handgelenk schütteln wie diese Erklärung grad.

/

naja: vielleicht kannst du’s irgendwo einbauen.

idee dazu: man könnte euren systemlinguistischen ansatz mit pragmalinguistischen erhebungen ergänzen / konterkarieren. wie groß wird der abstand von sprachen empfunden? stimmt das mit den systemlinguistischen befunden überein?

jedenfalls fühle ich mich wahrlich gut informiert und weitergebracht. danke!

m.

miezekatze · 27. Mai 2012 um 16:41

Hi,

dass im abstandsvektor die lexikonkoordinate fast gleich sind, aber die grammatikkoordinaten (morphologie, syntax) verschieden sind.

Ich hatte da eine Frage gestellt und keine Aussage getroffen. Denn je nachdem, welche Sprachen man vergleicht, verändern sich Grammatik und Wortschatz - ob aber sich die Verständlichkeit in gleichem Maße verändert, steht auf einem anderen Blatt. Sprachliche Veränderungen entstehen zwar teilweise systemtisch, aber im Großen und Ganzen willkürlich.

die Franzi

miezekatze · 27. Mai 2012 um 16:52

Hi,

natürlich ist das ein interessantes Spielchen, aber mit dieser extremen Reduktion auf 40 Wörter (deren Gründe ich verstehe) stellt sich doch aber die Frage nach der Sinnhaftigkeit der Ergebnisse. Selbst der Wortschatz der romanischen Sprachen beträgt das Tausendfache.
Wiederum hat man mit der Reduktion auf 40 Wörter gleich die Probleme der mathematischen Erfassung von Sprache aus dem Weg geräumt - allerdings ohne sie zu lösen.
Ein großes Problem bleibt für mich auch, das der Computer nicht erkennen kann, welche Ähnlichkeiten Zufall und welche Absicht sind, wie man an dem dt. - chin. Beispiel sieht.
Aber am meisten wird die Aussagekraft der ERgebnisse wohl dadurch beeinflusst, dass pragmatische, grammatische und phonologische Aspekte außer Acht gelassen werden. Z.B. kann ich niederlkändische Texte recht gut verstehen, wenn ich sie lese - aber beim Hören bin ich chancenlos

Wiederum muss man natürlich irgendwo mal angfangen, … totzdem stellt sich mir die Frage nach dem Sinn. Brauche ich einen Computer, um festzustellen, das Türkisch mit den indoeuropäischen Sprachen nicht verwqndt ist und dass armenisch und albanisch, obwohl indoeuropäisch, durch Sprachwandel ziemlich entstellt sind?

die Franzi

miezekatze · 27. Mai 2012 um 17:00

Hi,

die 40 wörter sind ein sehr wichtiger nebeneffekt. eine art generischer grundwortschatz. wie das teflon der raumfahrt.

sie sind weder generisch, noch das Teflon der Sprachwissenschaft: sie sind willkürlich.

Komplett unverwandte Sprachen sind dann eben auch sehr weit ::voneinander entfernt im Baum, […] Türkisch
hängt weit entfernt auf einem ganz anderen Büschel, weil es
mit den indo-europäischen Sprachen nicht verwandt ist.

etwas, was ich mir schon lange wünsche.

Was wünschst du dir schon lange? Etwas, dass dir zeigt dass Türkisch mit em indoeuropäischen Sprachraum nicht verwandt ist? Od3er einen Baum, der die Verwandtschaftsverhältnisse anzeigt? Alles gibt es schon dolle lange, Grundwissen, erstes Semester Sprachwissenschaft:
http://upload.wikimedia.org/wikipedia/commons/4/4f/I…

zu finden unter:

http://de.wikipedia.org/wiki/Indogermanische_Sprachen

Türkisch:

http://de.wikipedia.org/wiki/T%C3%BCrkisch

gehört zu:

http://de.wikipedia.org/wiki/Turksprachen

Welche Sprache mit welcher verwanft ist und seit wann eine Sprache existiert ist recht gut erforscht.

die Franzi

michael_f7f5bc · 27. Mai 2012 um 17:10

Hi,

die 40 wörter sind ein sehr wichtiger nebeneffekt. eine art generischer grundwortschatz. wie das teflon der raumfahrt.

sie sind weder generisch, noch das Teflon der
Sprachwissenschaft: sie sind willkürlich.

versteh ich anders.

Komplett unverwandte Sprachen sind dann eben auch sehr weit ::voneinander entfernt im Baum, […] Türkisch
hängt weit entfernt auf einem ganz anderen Büschel, weil es
mit den indo-europäischen Sprachen nicht verwandt ist.

etwas, was ich mir schon lange wünsche.

Was wünschst du dir schon lange? Etwas, dass dir zeigt dass
Türkisch mit em indoeuropäischen Sprachraum nicht verwandt
ist?

nein. das weiß ich.

Od3er einen Baum, der die Verwandtschaftsverhältnisse
anzeigt? Alles gibt es schon dolle lange, Grundwissen, erstes
Semester Sprachwissenschaft:
http://upload.wikimedia.org/wikipedia/commons/4/4f/I…

mir gehts halt nicht nur um verwandtschaft, sondern um ein maß dafür.
die verwandtschaften sind mir schon in etwa bekannt.

m.

Andr_M_ller · 27. Mai 2012 um 17:36

ihr probiert also einen systemlinguistischen ansatz. spielt
grammatik (morphologie, syntax) dabei eine rolle?

Also bei unserem Projekt spielen Syntax und Morphologie eigentlich keine Rolle. Eigentlich nur die Phonetik (die Daten werden soweit es geht auch phonetisch, nich phonemisch transkribiert) und eben die Lexik.

die 40 wörter sind ein sehr wichtiger nebeneffekt. eine art
generischer grundwortschatz. wie das teflon der raumfahrt.

Ja genau. Es wurde in einer Unterstudie gezeigt, dass 40 Wörter (das sind ja überraschend wenige, ne?) wirklich ausreichen. Nimmt man mehr Wörter, z.B. 100, wird der Aufwand größer (es dauert mehr als doppelt so lange schon die Daten zu suchen!), aber das Ergebnis wird eigentlich kaum besser. Wir haben da eine Kurve abgebildet mit der Anzahl der Wörter von 10 bis 100 oder so, und sie steigt ab etwa 40 praktisch nicht mehr an.

ich frage mich, ob nicht das netz das bessere bild wäre als
der baum. netze haben gegenüber bäumen schleifen und nicht per
se einen ausgezeichneten punkt („wurzel“)

Ja, wir arbeiten z.T. auch mit phylogenetischen Netzen. Da kann man z.T. wirklich mehr sehen. Aber die ganzen 5000 Sprachen die wir haben, lassen sich nur schwer in einem Netz darstellen, weil das sehr unübersichtlich wird. Also beides hat seine Vorteile. Für manche Untersuchungen, die man dann später machen kann, sind die Netze wirklich besser, da hast du Recht.

Manchmal gibt es „Ausreißer“, so kommt oftmals Albanisch oder
Armenisch nicht bei den anderen indo-europäischen Sprachen
raus, weil es so krasse Lautverschiebungen durchgemacht hat,
dass unser Programm denkt, es sei eine völlig andere Sprache
und dann gruppiert es Albanisch oder Armenisch manchmal sehr
weit ab vom Schuss mit ein paar anderen sehr isolierten
Sprachen, mit denen es garantiert nicht verwandt ist.

baskisch?

In dem Fall war es Nivchisch, ich hab vorhin mal geguckt. Das ist eine isolierte Sprache in Sibirien. Die Wörter scheinen zwischen den Sprachen halt zufällig einen µ ähnlicher zu sein als z.B. zwischen Albanisch und… was halt nach Standardansichten am nächsten damit verwandt ist (vllt. Griechisch oder Armenisch oder so). Achja, lustigerweise ist auch Griechisch ein ziemlicher Ausreißer; es findet sich auf einem laaaaaaangen Ast mit einer afrikanischen (nilo-saharanischen) Sprache namens Langa. Offenbar sind beide Sprachen relativ unähnlich in diesen Wörter zu ihren Verwandten, dafür aber zufällig einander ähnlich. Das statistische Rauschen kann da in solchen Fällen größer sein als die eigentliche Verwandtschaft.

Baskisch findet sich im „Weltbaum“ übrigens auch an einer komischen Stelle (aber wo sonst sollte es sein; wir kennen ja keine Verwandten davon): Zusammen mit „Kariri Xoco“ (eine Macro-Gé-Sprache aus Brasilien) und zwei Sprachen aus der Torres-Straße, was in Papua-Neuguinea liegt. Tja.
Wäre Baskisch irgendwie mit den kaukasischen Sprachen oder mit Burushaski oder so zusammengekommen, hätten einige Leute sich in ihren Theorien sicher bestätigt gefühlt.

Was ganz ähnliches lässt sich auch mit anderen Daten machen,
z.B. mit typologischen Eigenschaften von Sprachen, also z.B.
ob das Adjektiv vor oder nach dem Nomen steht, wie die
Wortreihenfolge ist (SOV, SVO, VSO usw.),

das wären grammatische ansätze

ob es ein
Dezimalsystem hat oder was anderes,

das wär eher was semantisches, meine ich.

Genau, ja. Die typologischen Daten im WALS sind aus verschiedenen Bereichen. Da gibt es Features aus der Phonologie, Syntax, Morphologie und auch aus der Semantik. Sogar 2 oder 3 die Lexik betreffend. Man könnte die auch einzeln untersuchen in Bezug auf die Sprachen im WALS, das wäre kein Problem, an sich. Da könnte man vllt. sehen, dass syntaktische Eigenschaften in Sprachfamilien stabiler sind als semantische oder phonologische… Das ist jetzt nur ein willkürliches Beispiel.

Viele Grüße,

André

Andr_M_ller · 27. Mai 2012 um 17:44

Welche Sprache mit welcher verwanft ist und seit wann eine
Sprache existiert ist recht gut erforscht.

Leider nur bei einigen Sprachfamilien, Franzi. Fürs Indo-Europäische, oder die Turksprachen, oder fürs Finno-Ugrische können wir ganz gut sagen, was dazugehört und wie der Stammbaum aufgebaut ist, wann sich was wovon abgespalten hat usw.
Das ist leider nicht für alle Sprachfamilien möglich. Schon bei den sino-tibetischen Sprachen (von denen ja ein großer Teil gut erforscht ist) kann man das schwer sagen, v.a. bei Chinesisch.
Bei Austronesisch, wo man kein Experte sein muss, um zu sehen, dass diese Sprachen alle verwandt sind (nach etwa 500 abgetippten Listen dieser Sprachen hatte ich das Gefühl, ich könnte mir die Proto-Sprache selbst mal schnell herleiten), ist es doch schwierig, die genaue Struktur zu analysieren. Auch der Weg der Ausbreitung ist nicht immer ganz klar.
Und wenn man Sprachen in Südamerika betrachtet, oder die auf Papua-Neuguinea, wird alles noch viel unklarer und verwaschener, weil die eben nicht so gut erforscht sind.
Also die Methode gibt’s schon lange, früher hat man mit der Hand gerechnet, heute eben mit Computern.

Oh. Und die Liste mit den 40 Wörtern ist wie gesagt nicht willkürlich. Es sind eben genau die stabilsten 40 Wörter, die mehrere Kriterien erfüllen, sie eignen sich daher optimal, oder jedenfalls besser als andere Wörter. Semantisch gesehen erscheinen sie natürlich schon willkürlich, weil die 40 Wörter an sich kein System zu bilden scheinen. Es sind halt nicht die Zahlen von 1–40 oder eine Sammlung von 40 Körperteilbezeichnungen.

Gruß,

André

Andr_M_ller · 27. Mai 2012 um 18:15

natürlich ist das ein interessantes Spielchen, aber mit dieser
extremen Reduktion auf 40 Wörter (deren Gründe ich verstehe)
stellt sich doch aber die Frage nach der Sinnhaftigkeit der
Ergebnisse. Selbst der Wortschatz der romanischen Sprachen
beträgt das Tausendfache.

Ja, wie gesagt, die Reduktion auf 40 Wörter hat gute Gründe. Eine beliebig höhere Anzahl macht das Ergebnis nicht entscheidend besser. Ob man 100, 400 oder 4000 Wörter benutzt, das Ergebnis wäre am Ende wahrscheinlich keine 5 % besser. Möglicherweise sogar im Gegenteil, da sich seltenere Wörter auch häufiger ändern. Ein Wort wie „Nacht“ oder „zwei“ erkennt man mit bloßem Auge in fast allen IE-Sprachen wieder. Bei größeren Wortlisten hätte man plötzlich seltenere Wörter dabei, vielleicht das Wort für Tisch (man bedenke, das viele Kulturen keine Tische kennen), da fielen mir spontan schon mal Wortwurzeln wie tisk-, tabl-, mesa-, trapez- ein, die unverwandt sind. Sie laufen auch Gefahr, Lehnwörter zu sein… das ist bei den 40 Wörtern nur selten der Fall. Im Englischen gehören „die“ und „mountain“ dazu. Eine weitere Gefahr ist, dass bei 100+ Wörtern die Anzahl der fehlenden Wörter größer ist, da nicht für alle Sprachen der Welt so große Listen existieren. Wir haben nur Sprachen aufgenommen, bei denen mindestens 70 % der 40 Wörter gefunden werden konnten. Bei 100 oder 400 Wörtern flöge bestimmt die Hälfte der Sprachen raus. Nähme man sie rein, würde das natürlich das Ergebnis verfälschen, weil eher die Grundbegriffe zu finden wären als eher seltenere Wörter wie „Tisch“.
Also die Auswahl der Wörter und die Beschränkung auf diese geringe Anzahl hat gute Gründe, die anfangs anfechtbar erscheinen, aber bei näherer Untersuchung logisch und nachvollziehbar sind.
Die übliche Kritik an der Lexikostatistik setzt eher am anderen Ende an, nämlich an der Auswertbarkeit. Was kann man rauslesen, und was nicht.

Wiederum hat man mit der Reduktion auf 40 Wörter gleich die
Probleme der mathematischen Erfassung von Sprache aus dem Weg
geräumt - allerdings ohne sie zu lösen.

Sprachen sind nicht in ihrer Gänze mathematisch erfassbar und vergleichbar, daher braucht man auf so eine Lösung nicht zu hoffen.

Ein großes Problem bleibt für mich auch, das der Computer
nicht erkennen kann, welche Ähnlichkeiten Zufall und welche
Absicht sind, wie man an dem dt. - chin. Beispiel sieht.
Aber am meisten wird die Aussagekraft der ERgebnisse wohl
dadurch beeinflusst, dass pragmatische, grammatische und
phonologische Aspekte außer Acht gelassen werden. Z.B. kann
ich niederlkändische Texte recht gut verstehen, wenn ich sie
lese - aber beim Hören bin ich chancenlos

Das erkennt der Computer in der Tat nicht. Aber tut das der Mensch? Der Mensch ist z.T. besser in der Mustererkennung, und ein Experte kennt gut die Verläufe von Sprachwandelprozessen, kann also sehen, was Zufall ist und was nicht. Allerdings sind Menschen auch sehr voreingenommen. Wer eine Verwandtschaft zweier Sprachen wittert (z.B. Finno-Ugrisch und Sumerisch, eine ungarische Sprach"wissenschaftler" sind da sehr fleißig drin), findet überall abstruse Ähnlichkeiten. Du kennst vielleicht die Diskussionen hier im Brett über die vaskonische Theorie.
Ein Computer kann da objektive Wahrscheinlichkeiten ausgeben, die man dann als Mensch trotzdem noch interpretieren kann. Also computing vs. eyballing — beides hat seine Vor- und Nachteile. Daher denke ich, dass beides eher zusammenarbeiten sollte als gegeneinander. Solche Ähnlichkeitsbäume sind vor allem Werkzeuge oder Hinweisschilder, die mit Vorsicht zu genießen sind. Aber sie dienen auch nicht nur dazu, verwandtschaftliche Strukturen zu erkennen. Man kann auch anderes damit tun.

Wiederum muss man natürlich irgendwo mal angfangen, …
totzdem stellt sich mir die Frage nach dem Sinn. Brauche ich
einen Computer, um festzustellen, das Türkisch mit den
indoeuropäischen Sprachen nicht verwqndt ist und dass
armenisch und albanisch, obwohl indoeuropäisch, durch
Sprachwandel ziemlich entstellt sind?

Dazu sicher nicht. Aber kannst du oder irgendein Sprachwissenschaftler mir aus dem Effeff sagen, welche Sprache dem Baskischen lexikalisch am ähnlichsten ist? Aus der Antwort kann man dann mit weiteren Kenntnissen schließen, ob diese Antwort sinnvoll ist. Es geht hier ja kaum um Binsenweisheiten wie die Beispiele, die du grad nanntest, sondern schon eher um detailliertere Strukturen und auch exotischere Sprachverwandtschaften (wenn man mal auf dieser Schiene bleiben möchte). Einige der isolierten Sprachen Südamerikas kamen im ASJP-Baum irgendwann mal recht nahe zusammen. Möglich, dass nicht alle diese Ähnlichkeiten jemals in Betracht gezogen wurden.

Und wie gesagt: die zufälligen Ähnlichkeiten unverwandter Sprachen gehen meist im statistischen Rauschen unter, d.h. sie sind statistisch nicht signifikant.

Gruß,

André

miezekatze · 27. Mai 2012 um 22:18

Hi,

jetzt verstehe ich, warum ihr das macht. Aber das hat ja nichts mit Abstand zu tun, wie Michael es formulierte, sondern mehr mit dem Woher. So verstehe zumindest ich Michael, dass er wissen will, wie weit voneinander entfernt Sprachen sind, das heißt, wie sehr sich die Sprecher der beiden Sprachen untereinander verstehen, ohne die jeweils andere Sprache gelernt zu haben. Eine solche Aussage kann das Programm ja nur bedingt treffen, weil man dafür doch schon Aussprache und mehr Wortschatz und die Grammatik braucht.

Genau kann uns aber nur Michael sagen, was er will.

die Franzi

michael_f7f5bc · 27. Mai 2012 um 23:17

hi,

wie sehr sich die Sprecher der beiden Sprachen
untereinander verstehen, ohne die jeweils andere Sprache
gelernt zu haben. Eine solche Aussage kann das Programm ja nur
bedingt treffen, weil man dafür doch schon Aussprache und mehr
Wortschatz und die Grammatik braucht.

Genau kann uns aber nur Michael sagen, was er will.

michael freut sich besondes über das interesse, das seine frage gefunden hat und das offenbar andere menschen mit ihm teilen. ja, er hätte gern ein maß, mit dem man gegenseitige verständlichkeit bzw. verstehbarkeit beschreiben kann. „ja, die verstehen sich ganz gut, die haben ja sprachlich nur wenig abstand …“ die methode, die andré beschrieben hat, erscheint ihm vielversprechend, über die bloße historische „verwandtschaft“ in stammbäumen hinaus. ja, neben einem systemlinguistisch definierten maß auf der basis von phonologie und lexikon (grammatik erscheint ihm nicht ganz so relevant) hält er auch geenseitige einschätzungen für interessant, obwohl es an sich schwierig ist, einschätzungen von A gegenüber B mit einschätzungen von C gegenüber D zu vergleichen. ja, er ist sich darüber im klaren, dass einschätzungen einschätzungen sind und keine systemlinguistischen gegebenheiten.

jedenfalls, franzi und andré: vielen dank!

m.

miezekatze · 27. Mai 2012 um 23:31

Hi,

ja, er hätte gern ein maß, mit dem man gegenseitige verständlichkeit bzw. verstehbarkeit beschreiben kann.

Dann hatte ich dich ja richtig verstanden.

Jedoch hat das:

"ja, die verstehen sich ganz gut,

nur wenig damit zu tun:

die haben ja sprachlich nur wenig abstand …"

die methode, die andré beschrieben hat, erscheint ihm vielversprechend,

Das mag Dir so erscheinen - sie hat aber nicht die Aufgabe deine Fragestellung zu beantworten, weil sich die Sprachwissenschaft (und hier denke ich, wirklich) einig ist, dass gegenseitige Verständlichkeit von so vielen individuellen, von der Person und der Situaton abhängigen Faktoren abhängt, dass man das einfach nciht messen kann.

die Franzi

michael_f7f5bc · 28. Mai 2012 um 11:39

hi,

ja, er hätte gern ein maß, mit dem man gegenseitige verständlichkeit bzw. verstehbarkeit beschreiben kann.

Dann hatte ich dich ja richtig verstanden.

Jedoch hat das:

"ja, die verstehen sich ganz gut,

nur wenig damit zu tun:

die haben ja sprachlich nur wenig abstand …"

wenig is ned nix.
aber ich glaub das nicht. ich denke schon, dass gegenseitige verstehbarkeit etwas mit dem „abstand“ von sprachen zu tun hat, wenngleich ich mittelerweile denke, dass eine zahl als abstand vermutlich deutlich zu simpel ist. abstände sind vermutlich so was wie vektoren, die man natürlich „normieren“ könnte, was im bereich der sprache aber doch starke bewertungen enthält. (wie bewertet man phonologische differenzen gegenüber lexikalischen oder gar grammatischen?)

die methode, die andré beschrieben hat, erscheint ihm vielversprechend,

Das mag Dir so erscheinen - sie hat aber nicht die Aufgabe
deine Fragestellung zu beantworten,

des, waun i les, is ma wuascht. ich hab da auch keinen auftrag vergeben.

weil sich die
Sprachwissenschaft (und hier denke ich, wirklich) einig ist,
dass gegenseitige Verständlichkeit von so vielen
individuellen, von der Person und der Situaton abhängigen
Faktoren abhängt, dass man das einfach nciht messen kann.

eh, klar ist gegenseitige verständlichkeit (und schon gar gegenseitiges verständnis) von vielen faktoren abhängig. sprachlicher abstand ist nur einer davon. ich habe schon situationen erlebt, wo auf der basis starker emotionaler beziehung verständlichkeit zwischen (sprecherInnen von) dialekten mit großem abstand gut möglich war.
deswegen hab ich oben auch von verstehbarkeit geschrieben.

aber seiswiessei: für mich war die diskussion sehr interessant und ich hab aus ihr einiges entnommen, was mich gedanklich weiterbringt.

mich würde es interessieren, fundierte einschätzungen über folgende „abstände“ zu haben:
deutsch - österreichisches deutsch
deutsch - niederländisch
deutsch - englisch
tschechisch - slowakisch
tschechisch - polnisch
serbisch - kroatisch - bosnisch
italienisch - spanisch
spanisch - portugiesisch
spanisch - katalanisch
spanisch - französisch
französisch - katalanisch
russisch - polnisch
russisch - ukrainisch
bulgarisch - mazedonisch
schwedisch - norwegisch
schwedisch - dänisch
dänisch - deutsch
schwedisch - deutsch
finnisch - ungarisch
türkisch - aserbaidschanisch - usbekisch
arabisch in verschiedensten schattierungen von marokko bis irak

usw. usf.

und da wären systemlinguistische „abstände“ genau so interessant wie empfundene.

m.

Andr_M_ller · 28. Mai 2012 um 13:51

Hallo,
Ich knüpf mal hier an, ne?

Klar ist eine Einschätzung der gegenseitigen Verständlichkeit (mutual intelligibility oder auch Interintelligibilität, toller Zungenbrecher!) eine sehr subjektive Sache und nicht komplett objektiv messbar. Ich denke, der ASJP-Baum ließe sich auch nur bedingt auf einen imaginären Verständigungsbaum projezieren, aber es wäre ein Ansatz, natürlich.
Die Sprachen, die im Baum sehr nah beieinander sind, d.h. auch auf kurzen Ästen verbunden, dürften auch gegenseitig recht leicht verständlich sein. Der Abstand zwischen zwei Sprachen in Bezug auf Aussprache der 40 Wörter ist gleich dem Abstand, wenn man die Linien verfolgt, also wenn man die Äste entlanggeht. Glaube ich.
Die 40 Wörter sind nun natürlich nicht ohne weiteres repräsentativ, doch hat man da immerhin einen Ansatz. Es ist ein Teil des Lexikons, und wenigstens die phonetischen Untscherschiede dürften mehr oder weniger repräsentativ sein (siehe Junggrammatiker und die Eigenheit von Lautwandelprozessen).

Doch ist gegenseitige Verständlichkeit auch nicht immer symmetrisch. Man sagt, ein Portugiese versteht einen Spanier viel besser als andersrum. Das ist auch nachvollziehbar, wenn man die beiden Sprachen etwas kennt… im erstellten Baum hätten sie natürlich den gleichen Abstand.

Aber ASJP will ja auch nicht die gegenseitige Verständlichkeit ausdrücken, sondern – und da muss ich Franzi widersprechen – den tatsächlichen Abstand der Sprachen untereinander. Abstand im phonetischen Sinne. Ein objektives Maß, kein subjektives. Insofern kann ich also deine [Michaels] Ausgangsfrage natürlich nur bedingt beantworten, da ich eben nur damit dienen kann, welchen phonetisch-lexikalischen Abstand die Sprachen in Bezug auf diese 40 Grundwörter haben.

aber ich glaub das nicht. ich denke schon, dass gegenseitige
verstehbarkeit etwas mit dem „abstand“ von sprachen zu tun
hat, wenngleich ich mittelerweile denke, dass eine zahl als
abstand vermutlich deutlich zu simpel ist.

Genau, da stimme ich dir zu. Würde man wirklich versuchen, objektiv die Verständlichkeit messen zu wollen (was meiner Meinung nach nicht möglich ist), müsste man Wortstellung, Morphologie usw. mit einbeziehen. Aber das ist auch abhängig vom Individuum, denn manche würden sich von seltsamer Wortstellung sehr verwirren lassen, während anderen das nichts ausmacht.
Ich denke, für ein wirkliches Maß an gegenseitiger Verständlichkeit müsste man irgendwie eine großangelegte und klug ausgewertete Umfrage vorbereiten. Dann müsste man einsprachige Personen zu verschiedenen Sprachen befragen, da sie sonst ja vorbeeinflusst sind, und so weiter… schwierig.

die methode, die andré beschrieben hat, erscheint ihm vielversprechend,

Das mag Dir so erscheinen - sie hat aber nicht die Aufgabe
deine Fragestellung zu beantworten,

Naja, indirekt schon. Die Frage war ja nach dem Abstand. Die habe ich beantwortet. Man kann daraus nicht unbedingt die gegenseitige Verständlichkeit schließen, aber zumindest ist es eine Methode, den Abstand von Sprachen zu bestimmen. Ich hatte mit den WALS-Daten ja dann auch noch eine zweite Methode gegeben. Andere Forschergruppen hatten übrigens auch schon eine ähnliche Methode wie wir angewandt und den Abstand (als Baum bzw. Netz) von – ich glaube – den indo-europäischen Sprachen bestimmt. Andere haben das vor Jahren auch manuell getan, z.B. kenn ich eine Studie, die genau das für die Sprachen Vanuatus tat. Die lexikalischen Daten sind nun auch in unserer Studie einverleibt, das hat mich glaub 'ne Woche gekostet, damals.

mich würde es interessieren, fundierte einschätzungen über
folgende „abstände“ zu haben:

Da kann ich halt wie gesagt nur den ASJP-Abstand geben. Irgendwo kann man den genauen Zahlenwert rauslesen. Ich denke gerade übrigens, dass man mit einem Lineal doch nicht auf die Lösung kommt, das funktioniert wohl nur bei phylogenetischen Netzen. Aber ich denke, vielleicht kommt man mit der Messung des Abstandes der beiden Sprachen von ihrer gemeinsamen Wurzel weiter, also vom Mutterknoten. Wenn ich da mal kurz unwissenschaftlich grob messe, krieg ich folgende Entfernung auf meinem Bildschirm (Österreichisch haben wir leider nicht):

deutsch - niederländisch

= 73 mm

deutsch - englisch

= 90 mm

tschechisch - slowakisch

= 38 mm

tschechisch - polnisch

= 60 mm

serbisch - kroatisch - bosnisch

= 25 mm

italienisch - spanisch

= 88 mm *

spanisch - portugiesisch

= 88 mm *

spanisch - katalanisch

= 88 mm *

spanisch - französisch

= 96 mm

französisch - katalanisch

= 96 mm

russisch - polnisch

= 70 mm *

russisch - ukrainisch

= 75 mm *

bulgarisch - mazedonisch

= 37 mm

schwedisch - norwegisch

= 61 mm *

schwedisch - dänisch

= 61 mm *

dänisch - deutsch

= 83 mm *

schwedisch - deutsch

= 83 mm *

finnisch - ungarisch

= 107 mm

türkisch - aserbaidschanisch - usbekisch

= 92 mm *

arabisch in verschiedensten schattierungen von marokko bis
irak

= 71 mm

Beim Durchgucken habe ich jetzt gemerkt, dass das so nicht gehen kann. Die Sternchen markieren jetzt mal die Punkte, wo der bloße Abstand zum Mutterknoten keine Aussage treffen kann, weil das Maß entweder bei verschieden verwandten Sprachen gleich ist, oder aber weil es zu groß ist. Im Prinzip habe ich nur abgemeßen, wie lange zurück die Aufspaltung der jeweiligen Sprachen (bzw. deren größeren Untergruppen) liegt. Das ist wohl nicht dasselbe.
Also diese eben genannten Zahlen bitte nicht überbewerten. Ich müsste wohl wirklich in die Datenbank gehen und dort die Werte für die Abstände auslesen…

Gruß,

André

michael_f7f5bc · 28. Mai 2012 um 15:43

hi,
so wenig das „so gehen kann“ und so vorsichtig man sein muss: ich find, die abstände stimmen zu einem guten teil gut mit meinen erfahrungen (wo ich welche habe) und ihren bewertungen überein.
ich finds faszinierend; weit mehr als ich mit meiner ersten frage zu träumen gewagt habe.
wann ist denn die publikation eurer ergebnisse geplant?

interessant für mich auch die beobachtung unsymmetrischer abstände, was verstehbarkeit betrifft. wenn portugiesen spanier eher verstehen als umgekehrt, kann das auch mit pragmatischen faktoren zusammenhängen, meine ich. es ist für portugiesen aufgrund der geographischen lage und aufgrund der bevölkerungszahlen vermutlich wichtiger spanisch zu verstehen als umgekehrt. insofern wird eine einschätzungsuntersuchung nie dasselbe liefern wie eine systemlinguistische; es spielen halt andere faktoren wesentliche rollen. aber da sind wir uns eh einig.

m.