Hallo Michael,
Ich arbeite selbst in einem lingustischen Projekt mit, wo wir genau das machen. Wir berechnen die Abstände von Sprachen (und Dialekten) anhand ihrer lexikalisch-phonetischen Eigenschaften. Unser Projekt heißt ASJP (Automated Similarity Judgment Program) und die dazugehörige Webseite ist http://email.eva.mpg.de/~wichmann/ASJPHomePage.htm
Und so geht’s:
Man kann von einer Sprache nicht das gesamte Lexikon vergleichen, weil das sehr unterschiedlich ist (manche Sprachen haben kein Wort für „Schnee“, manche haben mehrere), außerdem wäre das viel zu viel. Deswegen muss man sich für einen kleineren Teil entscheiden. Es bietet sich da die sog. Swadesh-Liste an, eine Liste von Wörtern, die relativ kultur-unspezifisch sind, die selten entlehnt sind und in Sprachen selten durch andere Wörter ersetzt werden. Die Wörter sind allesamt ganz natürliche Dinge. Wir haben diese Liste noch weiter verkürzt auf die 40 stabilsten Wörter davon, das sind vor allem die Pronomen „ich“, „du“ und „wir“, die Zahlen „eins“ und „zwei“, das Wort „Person“, ein paar Tiere (Fisch, Hund, Laus), ein paar weitere natürliche Objekte (Baum, Blatt, Berg, Feuer, Wasser,z Sonne, Nacht), eine Reihe von Körperteilbezeichnungen, das Wort „Name“, dann noch 5 Verben (sehen, sterben, trinken, kommen, hören) und die beiden Adjektive „voll“ und „neu“. Diese Liste mit 40 Wörtern sammeln wir in allen Sprachen, die wir finden können. 5751 sind es wohl zurzeit, aber dazu gehören auch sehr viele Dialekte… das ist bei weitem die größte komparative Liste von Sprachdaten, die je gesammelt wurde.
Die 40 Wörter werden dann transkribiert in Lautschrift; man muss sich ja auf eine einheitliche Schreibung einigen.
Jetzt kommt der Computer zum Einsatz. Mit der so genannten Levenshtein-Distanz lässt sich der Abstand zweier Zeichenketten messen. Also wenn man von Wort A auf Wort B kommt, in dem man ein Zeichen löscht, ist die Levenshtein-Distanz genau 1 (abcd > abc = 1); muss man ein Zeichen hinzufügen, ist sie auch 1 (abc > abcd = 1); muss man ein Zeichen ändern, ist sie auch 1 (abcd > abed; = 1). Wenn man das für alle 40 Wörter macht, bekommt man die Distanz zwischen zwei Sprachen in Bezug auf diese 40 Wörter heraus.
Im Prinzip wäre das schon alles, Chinesisch und Deutsch hätten hier einen sehr sehr großen Abstand, während Deutsch und Niederländisch nur einen geringen Abstand haben.
Natürlich muss man hier noch etwas ausgleichen: manche Sprachen haben von Natur aus längere Wörter als andere, oder andere Sprachen haben nur ein sehr geringes Phoneminventar von 12 Lauten, während andere über 80 oder über 100 haben. Das wäre nicht gerecht, aber man kann das durch einige Modifikationen in der Formel ausgleichen. Auch eventuelle Lehnwörter kann man automatisch aufspüren und rausrechnen lassen (das ist aber sehr kompliziert und ich versteh das nicht so 100 %, weil sich da andere Linguisten in unserer Gruppe drum gekümmert haben)… es kommen da noch ein paar mehr Sachen hinzu, so dass man am Ende wirklich allein den lexikalisch-phonetischen Abstand berechnen kann und die Sprachen alle gerecht behandelt, auch wenn sie unterschiedliche Eigenschaften haben.
Der Abstand ist dann eine Zahl zwischen 0 und 1, glaube ich.
Das tolle kommt jetzt erst:
Also die Sprachen haben einen unterschiedlichen Abstand zueinander. Norwegisch und Schwedisch hätten vielleicht den Abstand .02, während Chinesisch und Deutsch den Abstand .83 hätte, vielleicht. Diese Zahlen sind nur ein Beispiel, habe sie mir ausgedacht, weil ich diese Zahlen im Projekt nie zu Gesicht bekomme (ich sammle vor allem Sprachdaten und transkribiere sie). Eigentlich sollte Chinesisch und Deutsch aufgrund seiner Unverwandtschaft natürlich den Abstand 1 haben (also komplett unverwandt), aber das ist praktisch unmöglich, weil der Zufall immer einige Wörter ähnlich aussehen lässt. Wir heißt auf Deutsch „wir“ und auf Chinesisch „women“; beide fangen zufällig mit „w“ an, das senkt den Abstand natürlich etwas.
Ein anderes Computerprogramm kann nun aus den Abständen aller Sprachen zueinander (bei 5751 Sprachen wären das über 16,5 Millionen Sprachpaare, wenn ich mich nicht verrechnet habe!) einen Baum erstellen. Einen Stammbaum, allerdings ohne Wurzel (da ja keine der erfassten Sprachen irgendwie „die Ursprache“ ist). Eng verwandte (lexikalisch-phonetisch ähnliche Sprachen) befinden sich auf benachbarten Ästen, weiter entfernte Sprachen eben auf weiter entfernten Ästen, die vom gleichen Ast ausgehen. Komplett unverwandte Sprachen sind dann eben auch sehr weit voneinander entfernt im Baum, an verschiedenen Enden, aber sie müssen natürlich irgendwo sein, auch wenn der Abstand nur 0.99 sein sollte. So sieht es aus, als wären alle Sprachen miteinander verwandt, aber das darf man so nicht sehen… (es ist eher unwahrscheinlich, dass alle menschlichen Sprachen von einer Ursprache abstammen).
Man kann dann toll sehen, wie z.B. alle romanischen Sprachen auf einem großen Büschel hängen, dazwischen auch Esperanto, die germanischen Sprachen auf einem anderen Büschel, dazwischen z.B. auch Kreolsprachen wie das Tok Pisin, Türkisch hängt weit entfernt auf einem ganz anderen Büschel, weil es mit den indo-europäischen Sprachen nicht verwandt ist. Manchmal gibt es „Ausreißer“, so kommt oftmals Albanisch oder Armenisch nicht bei den anderen indo-europäischen Sprachen raus, weil es so krasse Lautverschiebungen durchgemacht hat, dass unser Programm denkt, es sei eine völlig andere Sprache und dann gruppiert es Albanisch oder Armenisch manchmal sehr weit ab vom Schuss mit ein paar anderen sehr isolierten Sprachen, mit denen es garantiert nicht verwandt ist.
Also wenn die gemeinsame Wurzel von zwei Sprachen sehr sehr weit hinten liegt, ist die Wahrscheinlichkeit dann doch eher gering, dass sie wirklich verwandt sind.
Dieser „Weltbaum“ aller Sprachen (zu sehen z.B. hier: http://email.eva.mpg.de/%7Ewichmann/tree.pdf) ist kein Verwandtschafts oder Abstammungsbaum sondern zeigt nur die Ähnlichkeit der Sprachen. Aber er gibt – für eine automatisierte Methode – doch recht gut die verwandtschaftlichen Beziehungen wieder. Im Baum sind auch die Sprachfamilien jeweils markiert, da sieht man ungefähr, wie „gut“ das geht… angucken und bissl nach Sprachen suchen (Strg+F) lohnt sich! =)
Was ganz ähnliches lässt sich auch mit anderen Daten machen, z.B. mit typologischen Eigenschaften von Sprachen, also z.B. ob das Adjektiv vor oder nach dem Nomen steht, wie die Wortreihenfolge ist (SOV, SVO, VSO usw.), ob es ein Dezimalsystem hat oder was anderes, ob es mehr oder weniger als 5 Vokale gibt, ob es eine Tonsprache ist, und und und… dazu gibt es den WALS (World Atlas of Language Structures), inzwischen auch online verfügbar: http://wals.info/
Die dort gespeicherten Daten kann man ganz ähnlich wie oben erklärt auswerten und einen Baum erstellen. Irgendwer aus unserem Projekt hat auch das mal verglichen. Der Baum ist auch gut, aber zeigt die Verwandtschaft von Sprachen nicht so gut wie „unserer“ ASJP-Baum, offenbar weil sich die Eigenschaften von Sprachen schneller und stärker ändern als die Wörter.
So. Das war „kurz“ erklärt die Methode, die angewendet wird. Leider ist Lexikostatistik in der Sprachwissenschaft sehr umstritten und wird oft einfach abgetan, was auch irgendwie nachvollziehbar ist: man kann durch automatisierte Methoden keine perfekten Daten auf diese Weise bekommen — aber sie kann Wissenschaftlern helfen, die dann diese Daten auswerten.
Bei Fragen bin ich jederzeit fragbar! 
P.S.: Ich wünschte, ich könnte meine Magisterarbeit eben so schnell aus dem Handgelenk schütteln wie diese Erklärung grad. 