Hallo,
Die Varianz ist eine Eigenschaft von Daten. Sie ist definiert als
1/N * SUMME( (X-µ)² )
N = Anzahl der Werte
X = die Werte (X1, X2, X3… XN)
µ = Mittelwert von X
Oft kennt man nicht alle X, sondern hat nur eine Stichprobe und möchte anhand dieser kleinen Stichprobe schätzen wie die Varianz aller Werte aussehen würde. Tatsächlich unterschätzt diese nach obiger Formel berechnete Varianz die Varianz aller Werte.
Beispiel: Du hast eine 7. Schulklasse und du wiegst alle Kinder dieser Klasse, sagen 20 Kinder. Die Varianz des Gewichts der Kinder DIESER 7. Klasse mit genau DIESEN 20 Kindern hat eine Varianz, die sich nach der Formel oben berechnet (sagen wir, es sind 16 kg²). Meist interessier da einen aber nicht, sondern eigentlich will man wissen, in delchem Bereich das Gewicht von Siebtklässlern GENERELL so streut. Jetzt kennst du aber nicht das Gewicht aller Siebtklässler (der „Population“ oder „Grundgesamtheit“), sondern nur die dieser 20 Kinder. Würden wir behaupten, die Varianz aller Siebtklässler sei eben 16 kg², so würden wir diese Varianz unterschätzen.
Warum unterschätzen?
Die Varianz ist die mittlere quadr. Abweichung zum MITTELWERT. Das Problem an einer Stichprobe ist, dass man aus der selben Stichprobe auch schon den Mittelwert schätzen muß. Egal, wie viel Pech ich mit meiner Stichprobe habe: Der Mittelwert, den ich aus der Stichprobe berechne, liegt immer zentral in den Werten meiner Stichprobe (trivial!). D.h., es kann sein, dass ich eine Klasse erwische, die
(a) zu viele „zu leichte“ Kinder hat,
(b) zu viele „zu schwere“ Kinder hat,
© sowohl viele „zu schwere“ als auch „zu leichte“ Kinder hat und zu wenige Kinder nahe am Mittelwert aller Siebtklässler,
(d) zuwenige „zu leichte“ als auch „zu schwere“, dafür zu viele Kinder „mittleren Gewichts“ und schließlich
(e) Kinder mit einer Gewichtsverteilung, die der Verteilung aller Siebtkläßler ganz gut entspricht.
Wenn (e) zuträfe, wäre unsere Schätzung mit 16kg² gut. Für die Fälle (a), (b) und (d) wäre sie zu klein, und für den Fall © zu groß. Insgesamt ist es am Ende am wahrscheinlichsten, das die Schätzung zu klein sein wird.
Mathematisch läßt sich das so zeigen: http://www.math.uni-heidelberg.de/studinfo/oelschlae…
(Zum Begriff des Erwartungswertes E(X) siehe http://de.wikipedia.org/wiki/Erwartungswert).
Sumasumarum:
Der Stichprobenmittelwert ist ein erwartungstreuer Schätzer für den Populationsmittelwert (Mittelwert der Grundgesamtheit). Alles ist gut.
Die Varianz, berechnet aus einer Stichprobe, ist KEIN erwartungstreuer Schätzer. Der systematische Fehler ist abhängig vom Stichprobenumfang und kann durch Multiplikation mit dem Faktor n/(n-1) korrigiert werden. Die Größe
n/(n-1) * V(X) = n/(n-1) * 1/n*SUMME(X) = 1/(n-1)*SUMME(X)
nennen wir die Stichprobenvarianz. Sie ist nun ein erwartungstreuer Schätzer der Populationsvarianz.
Was ist nun richtig bzw. was ist richtiger?
1/(n-1)oder 1/n
Weil 1/(n-1) für große n gegen 1/n strebt, ist es bei großen n praktisch unerheblich, wie ich die Varianz berechne.
Wenn man die Varianz eine gegebenen Menge an Werten BESCHREIBEN will, dann ist 1/n richtiger.
Wenn man die Varianz einer Population anhand einer Sitchprobe SCHÄTZEN will, dann ist 1/(n-1) richtiger.
So einfach ist das 
Ich freue micht auf eine belebte Diskussion mit hoffentlich
positivem Ergebnis 
Da gibt es nix zu diskutieren. „Dasisso“, wie ein ehemaliger Kanzler gerne gesagt hat 
VG
Jochen