Hallo!
Die Logik dahinter ist die grundlegende Testtheorie.
Anhand der Werte aus einer Stichprobe berechnet man - wie auch immer! - eine sog. Prüfgröße. Diese Prüfgröße muss zwei Eigenschaften haben:
-
Sie muss möglicht alle wichtigen Charakteristika der Daten in einer Zahl zusammenfassen und
-
sie muss eine bekannte Verteilung unter H0 haben.
Nur als Beispiel zwischendurch: Für den (Zweistichproben-)t-Test wird die Prüfgröße „t“ berechnet aus dem Unterschied der Gruppenmittelwerte, geteilt durch den Standardfehler dieses Unterschieds. Wenn es in Wahrheit keinen Unterschied gibt (=H0) und die Gruppenmittelwerte normalverteilt sind, dann haben die t-Werte eine t-Verteilung (mit entsprechender Zahl von Freiheitsgraden). Das hat der guter Herr Gossett zusammen mit dem alten Herrn Pearson herausgefunden.
Damit läßt sich die Wahrscheinlichkeit ermitteln, mit welcher man eine Prüfgröße mit einem Wert mind. so extrem wie die beobachtete bekommen würde, wenn H0 zuträfe. Wenn diese Wahrscheinlichkeit („p-Wert“), sehr klein ist, hält man das Zutreffen der Nullhypothese für zu unwahrscheinlich („Wäre H0 war, dann hätten wir verdammt viel Pech haben müssen, eine mind. so große Prüfgröße aus unserer Stichprobe zu erhalten, wie wir sie nun haben“).
Zum Beispiel zurück, kann man anhand des t-Wertes und der t-Verteilung mit der gegebenen Anzahl Freiheitsgraden einen p-Wert ermitteln. Ist dieser sehr klein (zB. kleiner 0.05), würde man H0 ablehnen und behaupten, dass es Unterschiede in den Gruppenmittelwerten gibt.
So, dein F-Wert ist auch so eine Prüfgröße. Er ist das Verhältnis zweier Varianzen. Nicht mehr und nicht weniger. Er fasst einfach bestimmte Aspekte der Daten in einer Zahl zusammen. Da gibt es keine weitere Erklärung. Man kennt die Verteilung der F-Werte unter H0 (die ist hier: beide Varianzen sind gleich), das ist die F-Verteilung. Zu dieser Verteilung braucht man zwei verschiedene Freiheitsgrad-Angaben (je eine pro Varianz).
Dann kann man daraus wieder den p-Wert berechnen und ggf. H0 ablehnen.
Dir den Unterschied zwischen ein- und zweiseitigen Tests zu erklären, spare ich mir jetzt. Das kannst Du nochmal in Wikipedia oder woanders nachlesen. Der F-Wert sollte unter H0 jedenfalls in der Nähe von 1 liegen. Er kann nicht kleiner werden als Null (Varianzen sind immer positiv, so also auch der Quotient zweier Varianzen), aber er kann beliebig groß werden (nämlich dann, den die Nenner-Varianz gegen Null geht). Die Verteilung ist also nicht so schön symmetrisch wie zB. die t-Verteilung. Hier würde der Rechenaufwand etwas größer, wenn man zweiseitig testen will. Daher wird ein sehr alter Trick angewendet: Man teilt die Varianzen vorher so, dass die größere Varianz im Zähler steht. Damit *muss* ein F-Wert größer 1 herauskommen. Nun reicht ein einseitiger Test, bei dem man nachschaut, wie wahrscheinlich man einen mindestens so großen F-Wert unter H0 finden würde.
Der p-Wert gibt an, mit welcher Wahrscheinlichkeit ich bei
einer Stichprobe einen Wert erhalte, der gegen die Ablehnung
der H0 sprechen würde.
Ist das so richtig?
Nein, s.o. Der p-Wert gibt an, mit welcher Wahrscheinlichkeit du unter H0 eine mind. so extreme Prüfgröße erkalten würdest.
Dummes Beispiel: Jemand behauptet, hellsehen zu können. Die Nullhypothese ist: Die Person kann nicht hellsehen und rät nur. In einem Experiment läßt du die Person die Augenzahl beim Würfeln vorhersagen. Der p-Wert für einen Treffer ist 1/6 = 0.167 = 16.7%. Selbst, wenn die Person richtig liegt, hätte sie unter H0 (also durch raten) mit fast 17%iger Wahrscheinlichkeit auch richtig gelegen. Hier ist der p-Wert zu groß, um H0 abzulehnen.
Hättest du ein Skat-Kartenspiel genommen, wäre p bei 1/32 = 0.0325 = 3.25%. Eine korrekte Antwort hier würde dich schon stutziger machen als beim Würfel-Test. Der p-Wert reicht aus, um H0 auf einem Niveau von 0.05 zu verwerfen. Ein guter Wissenschaftler würde das zum Anlass nehmen, der Sache genauer nachzugehen (Wiederholung, Abwandlung des Experiments usw).
Es geht um einen Test mit 12 Teilnehmern, die zwei Tests
hintereinander ausgeführt haben (also habe ich gepaarte
Stichproben). Die Freiheitsgrade für F sind dann 11, 11 -
oder?
Ohne genaue Kenntnis der Fragestellung, des Experiments und der Daten läßt sich dazu nichts sagen.
Und… wie kann ich meine Daten auf Normalverteilung prüfen?
mit dem Shapiro-Wilk-Test zum Beispiel.
Visualisieren lassen sich Abweichungen bzw. Übereinstimmungen mit der Normalverteilung gut mit einem Quantilen-Quantilen-Plot. Wie man sowas in Excel macht, steht zB. hier: http://science.uniserve.edu.au/pubs/callab/vol15/cal…
Es geht mir mehr darum, das alles logisch zu verstehen als um
die Rechenvorgänge.
Viel Spaß dabei 
LG
Jochen