Hallo,
von Deiner kurzen Beschreibung wird nicht klar, was Du genau für Daten hast, wie der Versuch genau durchgeführt wurde und was Deine Hypothesen sind. Daher kann man nichts Konkretes dazu sagen.
Allgemein zum (Zweistichproben-)t-Test:
Dieser Test testet die Null-Hypothese (H0), dass zwei Stichproben aus Grundgesamtheiten mit dem gleichen Mittelwert gezogen wurden. Mit anderen Worten: Die Nullhypothese besagt, dass die Unterschiede in den Stichproben-Mittelwerten nur Stichprobenfehler sind (und nichts mit einem Systematischen Unterschied der beiden Gruppen zu tun haben).
Das ganze liefert nur sinnvolle Ergebnisse, wenn die Daten näherungsweise normalverteilt sind. Strenggenommen müssen auch die Varianzen beider Stichproben gleich sein. Leichte Abweichungen sind tolerabel, insbesondere wenn viele Datenwerte vorliegen (n>30 pro Gruppe).
Der t-Test berechnet eine Prüfgröße, deren Verteilung unter H0 der t-Verteilung mit n1+n2-2 Freiheitsgraden entspricht. Anhand dieser Verteilung können für gegebene Werte der Prüfgröße sog. p-Werte berechnet werden, die angeben, mit welcher Wahrscheinlichkeit die Prüfgröße unter H0 einen mindestens so extremen Wert annehmen würde.
Unter H0 sind die p-Werte gleichverteilt im Intervall 0…1. Unter H0 ist also die Wahrscheinlichkeit, einen p-Wert von kleiner 0.5 zu bekommen 0.5. Allgemein: Unter H0 ist die Wahrscheinlichkeit, einen p-Wert kleiner alpha zu bekommen genau gleich alpha.
Wenn man nun für gegebene Stichproben den p-Wert berechnet, und dieser p-Wert ist zB. 0.14, dann heißt das, dass man mit 14%iger Wahrscheinlichkeit unter H0 eine mindestens so extreme Prüfgröße bekommen würde wie die, die aus den vorliegenden Daten berechnet wurde.
Für die Interpretation muss man zwei Studienziele unterscheiden:
-
In explorativen Studien gibt man den p-Wert an und interpretiert die Bedeutung der Ergebnisse in aller Regel im Zusammenhang mit anderen Ergebnissen, Modellen und Randbedingungen. Es geht nicht darum, eine terminale Aussage zu treffen, ob sich die Mittelwerte nun unterscheiden oder nicht, sondern darum, die Daten als Evidenz für oder gegen ein Modell zu verwenden. Als Maß für die Evidenzstärke dient der p-Wert.
-
In konfirmatorischen Studien will man eine definitive Aussage: ja oder nein. Solchen Studien gehen Pilutstudien und exploratorische Studien voraus, außerdem eine genaue Fallzahlplanung, damit auch negative Ergebnisse interpretierbar sind (Stichwort Teststärke/Power). Hier wird vorher festgelegt, welche Hypothesen man testen will, wie groß die interessierenden Effekte sind und welche Wahrscheinlichkeit man für ein falsch-positives und ein falsch-negatives Ergebnis akzeptiert. Entsprechend wird die Studie geplant und durchgeführt. Die Art der Auswertung ist durch die Planung schon genau vorgegeben. Ist der p-Wert kleiner als die akzeptierte Wahrscheinlichkeit für ein falsch-positives Ergebnis, wird H0 verworfen. Ansonsten wird H0 akzeptiert, wobei die akzeptierte Wahrscheinlichkeit für ein falsch-negatives Ergebnis eingehalten wird.
Es ist zwar (noch) nicht gängige Praxis, aber genaugenommen sollte man bei explorativen Studien nicht von „signifikanten“ Ergebnissen sprechen. Stattdessen sollte eine „fuzzy logic“ verwendet werden, um die Ergebnisse zu beschreiben. Ist der p-Wert sehr klein (0.001), kann man von (gut) gesicherten Unterschieden sprechen, p-Werte größer 0.01 sprechen für Unterschiede, allerdings mit mäßiger Evidenz, bis 0.05 mit eher schwacher Evidenz, bis 0.1 mit sehr schwacher oder marginaler Evidenz. Darüber wird es müßig, die Ergebnisse zu interpretieren. Ohne Fallzahlplanung kann man dazu nur sagen, dass die Daten praktisch keine Evidenz gegen H0 liefern, was immer daran liegen kann, dass die Stichproben zu klein waren.
Die p-Werte lassen sich als quantitatives Maß sehen, wieviel wir aus den vorliegenden Daten über das Nicht-Zutreffen von H0 lernen. Jeder p-Wert revidiert unser Wissen. Viele p-Werte vieler explorativer Studien könnten allesamt zwischen 0.051 und 0.2 liegen. Keiner für sich genommen würde je als „signifikant“ interpretiert, keine dieser Studien würde publiziert (oder beachtet), teilte man die Ergebnisse in signifikant und nicht-signifikant ein. Alle zusammen lehren uns aber sehr wohl etwas. Jeder p-Wert revidiert unser Wissen etwas in Richtung „Es gibt Unterschiede“.
LG
Jochen