Ttest, aber wie? dringend hilfe benötigt

Hallo
Ich hoffe mir kann einer helfen. ich mache gerade eine auswertung. Ich habe 2 Gruppen, eine mit Behinderung und eine ohne. Ziel ist es herauszufinden ob diejenigen mit der behinderugn mehr gemobbt werde als die anderen. Die Gruppen nestehen jeweils aus n=7 teilehmer.

Ich habe nun meine fragebogen codiert und die aussagen eingetragen, mittelwerte berechnet. ich muss nun einen ttest machen. ich weiss aber nicht wie das geht? Welche werte muss ich eingeben?
Kann mir jemand helfen dringend???

Hier meine bisherigen berechnungen

Versuchsgruppe:
Mittelwert: 2,3406
Standartabweichung: 0,7919

Kontrollgruppe:
Mittelwert: 1,8618
Standartabweichung: 0,7484

Vielen Dank im Vorraus

Hallo =)

Hallo
Ich hoffe mir kann einer helfen.

Man kann es ja versuchen :wink:

ich mache gerade eine
auswertung. Ich habe 2 Gruppen, eine mit Behinderung und eine
ohne. Ziel ist es herauszufinden ob diejenigen mit der
behinderugn mehr gemobbt werde als die anderen. Die Gruppen
nestehen jeweils aus n=7 teilehmer.

Und es gibt die Möglichkeiten gemobbt oder nicht gemobbt, oder?

Ich habe nun meine fragebogen codiert und die aussagen
eingetragen, mittelwerte berechnet.

Wovon hast du enen Mittelwert bestimmt? Vielleicht magst du mir mal eine Formel sagen, wie du das gemacht hast.

Mal angenommen: Gruppe 1 (mit Behinderung) hatte insgesamt 5 Leute die gemobbt werden und Gruppe 2 (ohne Behinderung) hatte insgesamt 3 Leute die gemobbt werden (Entschuldigung, soll kein Vorurteil sein - nur irgendwelche Zahlenwerte… also bitte nicht deswegen anklagen).

Von Gruppe 1 wurden 5 von 7 Leuten gemobbt.
Von Gruppe 2 wurden 3 von 7 Leuten gemobbt.

Wo ist hier ein Mittelwert zu bestimmen? Du kannst höchsten noch sagen, dass bei Gruppe 1 5/7 der Leute gemobbt wurden also ca. 71% und bei Gruppe 2 3/7 gemobbt wurden, also ca. 42%. Also bei meinem Beispiel wurde Gruppe 1 mehr gemobbt.

Wenn du jetzt noch mehr Gruppen hast, dann kannst du einen Mittelwert bilden zwischen den Gruppen.
Sagen wir du hast noch eine Gruppe 3 (mit Behinderung) von denen 4 von 7 Leuten gemobbt wurden.
Dann kannst du einen Mittelwert zwischen Gruppe 3 und Gruppe 1 bilden. Also hier: Mittelwert: (5+4)/14=9/14 also in etwa 64%.

Oder hast du einen Mittelwert zwischen Gruppe 1 und Gruppe 2 gebildet?

ich muss nun einen ttest
machen. ich weiss aber nicht wie das geht? Welche werte muss
ich eingeben?
Kann mir jemand helfen dringend???

Was willst du testen? Ob dein Ergebnis richtig ist?

Hier meine bisherigen berechnungen

Versuchsgruppe:
Mittelwert: 2,3406
Standartabweichung: 0,7919

Kontrollgruppe:
Mittelwert: 1,8618
Standartabweichung: 0,7484

Eigentlich ist es üblich 2 signifikante Stellen anzugeben, also:

Versuchsgruppe:
Mittelwert: 2,34
Standartabweichung: 0,79

Kontrollgruppe:
Mittelwert: 1,86
Standartabweichung: 0,74

Nach dem Motto „75.768153512% aller Statistiken täuschen eine zu hohe Genauigkeit vor“ :wink:

Und was soll jetzt die Kontroll- bzw. Versuchsgruppe sein? Vielleicht magst du sagen, wie du die Werte berechnet hast, evtl steige ich dann besser durch :smile:

Ich hoffe mal, dass ich nicht völlig auf dem Holzweg bin und dir hier was falsches unterstelle. Falls doch: sei mir nicht böse :smile:

MfG, Christian

Hallo,

neben den Kommentaren von Christian steht für mich noch eine weitere Frage im Raum: Sind denn überhaupt die Voraussetzungen für einen t-Test gegeben? Das sind so Schlagworte wie Normalverteilung bzw. t-Verteilung. Wenn die Voraussetzungen nämlich nicht erfüllt sind, solltest Du bei einer so kleinen Fallzahl (n=7 je Gruppe) eher einen anderen Test verwenden, der auch bei beliebig verteilten Daten mit kleiner Stichprobe robuste Ergebnisse liefert (z.B. der Mann-Whitney-U-Test, auch Wilcoxon-Rangsummentest genannt, wäre da ein Beispiel).

Grüsse
d.

Hi,

d. und christian haben ja schon einiges angemerkt.
Vor allem müsste man erstmal den Fragebogen genauer kennen. Bei n=7 ist t-test auf einer ordinal-skala sehr fraglich (ebenso die Mittelwerte), überdies abhängig von der Kodierung.
Ingesamt sollte der Fragebogen einen Wert für „Gemobbet werden“ ergeben, den kann man dann zwischen den Gruppen vergleichen und sehen, ob er für die Gruppe der Behinderten größer ist oder nicht.
Viele Grüße,
JPL

Hallo,

Sorry die Nachfrage, aber das ist so eine Aussage, über die ich wieder und wieder stolpere:

eher einen anderen Test verwenden,
der auch bei beliebig verteilten Daten mit kleiner Stichprobe
robuste Ergebnisse liefert (z.B. der Mann-Whitney-U-Test, auch
Wilcoxon-Rangsummentest genannt, wäre da ein Beispiel).

Hier ist IMHO doch unklar, was getestet wird.

Der MWU-Test testet genau dann einen location shift (Median-Unterschied), wenn die Verteilungen in beiden Stichproben gleich sind - eben bis auf den „shift“.

Gerade bei ordinalen Daten mit wenigen Abstufungen ist es aber sehr wahrscheinlich, dass wegen der „Randeffekte“ die beiden Verteilungen nicht die gleiche Form haben. Dann spricht der MWU-Test aber auch auf diese Unterschiede an.

Beispiel:

5-stufige Antwort („1“,„2“,„3“,„4“,„5“)

Wahrscheinlichkeitsverteilungen für

  • Population 1: 0.07; 0.13; 0.20; 0.27; 0.33
  • Population 2: 0.20; 0.40; 0.40; 0.00; 0.00

Der Median ist in beiden Fällen „2“

Für n=7 und alpha=0.05 hat der Test eine Power von ca. 60%, d.h. er liefert in 60% solcher Experimente einen p-Wert kleiner 0.05, was hier aber eben NICHT bedeutet, dass sich die Mediane unterscheiden würden.

Anders herum erkennt der Test keine symmetrische Aufspaltung (zB. eine experimentbedingte Polarisierung der Antworten (in „1“ und „5“), während die Kontrollgruppe die mittlere Kategorie „3“ bevorzugt oder keine bevorzug (Gleichverteilung)).

Ich weiß nicht, wie man sowas richtig macht. Wenn da jemand eine Tipp hat, bin ich auch dankbar!

VG
Jochen

Hallo,

wichtig für einen Test ist nicht die Verteilung innerhalb der Stichprobe, sondern die Verteilung in der Grundgesamtheit.

Grüsse
d.

wichtig für einen Test ist nicht die Verteilung innerhalb der
Stichprobe, sondern die Verteilung in der Grundgesamtheit.

Ja - da hast Du recht. Das war ein Schreibfehler. Natürlich meine ich die Verteilungen der GGs und nicht die der Stichproben. Das Problem bleibt im Grund aber bestehen.

VG und danke für den Hinweis,
Jochen

Hi d.,

wichtig für einen Test ist nicht die Verteilung innerhalb der
Stichprobe, sondern die Verteilung in der Grundgesamtheit.

die kennt man aber i.a. nicht - denn wenn, dann müsste man ja nicht mehr testen.
Ferner verwendet man ja selbst bei parametrischen tests die Mittelwerte und Streuungen der Stichprobe und nicht die der GG.
Insofern ist die Verteilung der SP schon sehr interessant, denn man will ja von ihr auf die GG schließen, nicht umgekehrt.

Selbst wenn die Verteilung in der GG schön normal wäre und man nur aus bad luck eine 2-gipflige SP zieht, kann man ja nicht einfach darüber hinwegsehen.

Tests basieren in ihren annahmen zwar auf der GG, testen aber die SP (in der Annahme, dass diese die GG genügend gut widerspiegelt).

Grüße,
JPL

Hallo,

ich musste jetzt selbst nachlesen (weil ich nicht mehr wusste, woher meine Info kam) und möchte Dich bezüglich des M-W-U-Tests auf die englische Wikipedia verweisen Im letzten Absatz des Abschnitts „Assumptions and formal statement of hypotheses“ stehen einige Erklärungen, die nahelegen, dass der Test enwickelt wurde für Grundgesamtheiten, die nicht zwingend der gleichen Verteilung folgen.
Wenn meine Stichprobe natürlich eine völlig andere Verteilung nahelegt als die tatsächliche Verteilung der Grundgesamtheit, habe ich schlichtweg Pech gehabt (oder systematische Fehler drin). Jeder statistische Test sagt Dir nur zu einer bestimmen Wahrscheinlichkeit, ob Deine Hypothese stimmt oder eben nicht stimmt. Einen Test, der immer die Wahrheit darstellt, gibt es eben nicht.

Ein Beispiel:
Wenn ich einen sechsseitigen Würfel würfele, hat jede Seite die gleiche Wahrscheinlichkeit, nach oben zu zeigen. Nun vergleiche ich zwei Würfel, bei einem kommt jede Seite exakt gleich oft vor, beim anderen fast nur die 5 und die 6. Dann wäre ich erstmal dazu geneigt anzunehmen, dass die Verteilungen in der Grundgesamtheit unterschiedlich sind (obwohl sie es bei idealen Würfeln nicht sind) und ich müsste höchstwahrscheinlich meine Nullhypothese, dass es keinen Unterschied im Erwartungswert gibt, verwerfen. Und da kommt halt auch die Grösse der Stichprobe ins Spiel. Je mehr Messwerte ich habe, desto höher wird die potentielle Aussagekraft meines Tests.

Grüsse,
d.

Hallo,

es ist natürlich richtig, dass die Verteilung in der Stichprobe die Aussagekraft des Tests beeinflusst. Aus dem Grund sind ja grosse Stichprobenzahlen (meinem Verständnis nach zumindest) vorzuziehen, da dann die Wahrscheinlichkeit, eine total verzerrte Stichprobe zu haben, sinkt.

Wenn ich aber kleine Stichproben habe, brauch ich Tests, die da recht robuste Ergebnisse liefern, und so wie ich es verstanden habe, ist da der M-W-U-Test geläufig. Natürlich bleibt die Wahrscheinlichkeit, dass ich Blödsinn als Ergebnis erhalte, aber das Problem habe ich bei jedem Test und jeder Fallzahl (ausser ich vermesse die Grundgesamtheit, aber dann müsste ich, wie Du sagst, nicht mehr testen).

Um auf meinen Beitrag zurückzukommen: Es gibt ja Tests für die Verteilung in der Grundgesamtheit, und auch da muss ich mich drauf verlassen, dass sie sinnvolle Ergebnisse liefern. Wenn ich aber schon aufgrund der möglichen Merkmalsausprägungen vermuten kann, dass eine Normalverteilung nicht nahe liegt, brauche ich auch keinen t-Test versuchen. Wenn ich einen Fragebogen mit 5 oder 10 möglichen Merkmalsausprägungen habe, wäre für mich so ein Fall. Oder auch wenn ich mehr Merkmalsausprägungen als Stichprobenelemente habe, wäre ich vorsichtig.

Grüsse,
d.

Hallo,

ich musste jetzt selbst nachlesen (weil ich nicht mehr wusste,
woher meine Info kam) und möchte Dich bezüglich des
M-W-U-Tests auf die englische Wikipedia verweisen Im letzten
Absatz des Abschnitts „Assumptions and formal statement of
hypotheses“ stehen einige Erklärungen, die nahelegen, dass der
Test enwickelt wurde für Grundgesamtheiten, die nicht zwingend
der gleichen Verteilung folgen.

Ja, klar. Dass man den Test auch nehmen kann, um eine Verschiebung der „zentralen Tendenz“ einer Verteilung zu prüfen, ist ein Sonderfall, eben für den Fall, dass die Stichproben aus (bis auf die zentrale Tendenz) gleichen Verteilungen stammen. Ansonsten gilt, dass der Test die „concordance probability P(Y > X)“ prüft. Was das aber im Falle wenig-stufiger Ordinalskalen aussagt, weiß ich nicht.

Wenn meine Stichprobe natürlich eine völlig andere Verteilung
nahelegt als die tatsächliche Verteilung der Grundgesamtheit,
habe ich schlichtweg Pech gehabt (oder systematische Fehler
drin).

Ja, das ist alles klar. Das ganze gedöns macht man doch nur, um den Stichprobenfehler ins Verhältnis zu einem Effekt zu setzen, um abschätzen zu können, wie wahrscheinlich es ist, dass der empirische Effekt allein durch den Stichprobenfehler verursacht sein kann.

Jeder statistische Test sagt Dir nur zu einer bestimmen
Wahrscheinlichkeit, ob Deine Hypothese stimmt oder eben nicht
stimmt.

Ne, eben nicht. Er sagt immer und nur, wie wahrscheinlich ein mind. so extremes Ergebnis wie das beobachtete unter der Nullhypothese auftritt. Der Test macht *keine* Aussage über die Wahrscheinlichkeit, mit der irgendeine Hypothese wahr oder falsch ist.

Einen Test, der immer die Wahrheit darstellt, gibt es
eben nicht.

Beim Nullhypothesentest kann man sich fragen, ob die Nullhypothese real überhaupt wahr sein *kann*. IMHO ist die H0 philosophisch gesehen in der Realität *immer* falsch, weil man nie exakt die selbe Population beprobt. Die Unterschiede können winzig und absolut vernachlässigbar sein, aber sie sind immer ungleich (exakt) Null. Mithin kann ein Test im prinzip die Nullhypothese bei ausreichend großem Stichprobenumfang *immer* ablehnen, und würde so auch immer die korrekte Schlussfolgerung nahelegen.

Je mehr
Messwerte ich habe, desto höher wird die potentielle
Aussagekraft meines Tests.

Aus den o.g. Gründen muss das nicht sein. Mit extrem großen *realen* Stichproben wird der Test nur eine triviale Wahrheit liefern, nämlich dass die GG tatsächlich nicht absolut identisch waren. Na toll.

Ohne Angabe einer relevanten Effektgröße ist ein signifikantes Ergebnis - bei sehr großen Stichproben - nicht aussagekräftig.

My 2 pence :smile:

VG
jochen

Hallo,

es ist natürlich richtig, dass die Verteilung in der
Stichprobe die Aussagekraft des Tests beeinflusst.

Nein. Sie beeinflusst das *Ergebnis* des Tests, nicht seine Aussagekraft. Ein Test liefert bei erfüllten Voraussetzungen alpha*100% falsch-positive Ergebnisse. Fertig. Ein Testergbnis sagt mir ja auch nicht (wie du in einem anderen Posting m.E. nach falsch geschrieben hast) die W’keit von Hypothesen, sondern die von *Daten*, gegeben H0.

Größere Stichproben erhöhen die Power des Tests.

Aus dem
Grund sind ja grosse Stichprobenzahlen (meinem Verständnis
nach zumindest) vorzuziehen, da dann die Wahrscheinlichkeit,
eine total verzerrte Stichprobe zu haben, sinkt.

Genau das bedingt die höhere Power. Trotzdem bleibt die falsch-positiven-Rate unter H0 bei alpha*100%.

Wenn ich aber kleine Stichproben habe, brauch ich Tests, die
da recht robuste Ergebnisse liefern,

Definiere mal, was du mit „robuste Ergebnisse“ genau meinst: Sensitivität, Spezifität, Power, pos. präd. Wert, neg. pred. Wert, … ?

und so wie ich es
verstanden habe, ist da der M-W-U-Test geläufig.

Von 10000 forschenden Medizinern, welche in ihren Puplikationen dem MWU-Test verwenden, verstehen m.E. 9950 nicht, was der Test eigentlich macht. Sie verwenden den auch nur, weil die anderen das so machen. Un die Reviewer sind meist auch nur Mediziner, welche selbst den MWU nehmen, weil die anderen ihn nehmen…

Um auf meinen Beitrag zurückzukommen: Es gibt ja Tests für die
Verteilung in der Grundgesamtheit, und auch da muss ich mich
drauf verlassen, dass sie sinnvolle Ergebnisse liefern. Wenn
ich aber schon aufgrund der möglichen Merkmalsausprägungen
vermuten kann, dass eine Normalverteilung nicht nahe liegt,
brauche ich auch keinen t-Test versuchen.

Das kommt wieder auf den Stichprobenumfang an. Wenn man die Ränge der Abstufungen nimmt, kann man mit einem t-Test auf einen mittleren Unterschied der Ränge testen. Bei ausreichen großen Stichprobenumfängen sind die Rangmittelwerte ganz gut normalverteilt, und der t_test ist recht robust gegen Verletzung der Normalverteilungsannahme.

VG
Jochen

Hallo,

Nein. Sie beeinflusst das *Ergebnis* des Tests, nicht seine
Aussagekraft. Ein Test liefert bei erfüllten Voraussetzungen
alpha*100% falsch-positive Ergebnisse. Fertig. Ein Testergbnis
sagt mir ja auch nicht (wie du in einem anderen Posting m.E.
nach falsch geschrieben hast) die W’keit von Hypothesen,
sondern die von *Daten*, gegeben H0.

Ich glaube, Du hast mich missverstanden.
Was bringt es mir, ein Testergebnis zu haben, wenn ich weiss, dass meine Testvoraussetzungen völlig falsch sind? Wenn meine Voraussetzungen in guter Näherung erfüllt sind, vertraue ich einem Testergebnis eher. Mich auf den Standpunkt zu stellen „Sind nicht alle Voraussetzungen exakt erfüllt, vertraue ich dem Ergebnis nicht“, bringt einen nicht immer ans Ziel.
Du hast allerdings recht, dass ich nicht die Wahrscheinlichkeit teste, dass eine Hypothese wahr ist, sondern wie wahrscheinlich es ist, die Daten unter H0 so (oder extremer) zu erhalten.

Definiere mal, was du mit „robuste Ergebnisse“ genau meinst:
Sensitivität, Spezifität, Power, pos. präd. Wert, neg. pred.
Wert, … ?

Ein Ergebnis bezeichne ich dann als robust, wenn der Test, mithilfe dessen ich zu diesem Ergebnis komme, leichte Schwankungen in den Daten oder auch leichte Abweichungen von den Testvoraussetzungen verkraftet, ohne dass zu befürchten ist, dass ich meinem Ergebnis nicht mehr vertrauen kann.

Grüsse,
d.

Hi,

Ich glaube, Du hast mich missverstanden.

Kann sein. Aber da hast du dich auch missverständlich ausgedrückt, finde ich. Durch meine „Kritik“ wird das dann hoffentlich auch anderen Lesern klar. So, wie du das formuliert hattest, stellt es nämlich ein recht übliches Missverständnis bei der interpretation von Testergebnissen dar.

Was bringt es mir, ein Testergebnis zu haben, wenn ich weiss,
dass meine Testvoraussetzungen völlig falsch sind?

In diesem Falle war es ja schon dämlich, den Test zu machen.

Wenn meine
Voraussetzungen in guter Näherung erfüllt sind, vertraue ich
einem Testergebnis eher. […]

EXAKT erfüllt sind Voraussetzungen bei realen Daten sowieso niemals. Das verlangt keiner (zumindest kein Nichtmathematiker). Es geht immer nur darum, bei GROBE Verletzungen der Voraussetzungen nochmal darüber nachzudenken, einen evtl. geeigneteren Test zu verwenden.

Dabei ist es übrigens nicht gut, sich die Erfüllung von Voraussetzungen an dem Datensatz anzusehen, den man dann auch testen will. Eigentlich - wenn es nicht a priori aus anderen Erfahrungen oder theoretischen Überlegungen bekannt ist - muss man vorher eine Pilotstudie machen, nur zu dem Zweck, die Eigenschaften der Verteilungen zu schätzen. Dann entscheidet man sich für einen Test, dann macht man das Experiment und dann den Test.

Ein Ergebnis bezeichne ich dann als robust, wenn der Test,
mithilfe dessen ich zu diesem Ergebnis komme, leichte
Schwankungen in den Daten oder auch leichte Abweichungen von
den Testvoraussetzungen verkraftet, ohne dass zu befürchten
ist, dass ich meinem Ergebnis nicht mehr vertrauen kann.

Bei zu geringer Power bzw. einem zu kleinen Effekt schwankt der p-Wert zwischen 0.00 und 1.00. Ein erster Test könnte eine p-Wert zwischen 0.01 und 0.02 liefern, ein weiterer einen p-Wert zwischen 0.95 und 0.96. Das wäre nach deiner Definition nicht robust! Dabei macht der Test exakt das, was er soll.

VG
Jochen

Hallo,

In diesem Falle war es ja schon dämlich, den Test zu machen.
[…]
EXAKT erfüllt sind Voraussetzungen bei realen Daten sowieso
niemals. Das verlangt keiner (zumindest kein
Nichtmathematiker). Es geht immer nur darum, bei GROBE
Verletzungen der Voraussetzungen nochmal darüber nachzudenken,
einen evtl. geeigneteren Test zu verwenden.

Wenn offensichtlich grosse Abweichungen zwischen den Eigenschaften der Daten und den Testvoraussetzungen liegen, ist es natürlich dämlich, den Test selbst zu machen. Wenn aber Abweichungen da sind (vorerst ohne zu werten), dann kann ich mir überlegen, ob ich den Test trotzdem verwende, oder ob ich sie als so stark einstufe, dass ich den test nicht verwenden möchte. Wenn ich den Test trotz Abweichungen verwende, muss ich mir (zumindest ist das meine Auffassung) bewusst machen, dass der Test weniger vertrauenswürdig ist, als wenn die Abweichungen deutlich kleiner wären. Testen kann ich alles möglich, denn dem Test ists egal, mit was ich ihn füttere. Nur weil ich Testergebnisse lese, heisst das ja nicht, dass sie automatisch richtig sind.

Dabei ist es übrigens nicht gut, sich die Erfüllung von
Voraussetzungen an dem Datensatz anzusehen, den man dann auch
testen will. Eigentlich - wenn es nicht a priori aus anderen
Erfahrungen oder theoretischen Überlegungen bekannt ist - muss
man vorher eine Pilotstudie machen, nur zu dem Zweck, die
Eigenschaften der Verteilungen zu schätzen. Dann entscheidet
man sich für einen Test, dann macht man das Experiment und
dann den Test.

Das stimmt so schon, allerdings können speziell theoretische Überlegungen falsch sein. Wir hatten vor einiger Zeit in einer Studie einen t-Test angestrebt, da im erwarteten Wertebereich die Daten als normalverteilt hätten genähert werden können. Leider stellte sich hinterher raus, dass wir (bei null-begrenzten Messwerten) zu nahe an der Null lagen, und daher die Messwerte deutlich von einer Normalverteilung abgewichen sind.

Bei zu geringer Power bzw. einem zu kleinen Effekt schwankt
der p-Wert zwischen 0.00 und 1.00. Ein erster Test könnte eine
p-Wert zwischen 0.01 und 0.02 liefern, ein weiterer einen
p-Wert zwischen 0.95 und 0.96. Das wäre nach deiner Definition
nicht robust! Dabei macht der Test exakt das, was er soll.

Das stimmt, aber wo ich Blödsinn reinwerfe, kann ich nicht erwarten, dass was Brauchbares rauskommt.

Grüsse,
d.

Hallo,

Das stimmt so schon, allerdings können speziell theoretische
Überlegungen falsch sein.

Wie üblich :smile:

Wir hatten vor einiger Zeit in einer
Studie einen t-Test angestrebt, da im erwarteten Wertebereich
die Daten als normalverteilt hätten genähert werden können.
Leider stellte sich hinterher raus, dass wir (bei
null-begrenzten Messwerten) zu nahe an der Null lagen, und
daher die Messwerte deutlich von einer Normalverteilung
abgewichen sind.

Das hätte man in der Pilotstudie gemerkt. Aber selbst, wenn dem so ist, könnte ein t-Test durchaus noch anwendbar sein, wenn der Stichprobenumfang hinreichend groß ist (-> zentraler Grenzwertsatz).

nicht robust! Dabei macht der Test exakt das, was er soll.

Das stimmt, aber wo ich Blödsinn reinwerfe, kann ich nicht
erwarten, dass was Brauchbares rauskommt.

Ne, das hast du falsch verstanden. Es ist doch kein Blödsinn, wenn es den (erhofften) experimentellen Effekt nicht gibt. Um ihn nachzuweisen (bzw. von zufälligen Schwankungen [Stichprobenfehler] abzugrenzen) macht man doch den Test. Und wenn die Wahrheit tatsächlich in der Nähe von H0 liegt, dann liefert ein Test eben p-Werte, die im Intervall 0…1 gleichverteilt sind. Je höher die Power und je größer der Effekt, desto (rechts-)schiefer wird die Verteilung der p-Werte.

VG
Jochen

Hallo,

Das hätte man in der Pilotstudie gemerkt. Aber selbst, wenn
dem so ist, könnte ein t-Test durchaus noch anwendbar sein,
wenn der Stichprobenumfang hinreichend groß ist (-> zentraler
Grenzwertsatz).

Stimmt, bei einer ausreichend grossen Stichprobe wäre das weniger ein Problem gewesen. Das Problem war auch nicht, dass die theoretischen Überlegungen an sich falsch waren, es wurden nur die Bedingungen, die daran geknüpft waren (nämlich weit genug von der Null weg zu liegen), nicht erfüllt wurden, was halt am schlechten Studiendesign lag. Es wurde dann halt entschieden, einen anderen Test zu verwenden statt eine neue Studie mit besserem Design durchzuführen. Ist halt blöd gelaufen, aber in solchen Fällen muss man mit dem arbeiten, was man hat.

Ne, das hast du falsch verstanden. Es ist doch kein Blödsinn,
wenn es den (erhofften) experimentellen Effekt nicht gibt. Um
ihn nachzuweisen (bzw. von zufälligen Schwankungen
[Stichprobenfehler] abzugrenzen) macht man doch den Test. Und
wenn die Wahrheit tatsächlich in der Nähe von H0 liegt, dann
liefert ein Test eben p-Werte, die im Intervall 0…1
gleichverteilt sind. Je höher die Power und je größer der
Effekt, desto (rechts-)schiefer wird die Verteilung der
p-Werte.

Stimmt, die Gleichverteilung hatte ich nicht bedacht.

Grüsse,
d.