Fragebogenauswertung - T-Test!?!

Hallo zusammen,

ich schreibe meine Diplomarbeit über den Herkunftslandeffekt, habe Deutsche und Holländer befragt, und sie an einem Experiment teilnehmen lassen. Sie haben deutschen und holländischen Gouda probiert und mussten ihn jeweils auf einer Skala von 1-5 bewerten anhand verschiedener Kriterien. Jeweils die Hälfte der Gruppe (habe insgesamt 50 Holländer und 50 Deutsche befragt) fungierte als Kontrollgruppe, d.h. hier wurden die Käseproben vertauscht und die Probanden haben jeweils den vermeintlich anderen Käse bewertet, was die Meinung dann tatsächlich auch schnell änderte. :o)

Sooo, und nun geht es an die Auswertung. Die Mittelwerte sind ausgerechnet, am Chi-Quadrat-Test habe ich mich heute versucht, und das ging auch (glaube ich). Leider möchte der T-Test nicht klappen, sowohl mit Excel nicht (Ergebnis soll 0,5 sein, macht das Sinn??), als auch per Formel und Schritt für Schritt nicht. Kann ich einen negativen Wert als Ergebnis haben? Funktionieren die Tabellen nur mit Beträgen, also den Werten unabhängig vom Vorzeichen?

Leider bin ich scheinbar wirklich viel schlechter in Statistik als ich dachte (wie man wohl leider auch merkt), und so versuche ich durchzublicken bei den ganzen verschiedenen T-Tests und was ist mit Varianzen??..Kann mir jemand helfen?

Vielen Dank schonmal im Voraus!
ligil

Hi ligil,

Sie haben deutschen und
holländischen Gouda probiert und mussten ihn jeweils auf einer
Skala von 1-5 bewerten anhand verschiedener Kriterien.

Was sind das denn für Kriterien? Kann man di „so einfach“ in eine Rangfolge bringen und sind dann die Abstände zwischen den Bewertungen auch subjektiv gleich?

Jeweils
die Hälfte der Gruppe (habe insgesamt 50 Holländer und 50
Deutsche befragt) fungierte als Kontrollgruppe, d.h. hier
wurden die Käseproben vertauscht und die Probanden haben
jeweils den vermeintlich anderen Käse bewertet, was die
Meinung dann tatsächlich auch schnell änderte. :o)

Da hast du dir aber ein hübsches design überlegt. Damit ermittelst du dann nicht nur Herkunftslandsunterschiede (wie wird das eigentlich festgelegt? - Ist ein 45jähriger Holländer, der 10 Jahre in D lebt in deinem Sinne noch Holländer?) sondern auch den Einfluß der Vorinformation. Das lässt sich simpel gar nicht mehr analysieren, wenn du nicht einen Effekt unter den Tisch kehren willst.

Leider möchte der
T-Test nicht klappen, sowohl mit Excel nicht (Ergebnis soll
0,5 sein, macht das Sinn??), als auch per Formel und Schritt
für Schritt nicht. Kann ich einen negativen Wert als Ergebnis
haben?

Kommt darauf an, was du eigentlich wissen willst. Das negative Ergebnis kann der Mittlewertsunterscheid sein oder auch die Teststatistik.

Funktionieren die Tabellen nur mit Beträgen, also den
Werten unabhängig vom Vorzeichen?

Ja und nein. Die Tabellen funktionieren auf jeden Fall, nun man muss sie lesen können :smile: Die t-Verteilung ist aber zum Glück symmetrisch, da kann man sich also die eine Hälfte sparen zu tabellieren.

bei den ganzen verschiedenen
T-Tests und was ist mit Varianzen??..

die Va´rianz brauchst du IMMER! sonst kannst du gar keine Inferenzstatsitsik machen.

aber als erstes: Wie ist deine Hypothese und wie sieht deine Bewertnugsskala aus?
Grüße,
JPL

Guten Morgen und erstmal vielen Dank für Deine Antwort!

Hi ligil,

Sie haben deutschen und
holländischen Gouda probiert und mussten ihn jeweils auf einer
Skala von 1-5 bewerten anhand verschiedener Kriterien.

Was sind das denn für Kriterien? Kann man di „so einfach“ in
eine Rangfolge bringen und sind dann die Abstände zwischen den
Bewertungen auch subjektiv gleich?

Habe den Probanden zu jeder Probe jeweils fünf Fragen gestellt:

  1. Wie schmeckt Ihnen dieser Käse? 1 - sehr gut bis 5 - gar nicht.
    Und danach gab es folgende Kriterien zu bewerten:
    Riecht angenehm
    Ist würzig
    Schmeckt intensiv
    Schmeckt harmonisch
    Diese Kriterien wurden ebenfalls von 1 bis 5 bewertet, hier war 1 trifft überhaupt nicht zu und 5 trifft sehr stark zu.
    Ich hatte entschieden, dass ich wohlwollend intervallskalierte Daten habe. Liege ich richtig?

Jeweils
die Hälfte der Gruppe (habe insgesamt 50 Holländer und 50
Deutsche befragt) fungierte als Kontrollgruppe, d.h. hier
wurden die Käseproben vertauscht und die Probanden haben
jeweils den vermeintlich anderen Käse bewertet, was die
Meinung dann tatsächlich auch schnell änderte. :o)

Da hast du dir aber ein hübsches design überlegt. Damit
ermittelst du dann nicht nur Herkunftslandsunterschiede (wie
wird das eigentlich festgelegt? - Ist ein 45jähriger
Holländer, der 10 Jahre in D lebt in deinem Sinne noch
Holländer?) sondern auch den Einfluß der Vorinformation. Das
lässt sich simpel gar nicht mehr analysieren, wenn du nicht
einen Effekt unter den Tisch kehren willst.

Danke. Ich habe, um überhaupt eine Aussage treffen zu können, nur Frauen (Studentinnen) befragt im Alter von 20 bis 30. Wird es also trotzdem noch kompliziert?

Leider möchte der
T-Test nicht klappen, sowohl mit Excel nicht (Ergebnis soll
0,5 sein, macht das Sinn??), als auch per Formel und Schritt
für Schritt nicht. Kann ich einen negativen Wert als Ergebnis
haben?

Kommt darauf an, was du eigentlich wissen willst. Das negative
Ergebnis kann der Mittlewertsunterscheid sein oder auch die
Teststatistik.

Äh, okay. :o) Ich habe eine Formel verwendet, die mein Prof nutzt, und von der ich dachte, dass sie 1. passt und dass er 2. erwartet, dass ich das so ausrechne. Formel ist: t=((mittelwert1-mittelwert2)/v)*((n1+n2)/n1+n2)^0,5
v rechne ich so aus: ((n1-1)*s1^2+(n2-1)*s2^2)/n1+n2-2
Und der Plan war, danach in der Tabelle nachzuschauen und zu hoffen, dass irgendetwas signifikant ist.
Mein Problem ist, dass ich ja in der oberen Formel einen Mittelwert vom anderen abziehe und da oben nichts quadriert wird, bleibt das negative Vorzeichen also. Und ich kann ja nicht immer nur den kleineren vom größeren Wert abziehen, oder? Ja, und da bin ich dann verzweifelt…

Funktionieren die Tabellen nur mit Beträgen, also den
Werten unabhängig vom Vorzeichen?

Ja und nein. Die Tabellen funktionieren auf jeden Fall, nun
man muss sie lesen können :smile: Die t-Verteilung ist aber zum
Glück symmetrisch, da kann man sich also die eine Hälfte
sparen zu tabellieren.

Heißt? Die Vorzeichen interessieren nicht?

bei den ganzen verschiedenen
T-Tests und was ist mit Varianzen??..

die Va´rianz brauchst du IMMER! sonst kannst du gar keine
Inferenzstatsitsik machen.

Okay, das verstehe ich nicht.

aber als erstes: Wie ist deine Hypothese und wie sieht deine
Bewertnugsskala aus?
Grüße,
JPL

Meine Hypothese ist

  1. dass die Probanden den Käse aus ihrem Land besser bewerten als den anderen und
  2. dass die Probanden bei vertauschter Aussage ihre Meinung bzgl der beiden Proben ändern und
  3. dass sie die beiden Proben im Endeffekt nicht auseinander halten können (es kommt zum Abschluss noch ein Blindtest - und sie können es tatsächlich nicht, hehe)

DAAAANKE!!

So, hier noch ein Nachtrag:
Habe mich durch die Foren und überhaupt gewühlt und bin auf folgenden Link gestoßen:
http://www.faes.de/Basis/Basis-Statistik/Basis-Stati…
Ist auch alles ganz gut, habe jetzt erkannt, dass ich die Prüfgröße ausrechnen muss, die ich dann mit der t-Verteilung abgleiche. Und ich habe auch erkannt, dass die Formel meines Profs dasselbe Ergebnis bringt wie die Formel auf der gerade angegebenen Seite. Hier stehen ja sogar Betragsstriche. Das Ergebnis ist übrigens 5,87 (PG).

Ach ja, vorher habe ich noch den F-Test gemacht, wie auch im angegebenen Link beschrieben. Da ich aktuell nur den deutschen Gouda mit der richtigen Angabe (also nur die Ergebnisse der Versuchsgruppe und hier noch NICHT die Ergebnisse der Kontrollgruppe), habe ich pro Gruppe 25 Leute befragt. Heißt das, dass mein Freiheitsgrad jeweils 24 ist? Und diesen Wert aus der F-Verteilung mit P=95 (also 1,980?) vergleiche ich dann mit meinem s1^2/s2^2 (in meinem Fall 1,290)? Hier wäre also PG

Hallo,

holländischen Gouda probiert und mussten ihn jeweils auf einer
Skala von 1-5 bewerten anhand verschiedener Kriterien.

Hört sich nach der Likert-Skala an: http://de.wikipedia.org/wiki/Likert-Skala

Die 5 Fragen kann man in deiner Befragung wohl nicht als Items zusammenfassen, da zB. „schmeckt würzig“ und „schmeckt intensiv“ nicht unbedingt für einen „besseren Geschmack“ stehen.

Zu deinen Hypothesen:

  1. dass die Probanden den Käse aus ihrem Land besser bewerten
    als den anderen und

Das prüfst du am besten anhand der Frage 1. Da jede VP den Käse aus beiden Herkunftsländern vergleichen muss, bietet sich als Datengrundlage das Ergebnis des Vergleichs an (eine gepaarte Analyse also). Dazu rechest Du die Differenzen der Ratings aus, und zwar zB. so, dass die Differenzen dann positive sind, wenn der VP der Käse aus dem eigenen Land besser schmeckte.

Unter der Hypothese, dass die VPn ihr Land nicht bevorzugen, kann man annehmen, dass die Mittelwerte aus den Differenzen approximativ normalverteilt sind. Das erlaubt die Verwendung eines Einstichproben-T-Tests (bzw. eines gepaarten t-Tests auf den Original-Ratings).

Wenn dir die Normalverteilungsannahme zu unsicher ist, kannst du den Wilcoxon-Vorzeichentest nehmen.

Alternativ könnte man auch nur festhalten, ob oder ob nicht der Käse aus dem eigenen Land besser beurteilt wurde. Die Nullhypothese ist dann, dass der Anteil besser beurteilter Käse aus beiden Ländern gleich ist. Das läßt sich mit dem Binomialtest prüfen.

Deine Hypothese ist außerdem gerichtet. Wenn es guten Grund zu dieser Annahme gibt, und du die Leser deiner Ergebnisse überzeugen kannst, dass du im umgekerten Fall (Käse aus dem anderen Land kam besser an) die Sache nicht veröffentlicht hättest, kannst du einen einseitigen Test machen.

  1. dass die Probanden bei vertauschter Aussage ihre Meinung
    bzgl der beiden Proben ändern und

Hier würde ich die Differenzen der Differenzen nehmen. So bleibt die Paarung über die VPn erhalten.

  1. dass sie die beiden Proben im Endeffekt nicht auseinander
    halten können (es kommt zum Abschluss noch ein Blindtest - und
    sie können es tatsächlich nicht, hehe)

Das scheint ja in einem ganz anderen Experiment untersucht worden zu sein.

Bleiben die bisher unverwendeten Fragen 2-5. Die geben wohl eine Aussage über die Geschmacks-Charakteristik der Käsesorten.

Man könnte diese Daten dazu verwenden, die Frage zu beantworten, ob die Characteristik anders eingeschätzt wird, wenn der Käse nicht aus dem eigenen Land kommt. Das ist IMHO am ehesten mit einer multivariaten Analyse zu untersuchen.

Zu Deinen t-Tests:

t ist die Teststatistik. Sie ist der Quotient aus Mittelwertunterschied und Standardfehler des Mittelwertunterschieds. Standardfehler = Standardabweichung. Standardabweichung = Wurzel aus Varianz. Darum brauchst Du (bzw. der t-Test) die Varianz. Ohne Information über die Varianz kann man nicht beurteilen, wie wahrscheinlich es ist, rein zufällig so große Mittelwertunterschiede zu bekommen, wie den, den man in der Stichprobe gefunden hat.

Da ein Mittelwertunterschied größer oder auch kleiner als Null sein kann, kann auch ein t-Wert größer oder kleiner als Null sein.

Die t-Verteilung ist symmetrisch zur Null. Es ist (unter der Nullhypothese, dass die Populationsmittelwerte gleich sind) gleich (un-)wahrscheinlich, positive wie negative t-Werte zu bekommen. Beim zeiseitigen Test wird die Nullhypothese daher abgelehnt, wenn der Betrag von t größer ist als ein kritischer Wert.

LG
Jochen

Hallo,

also vom Design her ist das ja wohl dreifaktoriell, d.h. Du hast einen experimentellen Zwischensubjektfaktor (richtig deklariert vs. falsch deklariert), einen quasiexperimentellen Zwischensubjektfaktor (Deutsche Nationalität vs. Niederländische Nationalität) und zwei Messzeitpunkte pro VP (Innersubjektfaktor: Urteil Deutscher Holländer vs. Urteil Niederländischer Holländer).

Am Besten eignet sich eine Varianzanalyse für messwiederholte Daten, wobei Du auf einen Interaktionseffekt der Nationalität mit dem Messzeitpunkt und der Gruppe hoffst (3-fach Interaktion).

Soweit erst mal mein Eindruck - ein t-Test bringt Dich bei dem Design meiner Meinung nach nicht wirklich weiter.

Den Hinweis von JPL halte ich für angebracht - die Daten sind eigentlich ordinalskaliert und sollten nicht-parametrisch ausgewertet werden. Nur ist das in der Praxis auch den meisten Betreuern egal - so dass man meistens trotzdem so auswertet.

Man sollte aber im Hinterkopf behalten, dass wenn es bei einer Untersuchung es um etwas geht man das dann vernünftig machen sollte.

Wenn man es vernünftig machen wollte wäre es bei diesem Design gar nicht so einfach. Es gibt mittlerweile auch varianzanalytische Verfahren für ordinalskalierte Daten (kenne ich aber noch nicht).

Ein Kompromiss wäre m.E. nach eine Dateninformationsreduktion z.B. auf binäres Niveau: Du zählst aus, wieviele Leute je Nationalität und je Bedingung den Käse ihres Heimatslandes besser bewertet hatten (Du entfernst alle Fälle in denen der Herkunftskäse gleich dem Fremdlandkäse gewertet wurde). Dann hast Du eine 2x2 Kontingenztabelle - und kannst z.B. den exakten Test nach Fisher anwenden.

Lieben Gruß
Patrick

Hi ligil,

was jochen schreibt, hat Hand und Fuss und ist der praktische approach. Man kann es aber auch more sophistcated haben, allerdings wärest du nicht der erste, der damit bei seinem Prof scheitert. Dennoch will ich es dir nicht vorenthalten :smile:
Also:

  1. Die zu bewertenden Kategorien sind eigentlich nur eine Spezifizierung der Frage. du kannst sie also entweder als Validierung der Frage verwenden oder statt dessen. Denn wenn widersprüchliche Ergebnisse herauskommen, ist eine Interpretation evtl. schwierig. Da die ergebnisse also eh korrelieren, kannst du versuchen, einen Score daraus zu bilden (auf welche Weise auch immer). Der wird dann aber höchstwahrscheinlich keine Normalverteilung mehr haben und hier greift dann Jochens nichtparametrische Strategie.
  2. Mich wundert, dass du herausfinden willst, ob die Leute „ihren“ Käse richtig erkennen, aber gar keine entsprechende Frage stellst? Man sollte immer die Frage stellen, die einen interesseiert und so, dass sie jeder versteht. Sonst kann da alles mögliche einen Einfluss haben.
  3. Intervallskalierung … hm, ja, hm. wohlwohllend vielleicht, es gibt auch Untersuchungen dazu, dass Lickert dann passt, wenn es mindestens 5 items sind und so. Trotzdem muss man sich vor Augen halten, dass die Geschmäcker verschieden sind. Wegen deiner relativ großen Fallzahl könnte man das durchgehen lassen. Prägnanten ergebnisse solltest du aber diskutieren.
  4. Nur Frauen 20-30 macht es schon einfacher, trotzdem ist dein Verwirrspiel ein komplizerender Faktor. Klar kann man die Studie in zwei Hälften teilen, aber dann hättest du auch gleich zwei Studien machen können. Und spätestens wenn du den Einfluss „richtige Vorinfo“ auswerten willst musst du alles mit reinnehmen. Denn sonst hast du Studie ein weiteres Mal zweigeteilt und hast dann zwei Werte, die du dann wieder vergleichen willst: Willkommen in Teufels Küche. Angebracht ist deswegen (wenn du entsprechende voraussetzungen annehmen kannst) Patricks 3-fakorielles design via ANOVA. Hierzu gibt es auch eine nichtparametrisches Äquivalent nach Brunner&Akritas (z.B. http://www.questia.com/googleScholar.qst;jsessionid=…) was dann aber wirklich keine einfache Koste mehr ist.
  5. Datenreduktion wie von Patrick vorgeschlagen geht, aber man muss sich bewusst sein, dass man massenweise Info wegwirft - warum hat man sie dann erhoben? Dann hättest du es dir tatsächlch viel leichter machen können und im Blindtest einfach fragen können: holländischer oder deutscher Gouda?
  6. „Und der Plan war, danach in der Tabelle nachzuschauen und zu hoffen, dass irgendetwas signifikant ist“ dafür müsstest du nach gut nordeeutsher Art einen auf den Deez bekommen. so geht’s jedefalls nicht und auch diese freie Formulierung solltest du dir verkneifen, weil es suggeriert, dass du so ins Blaue hinein Studien machst (von einer Validiering deines fragebogens wollen wir lieber gar nicht erst anfangen…). Gleichzeitg wirft es mal wieder die üblichen Warnungen auf:
    Viele Fragen = viele tests = alpha-fehler-kumulierung
    und ausserdem:
    stat. signifikanz ist keine praktische Relevanz.
    Gerade bei relativ beliebigen Skalen ist die Interpretation eines Unterscheides von x.y nicht wirklich leicht - was du ja schon selber bemerkt hast :-]
  7. Zur Verwendung der t-Tabelle und der Prüfgrösse möchte ich eigentlich keine langen Episteln schreiben. Mach dir das Ganze einfach an einem simplen 2-Gruppen-Vergleich mit n=5 klar. Auch wenn du es dann evtl. nicht brauchst, ist das eine gute Übung.
  8. Deine Hypothesen kannst abtesten, indem du dir z.B. Patricks design hernimmst und dann die entsprechenden Faktoren betrachtest.

Hier stehen ja sogar Betragsstriche.

diese zeihen nur, dass ein 2-seitiger Test gemacht wird. Alleine deine erste Hypothese ist aber nur eine einseitige; also: Buch rausholen, Unterscheid zwischen 1 und 2-seitig testen nachlesen, anhand eines t-tests ausprobieren. :smile:

Ach ja, vorher habe ich noch den F-Test gemacht, wie auch im
angegebenen Link beschrieben.

Vorher F-test ist macht nur Sinn, wenn man danach einen simplem t-test macht. solltest du Patricks ANOVA-design folgen (was ich empfehlen würde) ist ein vorgeschalteter F-test Blödsinn, da dann die Varianzzerlegung, die du in dem Modell angibst, gar nicht berücksichtigt wird.

Hier wäre
also PG