Hallo Kollege,
überprüfen, ob die Balken (es ist ein Balkendiagramm)
statistisch signifikant unterschiedlich sind oder nicht - aber
ich weiß nicht wie!
Die 2-4 Werte pro Versuchsaufbau: sind das Wiederholungen (was ich annehme)? Oder sind das Zeitreihen oder sonstwas?
Ähnliche Versuchsvergleiche hab ich noch dutzendemale …
Meinst du dutzende VERSCHIEDENE Versuchsaufbauten (was ich annehme) oder dutzende Mess-Wiederholungen?
Wenn meine Annahmen Stimmen, willst du wahrscheinlich testen, ob die „mittleren“ Effizienzen sich zwischen diesen vielen Versuchsaufbauten unterscheiden.
Einen Chi²-Test nimmt man, wenn man Verteilungen vergleichen will. Das glaube ich, ist hier nicht der Fall. Für den Vergleich von Mittelwerten nimmt man oft den t-Test. Der ist hier aber nicht angebracht, weil die Daten dazu etwa normalverteilt sind - wonach deine Daten nicht aussehen (hier würde man auch Werte kleiner Null erwarten, was für die Effizienzen aber nicht möglich ist!).
Es gibt einen Test äquivalent zum t-Test, der auch bei nicht-normalverteilten Daten funktioniert: Mann-Whitney- oder Wilcoxon- oder U-Test (alles Synonyme). Allerdings braucht der mehr Input (mehr Daten). Mindestens mal 6 Werte pro Gruppe. Das ist also auch nix für dich…
Vielleicht kann man die Werte transformieren, so dass die transformierten Werte etwa normalverteilt sind. Aus dem Bauch würde ich sagen, dass die Effizienzen etwa log-normal verteilt sind, so dass die logarithmierten Werte etwa normalverteilt sein könnten. Das Problem hier: Werte von Null fallen raus.
Nehmen wir an, die log-transformierten Daten sind etwa normalverteilt - dann hast du noch das Problem, dutzende von Versuchen untereinander vergleichen zu müssen (1 mit 2, 1 mit 3, … 2 mit 3, …). Da hast du ein sog. „multiples Testproblem“. Will heißen: Wenn du seh viele Tests machst, wirst du praktisch sicher mindestens ein signifikanntes Ergebnis bekommen, selbst wenn in Wahrheit alle Versuchsaufbauten gleich effizient waren. Dazu gibt es im Prinzip zwei Lösungsansätze:
(1) Zuerst wird ein „Omnibustest“, der ALLE Daten gemeinsam testet, ob mind. IRGENDEINE Stichprobe anders ist als alle anderen. NUR WENN dieser Test signifikant ist, wird mit sog. Post-hoc-Tests geprüft, um welche Stichprobe(n) es sich handelt. Der Omnibustest ist die ANOVA. Die Post-hoc-Tests sind im Prinzip alles t-Tests mit unterschiedlichen Anforderungen an die Stringenz. Hier gibt es keine richtige und keine falsche Wahl. Nimmst du schlicht den normalen t-Test, dann ist das Ganze maximal locker und nennt sich „Least Significant Difference“. Maximal Streng wäre ein Verfahren nach Tukey, welches sich „Honestly Significant Difference“ nennt. In Anbetracht der wenigen Werte pro Stichprobe wirst Du sowieso nur mit maximal lockeren Bedingungen irgendwelche signifikanten Unterschiede finden - wenn überhaupt.
(2) Du machst deine vielen t-Tests und korrigierst („adjustierst“) die p-Werte für multiples Testen. Dazu gibt es auch wieder verschieden stringente Verfahren. Am härtesten ist die Bonferroni-Korrektur, am lockersten die Korrektur nach Benjamini-Hochberg. Dann schaust du, ob und wenn ja welche korrigierten p-Werte unter deinem Signifikanzniveau liegen (also kleiner sind als 0.05).
Soweit erstmal. Jetzt bist Du wieder an der Reihe…
LG
Jochen