Hallo Oliver,
schwierig. Den Wert Null zu benutzen, erscheint mir als keine
gute Entscheidung, da die Anzahl der Bakterien kaum Null sein
dürfte, sondern lediglich unter 100 liegt.
Andererseits: Du machst die Analyse ja nicht mit Bakterienzahlen, sonden mit Messwerten. Und diese Messwerte sind nun mal, wie sie sind - inklusive stochastischer und auch systematischer Fehler. Der beschriebene Effekt zeigt einen systematischen Fehler der Mess-Methode, was dafür spricht, das Mess-Verfahren zu ändern. Eine logische Möglichkeit, den systematischen Fehler aus den Daten rauszurechen, sehe ich hier nicht.
Du könntest den
Meßwert als Missing definieren und dann eine der vielen
Techniken benutzen, mit Missings umzugehen, beispielsweise
Deine Berechnungen nur auf Basis der beobachteten Daten
durchführen.
Ganz klar: Nein. Keine gute Idee. In diesem Fall wird das Ergebnis nämlich systematisch überschätzt.
Möglich wäre vielleicht auch für den fehlenden
Meßwerte, eine Zufallsziehung zwischen 0 und 100 exklusive
durchzuführen. Nützlich dafür wäre es zu wissen, wie die
Verteilung der Bakterienanzahl unter der Versuchsbedingung
aussieht. Das könnte man aus den Erhebungen schätzen, in denen
Meßwerte vorliegen, und das Ergebnis dann auf die Bedingung
mit fehlendem Meßwert extrapolieren.
Wenn das sinnvollwäre, könnte man gleich auf die Messungen verzichten und ein theoretisches Modell zur Erzeugung von „zufälligen“ Messwerten benutzen, die einer bereits bekannten empirischen Verteilung folgen.
Worauf ich noch hinweisen möchte: Es ist nicht richtig zu
behaupten, der Mittelwert könne nicht sinnvoll verwendet
werden, wenn die Daten nicht normalverteilt sind. Es ist auch
nicht richtig, daß man in dem Fall keinen t-Test oder keine
ANOVA rechnen dürfe.
Stimmt. Generell kann man das so nicht behaupten.
Beide Verfahren sind nämlich ziemlich
robust gegenüber Verletzungen der Normalverteilungsannahme.
Ja. Das gilt sehr gut dann, wenn die Verteilung zB. ungefähr normal ist (natürlich!), und wenn sie zumindest symmetrisch ist, aber nicht bimodal (was ganz andere Probleme aufwirft. Allerdings sind die Ergebnisse dieser Tests kaum zu gebrauchen, wenn die Verteilung sehr schief ist (Exponentialverteilung oder log-Normalverteilung). Meist lassen sich die Messwerte aber ganz gut transformieren, so dass auf den transformierten Daten fast immer auch der t-Test oder die ANOVA angewendet werden können. Die paar Daten, die man im Labor so mißt, reichen aber meist nicht aus, um die Form einer Verteilung abzuschätzen. Bei 5 Messwerten ist es kaum möglich, eine eigentlich symmetrische Verteilung mit Ausreißern von einer schiefen Verteilung zu unterscheiden. Meist werden leider keine (bzw. nicht genug) Daten erhoben, anhand derer die Verteilungen abgeschätzt werden können. Die Verteilungen von Bakterienzahlen sind meiner Erfahrung nach deutlich rechts-schief, daher ist IMHO hier Vorsicht angebracht. In eingereichten Publikationen wurde uns übrigends auch schon von Statistikern angemahnt, nicht-parametrische Tests zu verwenden, weil ihrer Ansicht nach der t-Test bei schiefen Verteilungen nicht hinreichend gut sei - nicht bei so wenigen Werten pro Gruppe (üblicherweise so 3-5 Werte!!!).
LG
Jochen