[Statistik] Daten ausserhalb Nachweisgrenze

Hallo,

ich hatte leider noch keine Gelegenheit das folgende Problem einem Biostatistiker anzutragen (erstmal einen finden! :wink:. Vielleicht koennt ihr mir ja schon etwas weiterhelfen. Kurz: manche meiner Daten liegen ausserhalb der Nachweisgrenze. Wie kann ich diese sinnvoll in meine statistischen Berechnungen einbeziehen?

Hier das Problem etwas genauer:
Ich zuechte Bakterien unter verschiedenen Bedingungen. Nach 24 Stunden bestimme ich die Anzahl der Bakterien in jedem der Kulturen. Die Methode, die ich hierfuer verwende, hat die Nachweisgrenze von 100 Bakterien pro ml Kultur. Alles was darunter ist erscheint als 0 Bakterien. Manchmal tummeln sich Bakterien in der Kultur in einer Anzahl, die nahe der Nachweisgrenze liegt. Wiederhole ich ein solches Experiment dreimal kommt es manchmal vor, dass ich bei einem der Experimente 0 Bakterien finde und bei den beiden anderen Experimenten 1000 Bakterien. Wie gehe ich mit dem Datensatz, der ausserhalb der Nachweisgrenze liegt, in Bezug auf Statistik (Mittelwert, Standardabweichuung, Berechung des p-Werts) um?

Vielen Dank!

Marcus

Wie gehe ich mit dem Datensatz,
der ausserhalb der Nachweisgrenze liegt, in Bezug auf
Statistik (Mittelwert, Standardabweichuung, Berechung des
p-Werts) um?

Es ist ein ganz normaler Messwert

Vielen Dank!

Bitte Schön

Marcus

Jens

Hallo,

zunächsteinmal ist ein Messwert von Null auch nur ein Messwert. Du musst bei weitergehenden Analysen in jedem Fall berücksichtigen, dass die Messwerte NICHT normalverteilt sind (also der Mittelwert ist kein guter Schätzer für einen „typischen Wert“, der Bereich plusminus eine Standardabw. um den Mittelwert ist dann auch nicht der Bereich, der 68% der Werte einschließt, du darft kein t-Test und keine ANOVA machen, um Unterschiede in den Mittelwerten zu testen). Bei mehr als 50 Werten je Messreihe können die Mittelwerte jedoch wieder als normalverteilt angenommen werden. Dan gehen auch wieder t-Test und ANOVA.

Wie du siehst, hilft dir schlicht die schiere Menge der Wiederholungen. Wenn du die eh hast, ist alles gut. Wenn nicht, solltest du dir mal Gedanken über ein besseres Meßprinzip machen. Natürlich könnte man ein empfindlicheres Meßgerät auftreiben. Oder man könnte die Dichten der Bakterien vor der Messung erhöhen (zB. Pelletieren und Pellets in weniger Medium wieder aufnehmen). Vielleicht ist es auch möglich, die Bakterien mit einem Farbstoff zu markieren, den man mit höherer Empfindlichkeit messen kann (zB. inkorporation von Radionukliden oder Fluoreszenz-Färbung über Antikörper oder oder).

Noch ein Hinweis am Rande: Die Zahl der Bakterien in einer Kultur sind Poisson-verteilt. Mit hilfe dieses Verteilungsmodells kannst du zB. ausrechnen, wieviele der Kulturen mit einem Erwartungswert von 100 Bakterien/ml bei der Messung „negativ“ sind (im Mittel, natürlich).

Wie gehe ich mit dem Datensatz,
der ausserhalb der Nachweisgrenze liegt, in Bezug auf
Statistik (Mittelwert, Standardabweichuung, Berechung des
p-Werts) um?

Mittelwert + Standardabweichuung sind deskriptive Größen. So what?!

p-Wert von was? Meinst du die empirische Wahrscheinlichkeit des zufälligen Auftretens von Mittelwertunterschieden, die mind. so extrem sind wie die beobachteten, unter der Hypothese, dass eigentlich keine vorhanden sind? Wenn ja: siehe oben. Zusätzliche Anmerkung: bei wenigen Messwerten kannst du den Mann-Whitney U-Test (Rangsummentest) bzw. den Kruskal-Wallis-Test verwenden. Die haben aber eine geringe Power, gerade _wenn_ du nur wenige Messwerte hast.

LG
Jochen

Hallo,

Wie gehe ich mit dem Datensatz,
der ausserhalb der Nachweisgrenze liegt, in Bezug auf
Statistik (Mittelwert, Standardabweichuung, Berechung des
p-Werts) um?

schwierig. Den Wert Null zu benutzen, erscheint mir als keine gute Entscheidung, da die Anzahl der Bakterien kaum Null sein dürfte, sondern lediglich unter 100 liegt. Du könntest den Meßwert als Missing definieren und dann eine der vielen Techniken benutzen, mit Missings umzugehen, beispielsweise Deine Berechnungen nur auf Basis der beobachteten Daten durchführen. Möglich wäre vielleicht auch für den fehlenden Meßwerte, eine Zufallsziehung zwischen 0 und 100 exklusive durchzuführen. Nützlich dafür wäre es zu wissen, wie die Verteilung der Bakterienanzahl unter der Versuchsbedingung aussieht. Das könnte man aus den Erhebungen schätzen, in denen Meßwerte vorliegen, und das Ergebnis dann auf die Bedingung mit fehlendem Meßwert extrapolieren.

Worauf ich noch hinweisen möchte: Es ist nicht richtig zu behaupten, der Mittelwert könne nicht sinnvoll verwendet werden, wenn die Daten nicht normalverteilt sind. Es ist auch nicht richtig, daß man in dem Fall keinen t-Test oder keine ANOVA rechnen dürfe. Beide Verfahren sind nämlich ziemlich robust gegenüber Verletzungen der Normalverteilungsannahme.

Beste Grüße,

Oliver Walter

Hallo Oliver,

schwierig. Den Wert Null zu benutzen, erscheint mir als keine
gute Entscheidung, da die Anzahl der Bakterien kaum Null sein
dürfte, sondern lediglich unter 100 liegt.

Andererseits: Du machst die Analyse ja nicht mit Bakterienzahlen, sonden mit Messwerten. Und diese Messwerte sind nun mal, wie sie sind - inklusive stochastischer und auch systematischer Fehler. Der beschriebene Effekt zeigt einen systematischen Fehler der Mess-Methode, was dafür spricht, das Mess-Verfahren zu ändern. Eine logische Möglichkeit, den systematischen Fehler aus den Daten rauszurechen, sehe ich hier nicht.

Du könntest den
Meßwert als Missing definieren und dann eine der vielen
Techniken benutzen, mit Missings umzugehen, beispielsweise
Deine Berechnungen nur auf Basis der beobachteten Daten
durchführen.

Ganz klar: Nein. Keine gute Idee. In diesem Fall wird das Ergebnis nämlich systematisch überschätzt.

Möglich wäre vielleicht auch für den fehlenden
Meßwerte, eine Zufallsziehung zwischen 0 und 100 exklusive
durchzuführen. Nützlich dafür wäre es zu wissen, wie die
Verteilung der Bakterienanzahl unter der Versuchsbedingung
aussieht. Das könnte man aus den Erhebungen schätzen, in denen
Meßwerte vorliegen, und das Ergebnis dann auf die Bedingung
mit fehlendem Meßwert extrapolieren.

Wenn das sinnvollwäre, könnte man gleich auf die Messungen verzichten und ein theoretisches Modell zur Erzeugung von „zufälligen“ Messwerten benutzen, die einer bereits bekannten empirischen Verteilung folgen.

Worauf ich noch hinweisen möchte: Es ist nicht richtig zu
behaupten, der Mittelwert könne nicht sinnvoll verwendet
werden, wenn die Daten nicht normalverteilt sind. Es ist auch
nicht richtig, daß man in dem Fall keinen t-Test oder keine
ANOVA rechnen dürfe.

Stimmt. Generell kann man das so nicht behaupten.

Beide Verfahren sind nämlich ziemlich
robust gegenüber Verletzungen der Normalverteilungsannahme.

Ja. Das gilt sehr gut dann, wenn die Verteilung zB. ungefähr normal ist (natürlich!), und wenn sie zumindest symmetrisch ist, aber nicht bimodal (was ganz andere Probleme aufwirft. Allerdings sind die Ergebnisse dieser Tests kaum zu gebrauchen, wenn die Verteilung sehr schief ist (Exponentialverteilung oder log-Normalverteilung). Meist lassen sich die Messwerte aber ganz gut transformieren, so dass auf den transformierten Daten fast immer auch der t-Test oder die ANOVA angewendet werden können. Die paar Daten, die man im Labor so mißt, reichen aber meist nicht aus, um die Form einer Verteilung abzuschätzen. Bei 5 Messwerten ist es kaum möglich, eine eigentlich symmetrische Verteilung mit Ausreißern von einer schiefen Verteilung zu unterscheiden. Meist werden leider keine (bzw. nicht genug) Daten erhoben, anhand derer die Verteilungen abgeschätzt werden können. Die Verteilungen von Bakterienzahlen sind meiner Erfahrung nach deutlich rechts-schief, daher ist IMHO hier Vorsicht angebracht. In eingereichten Publikationen wurde uns übrigends auch schon von Statistikern angemahnt, nicht-parametrische Tests zu verwenden, weil ihrer Ansicht nach der t-Test bei schiefen Verteilungen nicht hinreichend gut sei - nicht bei so wenigen Werten pro Gruppe (üblicherweise so 3-5 Werte!!!).

LG
Jochen

Hallo,

Andererseits: Du machst die Analyse ja nicht mit
Bakterienzahlen, sonden mit Messwerten. Und diese Messwerte
sind nun mal, wie sie sind - inklusive stochastischer und auch
systematischer Fehler. Der beschriebene Effekt zeigt einen
systematischen Fehler der Mess-Methode, was dafür spricht, das
Mess-Verfahren zu ändern.

der Wert „Null“ sagt hier - soweit ich es aus dem Posting des Users entnommen habe - nur aus: die Anzahl der Bakterien liegt unter der Nachweisgrenze. Das sind weniger als 100, nicht 0.

Du könntest den
Meßwert als Missing definieren und dann eine der vielen
Techniken benutzen, mit Missings umzugehen, beispielsweise
Deine Berechnungen nur auf Basis der beobachteten Daten
durchführen.

Ganz klar: Nein. Keine gute Idee. In diesem Fall wird das
Ergebnis nämlich systematisch überschätzt.

Das ist mir klar.
Wenn man den „Meßwert“ Null nähme, würde das Ergebnis systematisch unterschätzt. Vielleicht doch eine Zufallsziehung zwischen 0 und 100. Vielleicht liegt man in the long run richtig.

Wenn das sinnvollwäre, könnte man gleich auf die Messungen
verzichten und ein theoretisches Modell zur Erzeugung von
„zufälligen“ Messwerten benutzen, die einer bereits bekannten
empirischen Verteilung folgen.

Kann man auch unter bestimmten Umständen mit bestimmten Verfahren. Kannst Du u.a. in meiner Dissertation nachlesen.

Die
Verteilungen von Bakterienzahlen sind meiner Erfahrung nach
deutlich rechts-schief, daher ist IMHO hier Vorsicht
angebracht. In eingereichten Publikationen wurde uns übrigends
auch schon von Statistikern angemahnt, nicht-parametrische
Tests zu verwenden, weil ihrer Ansicht nach der t-Test bei
schiefen Verteilungen nicht hinreichend gut sei - nicht bei so
wenigen Werten pro Gruppe (üblicherweise so 3-5 Werte!!!).

Inhaltlich magst Du recht haben, mit Bakterienzählen kenne ich mich nicht aus. Womit ich mich aber ein bißchen auskenne, sind statistische Verfahren und Forschungsmethoden. Man muß im konkreten Fall immer neu beurteilen, welche Verfahren für die Analyse seiner Daten angemessen sind. A priori irgend etwas zu raten (auch wenn Reviewer es einmal gesagt haben), ohne die Daten analysiert zu haben, verbietet sich. Deshalb habe ich darauf hingewiesen, daß man den allzu oft getanen reflexartigen Hinweis „Nonparametrisch“ nicht unkritisch aufgreifen sollte.

Beste Grüße

Oliver Walter

Hallo!

Ich danke Euch allen fuer Eure Antworten!

Marcus