Statistik

Liebe/-r Experte/-in,
ich habe vor ein paar Tagen folgende Frage im Forum gestellt, aber leider keine Antwort erhalten. Vielleicht weisst du hier weiter? Meine Frage dreht sich darum wie in der Statistik signifikante Werte bestimmt werden.

Das Problem sieht folgendermassen aus: Ich habe eine Reihe von Werten (z.B. gemessene Anzahlen von Kaefern an 1000 Messpunkten). Fuer jeden von diesen Werten habe ich eine Statistik bestimmt (im konkreten Fall: die Getis-Ord Gi* Statistik). Diese Statistik ist angeblich so bearbeitet (Standardisiert?) dass sie quasi eine Z-Statistik darstellt, d.h. sie fuer jeden Wert angibt wieviele Standardabweichungen die Kaeferanzahl vom Mittelwert abweicht. Wenn die gemessenen Kaefer Anzahlen normal verteilt sind, kann man die Statistik daher nutzen die signifikanten Werte zu bestimmen (die Werte bei denen Z + oder - 1.96 gross ist, falls ein Significanzlevel von 95% angenommen wird).

So, meine Daten sind aber nun nicht normal Verteilt. Ein Statistiker hat mir empfohlen einfach die „top 1%“ (oder 5% oder was auch immer mein level ist) meiner Ergebnisse zu waehlen. Das wuerde zwar einen Signifikanztest simulieren, aber nicht eine bestimmte Haeufigkeitsverteilung voraussetzen. Ein Behelf, wenn denn die Normalverteilung nicht gegeben ist.

Wie waehle ich jetzt die "top 1% aus?
(a) die top 1% Werte: ich zaehle wieviele Werte ich habe und bestimme wieviel 1% davon ist (bei 1000 Messwerten also 10), und waehle dann entsprechend viele Messwerte aus, beginnend mit den hoechsten.

b) die top 1% der „population“: ich summiere alle Messwerte auf (ergibt z.B. 20.000 Kaefer insgesamt fuer die Population), bestimme wsa 1% davon ist (also 200 Kaefer), und addiere dann, beginnend mit den hoechsten Messwerten, so lange Werte auf, bis ich die gewuenschte Anzahl erreicht habe.

Welcher von den beiden Ansaetzen simuliert die Bestimmung von Signifikanz in einer Normalverteilung am besten?
Vielen Dank fuer die Hilfe!!!

Kerstin

Hi!

Wenn du „sauber“ sein willst wirst du eine Verteilungsart (normal, binomial,Bermoulli, Poisson, Weibull,…) suchen müssen die zu deinen Daten passt.

Bei 1000 Datensätzen geb ich deinem Statistiker aber recht, dass du keinen wirklichen Fehler machst wenn du einfach x% abschneidest - nach deiner Variante a.

Das kann beispielsweise auch Excel mit der Funktion quantil bzw. quantil.inkl (Office 2010). Da brauchst du nicht selber zu sortieren und zu streichen.

Viele Grüße
Robert

Hallo,

ich hoffe, ich habe deine Frage richtig verstanden. Der Vergleichswert deiner Prüfstatistik wird ja aus der Grundgesamtheit übernommen (die in vielen Fällen normalverteilt ist, aber halt nicht immer). Das heißt, du musst auch bei deinem Test einen entsprechenden Wert aus der Grundgesamtheit (oder wie du sagen würdest: Population) verwenden.

Gruß, Andreas

Hallo Andreas,
vielen Dank fuer die schnelle Antwort. Wenn ich dich richtig vertstehe plaedierst du fuer Loesungsvorschlag b, ist das richtig? Nur um sicher zu gehen: du glaubst ich muesste 1% der Population nehmen um einen 1% Signifikanzlevel zu imitieren, nicht 1% der Werte.

Wenn das richtig ist stecke ich nun in einem Dilemma. Ein weiterer Experte hat mir naemlich Variante a empfohlen und mit dem Prinzip der Auswahl von Quantilen verglichen. Kannst du mir vielleicht nochmal genauer erklaeren warum du b favorierst?

Ich bin Biologin, d.h. wir verwenden solche Statistik am laufenden Band, ohne allerdings (im Normalfall) die mathematischen Feinheiten und Begriffe im Detail zu verstehen. Was ich in deiner Antwort noch nicht verstanden habe ist was der Vergleichswert einer Pruefstatistik ist. Die Grundgesamtheit sind (soweit ich weiss) schlicht meine 1000 Messwerte (e.g. 15, 72, 3, …gezaehlte Kaefer). Ich weiss auch was eine Haeufigkeitsverteilung dieser Werte ist. Was ich nicht weiss ist wie entschieden wird ab welchem Wert die significanten 1% beginnen…
Vielen Dank fuer die Hilfe!

Kerstin

Hallo Kerstin,

ich würde Variante (a) wählen, da sich ja die Verteilung (erhoffte Normalverteilung) auf die Werte an den 1000 Messpunkten bezieht und so wie ich das verstanden habe dort jeweils die Anzahl der Käfer gemessen wird.

Ich kann da keine Garantie geben, aber so würde ich das verstehen.

Viele Grüße
Anja