Statistik-Frage

Hallo Allerseits,

Ich habe für eine Testreihe die folgenden statistischen Werte: Minimum, Mittelwert, Maximum, Median, Standardabweichung und Mittelwert 90 % (Mittelwert nach entfernen von jeweils 5 % der höchsten und niedrigsten Werte).

Meine Frage wäre ob ich aus diesen Werten mit einer bekannten Fehlerwahrscheinlichkeit einen Wert für Maximum 99 % (Maximum nach entfernen von 1 % der höchsten Werte) berechnen kann.

Leider bin ich statistisch nicht sehr bewandert und hab keine Ahnung ob sowas möglich ist und wenn ja wie es gehen könnte. Wie gesagt ist mir aber klar, dass es auf keinen Fall exakt berechenbar ist, wenn die Fehlerwahrscheinlichkeit aber bekannt ist würde das ausreichen.

Danke und Grüße, Robert

Auch hallo.

Ich habe für eine Testreihe die folgenden statistischen :Werte:
Minimum, Mittelwert, Maximum, Median, :Standardabweichung und
Mittelwert 90 % (Mittelwert nach entfernen von jeweils :5 % der
höchsten und niedrigsten Werte).

Meine Frage wäre ob ich aus diesen Werten mit einer :bekannten
Fehlerwahrscheinlichkeit einen Wert für Maximum 99 % :frowning:Maximum
nach entfernen von 1 % der höchsten Werte) berechnen :kann.

Dazu müsste man auch die Verteilung der Stichprobe kennen. Mit einer Normalverteilung wäre das ganz einfach wie bei einem zweiseitigen Konfidenzintervall 1-0,99/2: http://de.wikipedia.org/wiki/Konfidenzintervall -> „Ausgewählte Konfidenzintervalle“
Bei anderen Verteilungen wäre die Sache ähnlich zu berechnen.

mfg M.L.

Hallo,

ohne die Kenntnis der FORM der Verteilung ist eine solche Aussage anhand von Statistiken NICHT möglich.

Mit „Form der Verteilung“ ist die Verteilungsart gemeint: Ist es eine Normalverteilung, eine Gleichverteilung, eine log-Normal-Verteilung, eine Poisson-Verteilung, eine Bessel-Verteilung, eine Exponentialverteilung, eine negative Binomialverteilung, eine … usw usw usw.

WENN du aber weißt, welche Verteilung deine Daten haben, dann kann man aus mehr oder weniger vielen Statistiken eine solche Verteilung rekonstruieren und damit kann man dann natürlich aus sagen, wie das 1%-gestutzte Mittel aussieht. Will heißen: Man kann es SCHÄTZEN. Wie gut die Schätzung ist, hängt dann davon ab, wie gut deine tatsächlichen Daten dem theoretischen Verteilungsmodell folgen (und wie viele Daten du hast).

Wenn die Daten symmetrisch (zB. Normal- oder gleich-) verteilt sind, dann sind Mittelwert und Median gleich und der Abstand vom Minimum zum Mittelwert ist etwa genausogros wie der Abstand vom Maximum zu Mittelwert. Genauso ist es auch für alle gestutzten Extremwerte, bis hin zu den „100%-gestutzen Werten“, also auf beiden Seiten je 50% der Werte weg, so dass nur der mittlere Wert bleibt, und das ist der Median, der ja gleich dem Mittelwert ist.

Wenn deine Daten gleichverteilt sind, heißt das ja, dass in jedem (gleichgroßen) Intervall im Mittel gleich viele Werte liegen. Andersherum bedeutet das, dass das Intervall mit den 99% Daten (gestutzt) 99% des Gesamtintervalls umfaßt, so wie das Intergvall mit 90% der Daten 90% des Gesamtintervalls umfasst usw.

Sind deine Daten hingegen Normalverteilt, liegen 64% der Werte im Bereich zwischen Mittelwert plusminus einer Standardabweichung, 95% der Werte im Bereich zwischen Mittelwert plusminus 2 Standardabweichungen, 99% der Werte im Bereich zwischen Mittelwert plusminus 3 Standardabweichungen. Genauso kann man anhand der Formel für die Normalverteilung berechnen, welchen Bereich (die zentralen) x% der Werte überspannen.

Langer Rede kurzer Sinn: Ohne Kenntnis der Art/Form der Verteilung geht es nicht. Kennt man das zugrunde liegende Verteilungsmodell, kann man es recht einfach schätzen (Schätzen heißt hier, den Wert aus dem Modell zu berechnen). Wenn du da genaueres weisst, melde dich nochmal.

Ach ja, falls du aus theoretischen Überlegungen keine Ahnung hast, um was für eine Verteilung es sich handelt, sieht’s schlecht aus. Man kann statistisch prüfen, ob die empirische Verteilung (deiner Daten) von einer theoretischen Verteilung abweicht, aber es gibt kein (mir bekanntes) Verfahren, mit dem man nachweisen kann, dass sie übereinstimmen. Aus der explorativen Datenanalyse gibt es die QQ-Plots (Quantile-Quantile-Plots), die einem einen visuellen Eindruck einer Übereinstimmung vermitteln. Je nach konkretem Fall ist das aber nicht sonderlich robust, insbesondere, wenn nur relativ wenige „extreme“ Daten vorliegen (so wie das bei der Normalverteilung der Fall ist).

LG
Jochen

… wir sind spontan der selben Meinung :smile:

LG
Jochen

… wir sind spontan der selben Meinung :smile:

Mit so ein wenig Übung geht das :wink:
Aber wie wird B.R. so schön zitiert (bzw. nachgesagt): „Selbst wenn alle Fachleute einer Meinung sind, können sie sehr wohl im Irrtum sein.“ (Quelle: http://de.wikipedia.org/wiki/Experte)

mfg M.L.

Der Spruch ist weise. Gut, dass ich im Ggs. zu Dir was das betrifft kein Fachlaut bin :wink:

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Hallo Marcus und Jochen,

Danke für eure Antworten. :smile:

Bei den Daten handelt sich um Messergebnisse eines Leistungstests einer Website, jedes Messergebnis stellt die Reaktionszeit bei einem Testaufruf dar.

Die mir bekannten, statistischen Werte schauen leider weder normal- noch gleichverteilt und auch nicht symetrisch aus. Es scheint einige extreme Ausreisser nach oben zu geben während die Werte im unteren Bereich recht stabil aussehen.

Z. B. hier die Werte einer Messreihe:

Minimum: 3,98
Mittelwert: 12,01
Maximum: 49,13
Median: 8,27
Standardabweichung: 8,96
Mittelwert 90 %: 10,82

Die Werte sind alle in Sekunden und die eigentlich zu prüfende Anforderung ist, dass 99 % aller Zugriffe in einer Zeit unter 2 Sekunden abgearbeitet werden (wie man aus den Werten sehen kann ist die Anwendung auf jeden Fall noch weit davon entfernt, aber das ist Gott sei Dank nicht mein Problem :wink:.

Könnte man aus den obigen Werten auf eine bestimmte Verteilung schließen?

Allgemein ist es aber so, dass die einzelnen Messergebnisse schon zur Verfügung stehen, die sind nur in einem Tool gespeichert, dass nur die obigen Werte berechnet und nach aktuellem Kenntnisstand keine Möglichkeit bietet die Werte zur Weiterverarbeitung zu exportieren.

Falls es also mit der Statistik nicht klappt können wir das Problem noch immer von der IT-Seite angehen und beim Hersteller des Tools anfragen wie man die Werte denn da rauskitzeln könnte.

Danke und schöne Grüße, Robert

Hallo nochmal.

Bei den Daten handelt sich um Messergebnisse eines
Leistungstests einer Website, jedes Messergebnis stellt die
Reaktionszeit bei einem Testaufruf dar.

Aha

Die mir bekannten, statistischen Werte schauen leider weder
normal- noch gleichverteilt und auch nicht symetrisch aus. Es
scheint einige extreme Ausreisser nach oben zu geben während
die Werte im unteren Bereich recht stabil aussehen.
Könnte man aus den obigen Werten auf eine bestimmte Verteilung
schließen?

Nein. Aber das Mittel wäre ein sog. Anpassungstest, z.B. Chi-Quadrat. Aber auch diese enthalten einen Standardfehler. Die verbale Beschreibung deutet auf eine rechtsschiefe Verteilung hin.
Lt. http://de.wikipedia.org/wiki/Liste_von_Wahrscheinlic… -> http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-ind…
kämen folgende Verteilungen in Frage: geometrisch, Poisson, Beta (p

Hallo,

ich stimme Marcus mal wieder zu (ja,Übung macht den Meister…).

Ohne die Originaldaten hast du keine Chance.Es könnte sich um alle möglichen Verteilungen handeln (auch um solche, zu denen wir keine schönes Statistisches Modell kennen). Da die Daten eh elektronisch aufgezeichnet werden und das doch eh nix kostet, braucht man doch nicht irgendwelche Hochrechnungen hernehmen, sondern kann sich direkt alle Daten ansehen.

@Marcus:

Der Chi²-Test sagt dir auch nur, wann deine empirischen Daten NICHT zur Verteilung passen - hier ist aber der umgekehrte Falle gesucht.

LG
Jochen