Standardabweichung

sevenless · 23. Oktober 2006 um 13:16

Hallo,
ich bin ein Mathe-Dummi und muss jetzt mal zwecks Doktorarbeit etwas erfragen. Also - habe verschiedene Tests gemacht und für jeden Test jeden Wert 3fach ermittelt.
Also 1. Test am ersten Tag 3 Werte usw…
jetzt muss ich da so einen Fehlerbalken berechnen. Ist das die Standardabweichung oder der Standardfehler oder meinen die beiden das gleiche? Welches bräuchte ich denn in meinem Fall und wie berechne ich das dann? - also letztendlich muss es dann so einen Fehlerbalken nach oben und nach unten geben in der Grafik.

Wäre für Antworten sehr dankbar.

M_L_ · 23. Oktober 2006 um 14:25

Auch hallo.

ich bin ein Mathe-Dummi und muss jetzt mal zwecks Doktorarbeit
etwas erfragen.

Fachbereich Medizin ?

Also - habe verschiedene Tests gemacht und für
jeden Test jeden Wert 3fach ermittelt.
Also 1. Test am ersten Tag 3 Werte usw…

ok (das haben Zahlen so an sich…)

jetzt muss ich da so einen Fehlerbalken berechnen. Ist das die
Standardabweichung oder der Standardfehler oder meinen die
beiden das gleiche?

Für die Standardabweichung bräuchte man den Typ der Verteilung sowie den Mittelwert. I.A. wäre das aber die Formel
„Wurzel Summe (i=1 bis n) (Mittelwert - x_i)“

Welches bräuchte ich denn in meinem Fall
und wie berechne ich das dann? - also letztendlich muss es
dann so einen Fehlerbalken nach oben und nach unten geben in
der Grafik.

So ähnlich wie die Grafik der Gausskurve, nur eben transponiert und nicht stetig gezeichnet, sondern diskret ? http://de.wikipedia.org/wiki/Bild:Normalverteilung_d…

mfg M.L.

sevenless · 23. Oktober 2006 um 15:47

Auch hallo.

ich bin ein Mathe-Dummi und muss jetzt mal zwecks Doktorarbeit
etwas erfragen.

Fachbereich Medizin ?

ja na klar - wo sammeln sich sonst die mathedummies?

Also - habe verschiedene Tests gemacht und für
jeden Test jeden Wert 3fach ermittelt.
Also 1. Test am ersten Tag 3 Werte usw…

ok (das haben Zahlen so an sich…)

ich weiss - aber andere dummies könnten dann vielleicht mehr mit meinem beitrag anfangen

jetzt muss ich da so einen Fehlerbalken berechnen. Ist das die
Standardabweichung oder der Standardfehler oder meinen die
beiden das gleiche?

Für die Standardabweichung bräuchte man den Typ der Verteilung
sowie den Mittelwert. I.A. wäre das aber die Formel
„Wurzel Summe (i=1 bis n) (Mittelwert - x_i)“

und was ist jetzt mit dem standardfehler? - woher weiss ich den typ der verteilung. im prinzip hab ich in meiner dissertation einfach mal geguckt wieviel von welchem gen in verschiedenen zellen ist.

Welches bräuchte ich denn in meinem Fall
und wie berechne ich das dann? - also letztendlich muss es
dann so einen Fehlerbalken nach oben und nach unten geben in
der Grafik.

So ähnlich wie die Grafik der Gausskurve, nur eben
transponiert und nicht stetig gezeichnet, sondern diskret ?

was meint nicht stetig sondern diskret?
und wie wende ich die formel von oben auf mehrere werte an? berechne ich zuerst einen mittelwert aus mehreren ergebnissen eines tests (z. b. nach einer dreifachbestimmung in einem test) oder berechne ich den mittelwert aller ergebnisse aus mehreren tests bezüglich einer Probe (dreifachbestimmung aus test eins und test zwei). oder berechne ich das ganze direkt über die einzelwerte?

http://de.wikipedia.org/wiki/Bild:Normalverteilung_d…

mfg M.L.

vielen lieben dank schonmal für den versuch einer erklärung, aberich bin halt wie gesagt echt kein mathegenie!! sorry…

M_L_ · 23. Oktober 2006 um 16:37

Hallo nochmal.

Fachbereich Medizin ?

ja na klar - wo sammeln sich sonst die mathedummies?

Weniger deswegen, sondern wg. der Doktorarbeit im Alter wie es die Vika angibt

jetzt muss ich da so einen Fehlerbalken berechnen.

http://de.wikipedia.org/wiki/Fehlerbalken (hätte man ja gleich mal nachschauen können…) Oder das hier: http://images.google.de/images?hl=de&q=fehlerbalken&…

Ist das :die Standardabweichung

ja

oder der Standardfehler oder meinen die

beiden das gleiche?

nein

und was ist jetzt mit dem standardfehler? - woher weiss ich
den typ der verteilung.

Stichwort: Anpassungstest. Aber aus den Einzelwerten DIE Verteilung zu bekommen ist immer fehlerbehaftet.

im prinzip hab ich in meiner
dissertation einfach mal geguckt wieviel von welchem gen in
verschiedenen zellen ist.
was meint nicht stetig sondern diskret?

Die Kurve ist ‚nur‘ idealisiert und die Folge sehr vieler einzelner Balken. So wie hier: http://www.ps-explore.de/assets/images/Hist.gif

oder berechne ich das ganze direkt
über die einzelwerte?

So wie sich das anhört sollte man wohl erst über die drei Werte gehen. Und danach über die Einzelwerte. Aber letztlich dürfte sich das nichts geben…

HTH
mfg M.L.

Jo1_a88223 · 23. Oktober 2006 um 16:48

Auch hallo.

Du hast also Genexpressionen bestimmt.

Wenn ich mich als Biologe da einmischen darf…

Mit welcher Methode? Bzw. als was liegen die Werte vor (Transkripte pro Zelle oder Delta-Delta-Cp-Wert einer real-time-PCR oder Intensitätswerte eines Northern-Blots oder…?)

Wenn es sowas wie „Transkripte pro Zelle“ sind, dann sind die etwa log-normalverteilt. D.h., die Logarithmen dieser Werte sind etwa normalverteilt.

Delta-Delta-Cp-Werte sind im Prinzip Logarithmen von Konzentrationen, also sind die auch etwa normalverteilt.

Bei Intensitätswerten ist’s schwierig. Hängt vom System, dem Meßbereich usw. ab. Hier wäre ich mit der Annahme einer Normalverteilung vorsichtig.

Grundsätlich nicht normalverteilt sind die Werte immer dann, wenn fast nichts da ist. Dann hast du’s nämlich mit einer Poisson-Verteilung zu tun.

Wenn du sehr viele Daten pro Gruppe hast (mehr als 30-50 !!), dann kann dir die Verteilung praktisch egal sein, weil die Mittelwerte aus so vielen Werten immer etwa normalverteilt sind. Du hast aber deutlich zu wenige Werte, um das einfach sagen zu können.

Wenn du normalverteilte Daten hast, dann liegt der Mittelwert in der Mitte der Verteilung, ist also ein guter „typischer Wert“. Es ist also gleich wahrscheinlich, größere wie auch kleinere Werte zu finden. Wenn die Daten aber nicht-normal sind, dann kann man zB. sehr viel größere Werte finden, aber nicht sehr viel kleinere Werte (das wäre der Fall bei einer Poisson-Verteilung. Wenn fast nichts drin ist, ist der Mittelwert relativ klein, es können mal sehr viel mehr Transkripte in einer Probe sein, aber nicht sehr viel weniger - sonst wäre die Anzahl ja negativ).

Zur Darstellung:

Wenn man viele Daten hat, muß man sie zusammenfassen, weil man sonst den Wald vor Bäumen nicht sieht. Das macht man durch ein Maß für die LOKALISATION und einem Maß für die DISPERSION (Streuung). Als Lokalisationsmaß kann man den Mittelwert oder (bei nicht-normalverteilten Daten) den Median nehmen. Als Streumaß kann man die Standardabweichung, das 95%-Konfidenzintervall oder den Interquartilsbereich nehmen.

Bei dir ist es eigentlich Schwachsinn, 3 Datenwerte in zwei Maßzahlen zusammenzufassen. Wozu?! Zeig doch die Werte selbst.

Den Standardfehler (sem) nimmt man dann als „Fehlerindikator“, wenn man zeigen will, wie genau man den Mittelwert bestimmt hat. Das macht auch nur bei normalverteilten Daten Sinn - und eben auch nur dann, wenn die Genauigkeit der Mittelwertbestimmung entscheindender ist als die Varianz der Daten.

Übrigends: Bei normalverteilten Daten ist der Bereich zwischen m-sem und m+sem etwa das 68%-Konfidenzintervall, der Bereich zwischen m-2sem und m+2sem etwa das 95%-Konfidenzintervall.

Zum Test auf Lageunterschiede:

Wenn du jetzt testen möchtest, ob im Zelltyp A eine andere (mittlere) Anzahl von Transkripten in deiner Probe ist als in Typ B, dann verwendest du ja einen Hypothesentest. Bei etwa normalverteilten Daten kannst du den t-Test nehmen. Ansonsten mußt du einen sog. nicht-Parametrischen Test nehmen (Mann-Whitney-Wilcoxon).

Möchtest du wissen, ob in einer Reihe von Bedingungen (A, B, C,…) irgendwo die Expression verändert ist, machst du eine ANOVA (bei normalverteilten Daten, bzw. ein nicht-parametrisches Äquivalent (Kruskal-Wallis-Test). Wenn der signifikant ist, kannst du einen Post-hoc-Test anschließen, um herauszufinden, welche Bedingungen sich hinsichtlich der Expression unterscheiden.

Dein Kernproblem aber bleibt der sehr geringe Stichprobenumfang (n=3). Die Tests können so etwaige Unterschiede leicht übersehen („Falsch-negatives Ergebnis“). Ein nicht-signifikantes Ergebnis sagt dir also überhaupt nichts (außer vielleicht: „hätte man mehr Proben untersucht, hätte man vielleicht sehen können…“).

So, ich hoffe, das war nicht zu mathematisch.

LG
Jochen