Keine Normalverteilung - was nun?

Hallo,

folgende Versuchserklaerung:
Ich habe etliche Mikroskopbilder von (jeweils mehreren) Zellen, die Puenktchen aufweisen. Manche dieser Bilder zeigen Zellen die behandelt worden, andere sind unbehandelt. Mein Datensatz sieht nun vereinfacht wie folgt aus (die Info, ob/womit die Zellen behandelt sind, hab ich der Uebersicht halber weggelassen, ist aber auch vorhanden):

„Bild“ „Zelle“ „Anzahl der Puenktchen“
1 1 7
1 2 5
1 3 0

n m x

Nun interessiert mich, ob es Bilder gibt von behandelten Zellen, die statistisch signifikant Abweichen was die anzahl der Puenktchen anbetrifft (in Bezug auf die unbehandelten Zellen natuerlich).

Problem: Die Daten sind nicht normalverteilt.

Das Histogram (Daten von unbehandelten Zellen) sieht so aus:

http://rapidshare.com/files/443400294/verteilung.png

Hat jemand eine Idee, wie ich das Problem angehen muss? Kann ich irgendwie eine Normalverteilung draus machen?

July

HI,

eine Normalverteilung ist gar nicht notwendig.
es handelt sich hier um einen Zählprozess, der durch eine Poisson-Verteilung abgebildet werden kann.

Nun kommt es aber darauf an, was deine samples sind: sind die Bilder alle von Zellverbänden verschiedener strains oder sind das genetische clone?

Je nachdem muss man die gezählten Werte gruppieren um eine vernünftige Schätzung zu bekommen. dieser Schritt ist der entscheidende Punkt, denn sonst hast du ggf. pseudo-replikate
Anschließend kann man mit einem GLM-Modell in Verbindung mit einem hurdle-modell oder einem zero-inflated-Modell die beiden Gruppen vergleichen.

Hört sich jetzt vllt abgefahren an, ist es aber eigentlich gar nicht so sehr (am besten in dieser Reiehnfolge lesen):
http://de.wikipedia.org/wiki/Poisson-Verteilung
http://de.wikipedia.org/wiki/Generalisierte_Lineare_…
http://www.jstatsoft.org/v27/i08
http://www.springerlink.com/content/v7m862356255qj78/
http://www.maths.uq.edu.au/~gjm/lwsym_smmr06.pdf

Viele Grüße,
JPL

Hallo,

du hast Zähldaten. Zähldaten stammen aus sogenannten Poisson-Prozessen und sind wie spannend! - Poisson-Verteilt.

Wie ich das sehe, hast Du prinzipiell zwei Möglichkeiten, Unterschiede in den Verteilungen von Zähldaten in den zwei Gruppen zu anaysieren:

  1. per Chi²-Test, wo du generel Unterschiede in den Häufigkeitsverteilungen testest und

  2. per Poisson-Regression, welche die Erwartungswerte für die Anzahlen in den beiden Gruppen schätzt.

zu 1:

Hier säumst Du das Pferd von hinten auf. Statt zu fragen: „Sind in behandelten Zellen im Mittel mehr Pünktchen als in unbehandelten?“ fragst du: „Unterscheiden sich Verteilungen der Anzahlen in beiden Gruppen“. Das kann man mit statistischer Sicherheit untersuchen, und dann schaut man sich die Histogramme an um zu beurteilen, ob der statistisch nachgewiesene Unterschied dadurch zustande kommt, dass ein Histogramm eher kleinere Werte zeigt als das andere (oder umgekehrt). Die Methode ist sehr einfach (und in Excel noch zu machen), aber sie liefert halt nicht ganz genau das, was du eigentlich wissen willst.

zu 2:

Etwas schwierigere Methode (und zB. in Excel überhaupt nicht mehr drin), dafür liefert sie genau das, was du wissen willst, mit Konfidenzintervallen und allem drum & dran. Bei dieser regression ist deine Abhängige Variable ein Zählwert und die Unabhängige Variable ist ein Faktor mit zwei Stufen (behandelt/unbehandelt). Sowas kann man mit Verallgemeinerten linearen Modellen rechnen (engl: GLM: Generalized Linear Models). Wie es von deinen Histogrammen aussieht, hast du wahrscheinlich mehr Nullen als vom Poisson-Prozess erwartet. Sowas nennt sich dann „zero-inflated“. Es gibt spezielle Modelle, die sowas handlen, z.B. „Quasi-Poisson“-Modelle und Modelle mit negativ-binomial-verteilten Fehlern. Statistikprogramme können sowas. Etwas Literatur zum Einlesen findest du zB. hier:

http://cameron.econ.ucdavis.edu/racd/trcountI4up.pdf
http://data.princeton.edu/wws509/notes/c4.pdf
http://cran.r-project.org/web/packages/pscl/vignette…

Viel Spaß!
Jochen

Hallo,

hätte ich gesehen, dass du schon geantwortet hast, hätte ich mir meine Antwort sparen können. Ich bin aber froh, dass wir offensichtlich genau gleicher Ansicht sind :smile:

http://www.springerlink.com/content/v7m862356255qj78/

Der Artikel kostet 34 Teuro. Hast du den? Wenn Ja, könntest Du mir eine Kopie zusenden?

Viele Grüße,
Jochen

Hallo JPL.

HI,

eine Normalverteilung ist gar nicht notwendig.
es handelt sich hier um einen Zählprozess, der durch eine
Poisson-Verteilung abgebildet werden kann.

Bist Du sicher??? Hab gerade mal in R mit fitdistr (MASS) und goodfit rumprobiert, aber die Poisson-Verteilung mit dem ermittelten Lambda sieht schon recht anders aus. (Kann auch das Bild dazu hochladen, falls es Dich interessiert).
Ich dachte eher an eine LogNormal-Verteilung…

Nun kommt es aber darauf an, was deine samples sind: sind die
Bilder alle von Zellverbänden verschiedener strains oder sind
das genetische clone?

Hmm, bin leider kein Biologe, aber es sollten genetische Clone sein (HeLa-Zellen / stabile Zelllinie).

Je nachdem muss man die gezählten Werte gruppieren um eine
vernünftige Schätzung zu bekommen. dieser Schritt ist der
entscheidende Punkt, denn sonst hast du ggf. pseudo-replikate
Anschließend kann man mit einem GLM-Modell in Verbindung mit
einem hurdle-modell oder einem zero-inflated-Modell die beiden
Gruppen vergleichen.

Hört sich jetzt vllt abgefahren an, ist es aber eigentlich gar
nicht so sehr (am besten in dieser Reiehnfolge lesen):
http://de.wikipedia.org/wiki/Poisson-Verteilung
http://de.wikipedia.org/wiki/Generalisierte_Lineare_…
http://www.jstatsoft.org/v27/i08
http://www.springerlink.com/content/v7m862356255qj78/
http://www.maths.uq.edu.au/~gjm/lwsym_smmr06.pdf

Hierzu warte ich erstmal Deine Antwort zur Verteilung ab :smile:

Ciao,
July

Erledigt

Der Artikel kostet 34 Teuro. Hast du den? Wenn Ja, könntest
Du mir eine Kopie zusenden?

Hat sich erledigt - ich habe ihn über eine DFG-Nationallizenz über die Uni Regensburg bekommen.

VG
Jochen

Hi July,

Bist Du sicher??? Hab gerade mal in R mit fitdistr (MASS) und
goodfit rumprobiert, aber die Poisson-Verteilung mit dem
ermittelten Lambda sieht schon recht anders aus. (Kann auch
das Bild dazu hochladen, falls es Dich interessiert).

Ich bin sehr sicher. Poisson ist einer LogN auch gar nicht so unähnlich, aber eben diskret.
Wenn das lambda nicht passt kann das mehrere Gründe haben:

  • Nullwerte. diese werden bei der klassischen Poi nicht optimal berücksichtigt (vor allem, wenn der %satz hoch ist), man müsset dann ein zero-inflated oder negBinom hernehmen
  • die Zellen auf einem Bild sind sich ähnlicher als zwischen den Bildern und/oder bestimmte bilder bilden bestimmte Gruppen. Derartige Subpopulationen (z.b. resultierend aus Zellklonen verschiedener Spender) müsste man berücksichtigen bzw. sich haarklein überlegen, was für ein N man hat. Das ist bei solchen Versuchen meist das Schwerste. ggf hilft Mittelung weiter oder ein random-Faktor im Modell.
  • lamda st nicht gleich lamda … soll heissen, dass zwar beide gleich heissen, aber fitdtr eigentlich 1/lamda fitted. Probier sdas mal mit einem simulierten Datensatz aus.
  • das Auge kann einen täuschen - ein fit ist nur perfekt, wenn man vollkommen ideale Daten hat. Was nun an Abweichung gravierend ist und was nicht ist immer wieder eine Kontroverse zwischen den Wissenden wert.

Grüße,
JPL

Hi JPL,

Bist Du sicher??? Hab gerade mal in R mit fitdistr (MASS) und
goodfit rumprobiert, aber die Poisson-Verteilung mit dem
ermittelten Lambda sieht schon recht anders aus. (Kann auch
das Bild dazu hochladen, falls es Dich interessiert).

Ich bin sehr sicher. Poisson ist einer LogN auch gar nicht so
unähnlich, aber eben diskret.

Wenn das lambda nicht passt kann das mehrere Gründe haben:

  • Nullwerte. diese werden bei der klassischen Poi nicht
    optimal berücksichtigt (vor allem, wenn der %satz hoch ist),
    man müsset dann ein zero-inflated oder negBinom hernehmen

Das ist definitiv der Fall bei meinen Daten. Tja, bin leider weder Mathematiker noch Statistiker und hab zwar in R die Methode zeroinfl() gefunden (Package pscl), aber nun bin ich ratlos. Ich verstehe weder, welcher Input benoetigt wird, noch den Output, da mir hier der theoretische Background voellig fehlt…

  • die Zellen auf einem Bild sind sich ähnlicher als zwischen
    den Bildern und/oder bestimmte bilder bilden bestimmte
    Gruppen. Derartige Subpopulationen (z.b. resultierend aus
    Zellklonen verschiedener Spender) müsste man berücksichtigen
    bzw. sich haarklein überlegen, was für ein N man hat. Das ist
    bei solchen Versuchen meist das Schwerste. ggf hilft Mittelung
    weiter oder ein random-Faktor im Modell.

  • lamda st nicht gleich lamda … soll heissen, dass zwar
    beide gleich heissen, aber fitdtr eigentlich 1/lamda fitted.
    Probier sdas mal mit einem simulierten Datensatz aus.

Hab ich probiert, sieht aber eher schlimmer aus, als besser…

  • das Auge kann einen täuschen - ein fit ist nur perfekt,
    wenn man vollkommen ideale Daten hat. Was nun an Abweichung
    gravierend ist und was nicht ist immer wieder eine Kontroverse
    zwischen den Wissenden wert.

Da hast Du natuerlich recht, aber vermutlich sind die Nullen bei mir das Problem.

Ciao,
July

Hi

Das ist definitiv der Fall bei meinen Daten. Tja, bin leider
weder Mathematiker noch Statistiker und hab zwar in R die
Methode zeroinfl() gefunden (Package pscl), aber nun bin ich
ratlos. Ich verstehe weder, welcher Input benoetigt wird, noch
den Output, da mir hier der theoretische Background voellig
fehlt…

zeroinfl(formula, data, subset, na.action, weights, offset,
dist = c(„poisson“, „negbin“, „geometric“),
link = c(„logit“, „probit“, „cloglog“, „cauchit“, „log“),
control = zeroinfl.control(…),
model = TRUE, y = TRUE, x = FALSE, …)
Hiervon sind wichtig: formula, data, dist und link.
data beinhlatet deine Daten als data.frame, formula dann die (beiden)Spalten mit den Werten bzw. den Gruppen, also formula=anzahl_punkte ~ gruppe, dist sollte entweder „poisson“ oder „negbin“ sein, und link=„logit“.
Mit summary() bekommst du dann die ratios und deren Confis und p-werte.
Dennoch solltest du die links lesen, die ich schon angegeben habe.
Grüße,
JPL

Hallo JPL,

ja, parallel lese ich mich schon durch die (und weitere) Links. Ist nur nicht so einfach quereinzusteigen, wenn hier und da schon Grundlagen fehlen.

data beinhlatet deine Daten als data.frame, formula dann die
(beiden)Spalten mit den Werten bzw. den Gruppen, also
formula=anzahl_punkte ~ gruppe, dist sollte entweder „poisson“
oder „negbin“ sein, und link=„logit“.

Noch ne Frage zur Formel: Kann ich meine Daten, so wie ich sie eingangs beschrieben habe nehmen oder muss ich eine Tabelle erstellen, die so aussieht:

„Anzahl der gezaehlten Punkte“(x) „count“(freq)
0 100
1 50
2 16
3 11

Und waere dann die „Anzahl der gezaehlten Punkte“ die gruppe?
Oder hab ich hier einen Denkfehler? Denn wenn ich das so ausprobiere, bekomme ich folgende Fehlermeldung:

Error in zeroinfl(freq ~ x, data = cData, dist = „poisson“, link = „logit“) :
invalid dependent variable, minimum count is not zero

Tausch ich die beiden Spalten aus, bekomme ich diese Fehlermeldung:

Error in solve.default(as.matrix(fit$hessian)) :
system is computationally singular: reciprocal condition number = 4.33606e-21
In addition: Warning messages:
1: glm.fit: algorithm did not converge
2: glm.fit: fitted probabilities numerically 0 or 1 occurred

Hi July,

ich will ja nicht doof rüberkommen, aber wenn man sich vorher Gedanken über die Analyse macht (oder einen statistker zu Rate zieht), passiert einem das

Ist nur nicht so einfach quereinzusteigen, wenn hier
und da schon Grundlagen fehlen.

eher weniger. will dagen - das gehört zur Planung eigentlich schon dazu …

Noch ne Frage zur Formel: Kann ich meine Daten, so wie ich
sie eingangs beschrieben habe nehmen oder muss ich eine
Tabelle erstellen, die so aussieht:

> "Anzahl der gezaehlten Punkte"(x) "count"(freq)  
>   
> 0 100  
>   
> 1 50  
>   
> 2 16  
>   
> 3 11  
>   
> ...

Öhm, wie du es beschirben hattest, hatte ich eher so eine Tabelle im Kopf:

Gruppe Bild\_no Zelle #Punkte
A 1 1 0
A 1 2 1
A 2 1 0
A 2 2 2 
A 2 3 0
A 3 1 3
...
B 1 1 4
B 1 2 5
B 1 3 0
B 1 4 4
...

A und B willst du vergleichen.
„Meine“ Tabelle ist sehr viel detaillierter als deine, ließe dich aber ebenso zusammenfassen. Das kommt aber darauf an, ob man alle Zellen und Bilder einer Gruppe über einen Kamm scheren kann.

Deine Fehlermeldungen kommen daher, da jeder andere Wert für deine Gruppe eben eine andere Gruppe darstellt. Also hast du mindestens 4 Gruppen und keine davon hat einen 0-Wert (da count bei dir immer >0 ist)
Anders herum gibt es zwar die Gruppe count=100 mit einem Wert 0, aber da nur überhaupt ein Wert für die Gruppe vorliegt klappts mit dem ML-schätzer nicht (das ist etwa so, als wolltest du eine Tangente anhand einens Punktes ausrechnen)

Versuch mal folgendes:

library(pscl)
set.seed(4)
a=c(0,0,0,rpois(n=15, lambda=2.5))
b=c(0,0,0,0,0,rpois(n=10, lambda=5))

d=data.frame(v=c(a,b), g=c(rep(„A“,length(a)), rep(„B“,length(b))))
boxplot(d$v~d$g) # eigentlich suboptimal hierfür, aber mal zum schauen

m=zeroinfl(v ~ g, data = d, dist = „poisson“, link = „logit“)
summary(m)

um ein Gefühl zu bekommen. Speil mal ein wenig mit dem n herum und fitte mal statt v~g v~g-1 und (!) was sagen die estimates?
Dein Wochenende ist gerettet :wink:
Viele Grüße,
JPL

Hallo JPL,

ich will ja nicht doof rüberkommen, aber wenn man sich vorher
Gedanken über die Analyse macht (oder einen statistker zu Rate
zieht), passiert einem das …
eher weniger. will dagen - das gehört zur Planung eigentlich
schon dazu …

Der Rüffel ist sicherlich berechtigt. Ich arbeite im akademischen Bereich und zumindest bei mir trifft es zu, dass Projekte nur unzureichend geplant werden und sowas wie Leute vom Fach für die Analyse der Daten als Ansprechpartner nicht vorhanden sind. Ich bin nicht ganz vom Fach (hab Informatik studiert), soll aber trotzdem eine hieb- und stichfeste Analyse am Ende vorweisen. Richtige Zeit zur Weiterbildung fehlt und man ändert eh x-Mal die Herangehensweise nach dem aktuellen Aha-Effekt. Ich könnte Dir ja erzählen, dass eine erste Analyse mit den Mittelwerten der Daten stattgefunden hat…Anyway, ich will nicht jammer, sondern nur erklären, warum ich Dinge machen will (muss), die ich noch gar nicht recht verstehe.

Vielen Dank für die „Hausaufgaben“. Werd mich dem am Wochenende mit Vergnügen widmen. Denn Spaß am Zahlen verwurschteln hab ich schon immer gehabt :wink:

In diesem Sinne wünsch ich ein schönes Wochenende!

July

Hallo JPL,

so, jetzt hab ich mir am WE die Zaehne ausgebissen an Deinem Beispiel. Wenn Du es leid bist mir weiter zu antworten, sag das ruhig. Ich kann verstehen, dass es nervt wenn jemand null Plan hat :wink:
Vielleicht hast du ja auch nur einen guten Anfaenger-Literatur-Tipp fuer mich.

In Deinem Beispiel soll ich zunaechst v~g fitten. Das heisst im Umkehrschluss, dass es mit Hilfe des Modells am Ende moeglich sein sollte v vorherzusagen, wenn g gegeben ist. Aber nuetzt mir das ueberhaupt was? Was sagen mir dann die ganzen Modellparameter, Residuen etc aus ueber meine eigentlich Fragestellung - naehmlich ob sich die Verteilungen der Gruppen unterscheiden?

Dann sollte ich mit v~g-1 testen. Es faellt mir schwer zu verstehen, was genau hier anders laeuft. Schau ich mir die Koeffizienten an, heisst count_(Intercept) jetzt count_gA und zero_(Intercept) jetzt zero_gA. Deren Werte bleiben aber gleich. Die anderen beiden heissen zwar gleich, unterscheiden sich aber in den Werten. Ich weiss nichts damit anzufangen. Vielleicht weil ich das Model nicht verstehe. Bei einem linearen Fit weiss ich ganz genau was meine Koeffizienten beschreiben - naehmlich Slope und Intercept. Aber hier bin ich ratlos.

Schau ich mir die gefitteten Werte an, so sehe ich, dass entprechend der Gruppe ein Wert zugeordnet wird.
Was bringt mir das alles in Bezug auf meine Fragestellung?

Meine Idee mit der vereinfachten Tabelle war folgende: Alle unbehandelten Zellen hernehmen und die Verteilung modellieren, so dass das Modell nachher beschreibt mit welcher Warscheinlichkeit eine unbehandelte Zelle 0,1,2,3,…,n, Puenktchen hat. Dann, koennte ich vergleichen (weiss jetzt nicht mit welcher Methode), wie stark die Verteilung von behandelten Zellen abweicht. Das war meine grobe Idee. Ist die so falsch?

Viele Gruesse,
July

Hu July,

Vielleicht hast du ja auch nur einen guten
Anfaenger-Literatur-Tipp fuer mich.

Leider keinen besonders guten: Ab in die Bib und dir Bücher ausleihen.

In Deinem Beispiel soll ich zunaechst v~g fitten. Das heisst
im Umkehrschluss, dass es mit Hilfe des Modells am Ende
moeglich sein sollte v vorherzusagen, wenn g gegeben ist.

Naja, wenigstens in etwa. Wie auch bei der Regression bekommt man keinen perfekten fit, also ist die vorhersage auch immer fehlerhaft.

Aber
nuetzt mir das ueberhaupt was? Was sagen mir dann die ganzen
Modellparameter, Residuen etc aus ueber meine eigentlich
Fragestellung - naehmlich ob sich die Verteilungen der Gruppen
unterscheiden?

Aha … das wäre eine andere Fragestellung.
Also, hier wird eine Pois zugrundegelegt, die nur einen Parameter (lamda, l1) hat. Wäre dieser verscheiden von l2 einer andere Verteilung, dann wäre die Verteilungen verschieden. Zudem wären auch die Erwartungswerte (geom Mittel) verscheiden, da diese über l1 bzw. l2 definiert werden. Das sollte deine forschungsfrage beantworten(?)

Dier estliche Schätzung ist wie einer ANOVA. v~g beinhaltet, dass eine Intercept geschätzt wird, welche mit der ersten Gruppe gleichgesetzt wird. Dementsprechend ist gB der Wert der 2. Gruppe im Verhältnis zur ersten, sprich hier testen man unter gB den Unterscheid zwischen A und B.
bei v~g-1 wird die Intercept weggelassen, und es erscheinen gA und gB mit den zugehörigen Schätzern für die jeweilige Gruppe. Getestet wird hier (eher irrelevant), ob diese Wrte von 0 verschieden sind. Eigentlich benutzt man das nur, um an die Gruppenwerte heranzukommen.

Dasselbe gilt für die zero-infalzed models: hier kannst du implizit testen, ob sich die Verteilungen - welche ja wegen der erhöhten Zahl an 0-Werten nicht nur aus einer Poisson-Verteilung, sondern auch noch aus einem 0-anteil bestehen - nur in einer oder beiden Komponenten unterscheiden.

Meine Idee mit der vereinfachten Tabelle war folgende: Alle
unbehandelten Zellen hernehmen und die Verteilung modellieren,
so dass das Modell nachher beschreibt mit welcher
Warscheinlichkeit eine unbehandelte Zelle 0,1,2,3,…,n,
Puenktchen hat. Dann, koennte ich vergleichen (weiss jetzt
nicht mit welcher Methode), wie stark die Verteilung von
behandelten Zellen abweicht. Das war meine grobe Idee. Ist die
so falsch?

Nein gar nicht. Wie gesagt würde ich (als nicht-biologe), dann annehmen, dass die Zellen alle unabhängig sind, d.h. es können zwar Klone sein, aber keine Mehrfachmessungen (selbe Zellgruppe von verschiedenen Winkeln, Kontrollaufnahmen,…).
Dann kann man die Spalten Bild und Zelle auch weglassen, ich würde aber nicht nur die Häufigkeiten aufschreiben, da zeroinfl() das dann falsch interpretiert.

Viele Grüße,
JPL

Hallo JPL,

Vielleicht hast du ja auch nur einen guten
Anfaenger-Literatur-Tipp fuer mich.

Leider keinen besonders guten: Ab in die Bib und dir Bücher
ausleihen.

Schade, das Gebiet ist einfach wahnsinnig umfangreich und ich weiss teilweise nicht wo ich anfangen soll.

In Deinem Beispiel soll ich zunaechst v~g fitten. Das heisst
im Umkehrschluss, dass es mit Hilfe des Modells am Ende
moeglich sein sollte v vorherzusagen, wenn g gegeben ist.

Naja, wenigstens in etwa. Wie auch bei der Regression bekommt
man keinen perfekten fit, also ist die vorhersage auch immer
fehlerhaft.

das ist mir klar (wenigstens etwas).

Aber
nuetzt mir das ueberhaupt was? Was sagen mir dann die ganzen
Modellparameter, Residuen etc aus ueber meine eigentlich
Fragestellung - naehmlich ob sich die Verteilungen der Gruppen
unterscheiden?

Aha … das wäre eine andere Fragestellung.

Also, hier wird eine Pois zugrundegelegt, die nur einen
Parameter (lamda, l1) hat. Wäre dieser verscheiden von l2
einer andere Verteilung, dann wäre die Verteilungen
verschieden. Zudem wären auch die Erwartungswerte (geom
Mittel) verscheiden, da diese über l1 bzw. l2 definiert
werden. Das sollte deine forschungsfrage beantworten(?)

Klar, wenn ich eine „simple“ Poisson-Verteilung vorliegen habe, kann ich das sicherlich über diese Parameter herausbekommen. Ich hab ja aber diese verflixten Nullen in meinen Daten. Sprich, ich kann ja meine Verteilungen nicht nur über Lambda definieren.

Und hier hört es schon wieder mit meinem Verständnis auf… ich versuch es noch herauszufinden.

Dier estliche Schätzung ist wie einer ANOVA. v~g beinhaltet,
dass eine Intercept geschätzt wird, welche mit der ersten
Gruppe gleichgesetzt wird. Dementsprechend ist gB der Wert der
2. Gruppe im Verhältnis zur ersten, sprich hier testen man
unter gB den Unterscheid zwischen A und B.

bei v~g-1 wird die Intercept weggelassen, und es erscheinen
gA und gB mit den zugehörigen Schätzern für die jeweilige
Gruppe. Getestet wird hier (eher irrelevant), ob diese Wrte
von 0 verschieden sind. Eigentlich benutzt man das nur, um an
die Gruppenwerte heranzukommen.

Dasselbe gilt für die zero-infalzed models: hier kannst du
implizit testen, ob sich die Verteilungen - welche ja wegen
der erhöhten Zahl an 0-Werten nicht nur aus einer
Poisson-Verteilung, sondern auch noch aus einem 0-anteil
bestehen - nur in einer oder beiden Komponenten unterscheiden.

Meine Idee mit der vereinfachten Tabelle war folgende: Alle
unbehandelten Zellen hernehmen und die Verteilung modellieren,
so dass das Modell nachher beschreibt mit welcher
Warscheinlichkeit eine unbehandelte Zelle 0,1,2,3,…,n,
Puenktchen hat. Dann, koennte ich vergleichen (weiss jetzt
nicht mit welcher Methode), wie stark die Verteilung von
behandelten Zellen abweicht. Das war meine grobe Idee. Ist die
so falsch?

Nein gar nicht. Wie gesagt würde ich (als nicht-biologe),
dann annehmen, dass die Zellen alle unabhängig sind, d.h. es
können zwar Klone sein, aber keine Mehrfachmessungen (selbe
Zellgruppe von verschiedenen Winkeln, Kontrollaufnahmen,…).

richtig, davon gehe ich auch aus.

Dann kann man die Spalten Bild und Zelle auch weglassen, ich
würde aber nicht nur die Häufigkeiten aufschreiben, da
zeroinfl() das dann falsch interpretiert.

also zusätzlich doch wieder die behandlung / nichtbehandlung etc. mit reinnehmen und hier fehlt mir auch das verständnis - warum kann ich nicht die verteilung für eine einzelne gruppe modellieren? und dann anhand dessen abschätzen, ob die behandelten dazu passen oder nicht. na ja, ich hab das gefühl hier beißt sich die katze in den schwanz. ich werd wohl noch ein studium dranhängen müssen, bis ich begreife wie ich wirklich vorgehen muss…

Vielen Dank für Deine Geduld!

July