Statistik - Korrelationen - SPSS - HILFE!

Hallo,

sitze gerade an meiner Abschlussarbeit. Während ich bis heute morgen noch dachte, dass alles richtig wäre, kommen immer mehr Zweifel an meinen Berechnungen.

Im Grunde geht es um folgendes. Ich untersuche den Einfluss des Bruttoinlandsprodukt auf Leerstände von Büroimmobilien. Zur Berechnung der korrelation habe ich jeweils die Wachstumsraten des Bruttoinlandsprodukt und der Leeratandsraten berechnen.

Die Korrelationen habe ich mit SPSS berechnet. Der Datensatz sieht folgendermaßen aus.

Wachstumsrate BIP

3,22
2,09
2,15
3,35
4,25
2,03
2,15
2,13
-,51
2,93
,25

Wachstumsrate Leerstände
-23,64
-14,29
-8,33
-48,48
-17,65
-71,43
275,00
200,00
75,56
25,32
-3,03

Korrelation habe ich berechnet mit SPSS: Korrelation --> Bivariat --> Pearson --> Signifikanztest Einseitig

Das Ergebnis lautet
Korrelation: -0,208
Signifikanz: 0,269

Habe ich bisher denn alles richtig gemacht? Hoffe doch mal ja!

Nur: Welchen Test führt SPSS da eigentlich durch? Was bedeutet diese 0,269? Wie muss ich diese Zahl interpretieren? Mir ist durchaus bewusst, dass die Zeitreihe sehre kurz ist, aber das liegt an der mangelnden Datenverfügbarkeit.

Wäre über Hilfe mehr als Dankbar, da ich verdammt unruhig mittlerweile bin.

Gruss Paul

Hallo,

Ob du alles richtig gemacht hast, kann man nur beurteilen, wenn man alle Details der Fragestellung, der Datenerhebung, und die Charakteristiken der Daten genau kennt. Die erste und wichtigste Frage ist ersmal die, ob die Art der erhobeben Daten überhaupt sinnvoll ist und die Information überhaupt enthalten, die du untersuchen willst. Beispiel: Warum nimmst du die _Raten_ und nicht die absoluten Werte? Gibt es offensichtliche weitere Einflussparameter, die mit berücksichtigt werden müssen? Beispiel: Die Nutzung von üroimmobilien hängt ja wohl 1) mit der Mietpreisentwicklung zusammen und von der Möglichkeit von Unternehmen, Büroarbeiten im Ausland erledigen zu lassen und 2) von der Subventionspolitik beim Bau von Bürogebäuden.

Ok, gesetzt den Fall, das ist alles korrekt bedacht und du hast saubere Daten, dann kann man nachsehen, ob die Werte korrelieren.

Der Pearson’sche Korrelationkoeffizient zeigt, wie stark eine LINEARE Korrelation ist. Die Berechnung macht nur Sinn, wenn der Zusammenhang tatsächlich linear ist und wenn der „Fehler“ um den linearen Trend normalverteilt ist.

Solltest du dir da nicht sicher sein, ist es besser, die Rangkorrelation zu verwenden („Spearman“).

Hast du dir die Werte mal angesehen? Beide Variablen schwanken recht stark. Die Leerstandsraten sind fast alle negativ, zwei aber sind extrem groß (200 und 275, Prozent, nehme ich an). Was ist da los?
Ebenso sind die BIPraten alle größer als 2 - bis auf zwei Werte (0.25 und -0.51). Was ist da los?

Korrelation habe ich berechnet mit SPSS: Korrelation -->
Bivariat --> Pearson --> Signifikanztest Einseitig

Das Ergebnis lautet
Korrelation: -0,208
Signifikanz: 0,269

Habe ich bisher denn alles richtig gemacht? Hoffe doch mal ja!

Die (negative) Korrelation zeigt, dass - wenn die Daten durch ein LINEARES Modell mit NORALVERTEILTEN Residuen beschrieben wird, die Abhängige Variable umso kleiner ist, je größer die unabh. Variable ist. Die Größe (-0.208)² = 0.04 weist darauf hin, dass die STÄRKE der Korrelation verschwindend gering ist (ein Wert von 0 wäre überhaupt gar keine Korrelation, ein Wert nahe 1 wäre eine sehr starke Korrelation; bei Werte über 0.25 spricht man von einer moderaten, bei Werten über 0.5 von einer starken Korrelation).

Nun kann es durchaus sein, dass Daten auch zufällig korrelieren. Der Signifikanztest berechnet die Wahrscheinlichkeit, eine mindestens so starke Korrelation wie die beobachtete zu erhalten, wenn die Werte in Wirklichkeit NICHT korrelieren. Diese empirische Wahrscheinlichkeit ist oben mit „Signifikanz“ bezeichnet. Wenn dieser Wahrscheinlichkeit sehr klein ist, geht man davon aus, dass die Werte in Wirklichkeit korellieren. Üblicherweise sollte die „Signifikanz“ besser sein (der Wert kleiner sein) als 0.05 (5%).

Ein solcher Test kann einseitig und zweiseitig gemacht werden. Der einseitige Test ignoriert Ergebnisse in einer Richtung (zB. betrachtet man überhaupt nur positive Korrelationen und ignoriert negative oder umgekehrt). Dazu muss man vorher wissen, was man irgnorieren will. Wenn man das nicht weiß, mußß man beide Richtungen im test berücksichtigen, also einen zweiseitigen Test machen.

Nur: Welchen Test führt SPSS da eigentlich durch?

S.o. Der Test nennt sich „Korrelationstest nach Pearson“. Berechnet wird die Testgröße r/Wruzel((1-r²)/(n-2)), die unter der Nullhypothese normalverteilt ist mit n-2 Freiheitsgraden.

Was bedeutet diese 0,269?

Das ist die Wahrscheinlichkeit, unter der Nullhypothese eine mindestens so starke Korrelation zu finden, wie die beobachtete.

Wie muss ich diese Zahl interpretieren?

Wenn dieser Wert kleiner wäre als 0,05 (und die Voraussetzungen stimmen), dann könntest du behaupten, dass du eine statistisch signifikante Korrelation gefunden hättest. Da dieser Wert hier aber deutlich größer ist, kannst du nur sagen, dass du nicht ausreichend Daten hast, um einen Zusammenhang der untersuchten Größen belegen zu können.

Mir ist
durchaus bewusst, dass die Zeitreihe sehre kurz ist, aber das
liegt an der mangelnden Datenverfügbarkeit.

Keine Daten, keine Ergebnisse. Dieser Zusammenhang ist einfach.

Wäre über Hilfe mehr als Dankbar, da ich verdammt unruhig
mittlerweile bin.

Eine wissenschaftliche Untersuchung in einem dermaßen empirischen Feld macht keinen Sinn ohne gute Grundkenntnisse in Statistik, die du dir unbedingt aneignen solltest.

LG
Jochen

Hallo,

erst mal danke für die schnelle Reaktion :smile:

Die Daten der Leerstandsraten wurden sinnvoll erhoben, das heißt sie basieren auf gewisse „Vorschriften“ nach gif(Gesellschaft für Immobilienforschung) zur Ermittlung der Leerstandsraten.

Untersucht werden soll der Einfluss von Konjunktur auf Kennziffern der Büroimmobilienmärkte.

Die Wachstumsraten habe ich heranzgezogen, um auszuschließen,dass die Daten rein zufällig den gleichen Trend aufweisen. Vielleicht hätte ich doch besser die absoluten Werte nehmen sollen. Die absoluten Werte geben den Prozentsatz der Leerstandsflächen an der Gesamtbürofläche an.

Natürlich ist die Büronutzung auch abhängig von den Mietpreisen. Allerdings soll ausschließlich der Einfluss von Konunktur untersucht werden, da die Konjunktur als kurz-bis mittelfristiger einflussparameter auf den Immobilienmarkt angesehen wird. Die Untersuchung des Mietpreises ist ebenfalls Gegenstand der Arbeit.

Hallo,

Ob du alles richtig gemacht hast, kann man nur beurteilen,
wenn man alle Details der Fragestellung, der Datenerhebung,
und die Charakteristiken der Daten genau kennt. Die erste und
wichtigste Frage ist ersmal die, ob die Art der erhobeben
Daten überhaupt sinnvoll ist und die Information überhaupt
enthalten, die du untersuchen willst. Beispiel: Warum nimmst
du die _Raten_ und nicht die absoluten Werte? Gibt es
offensichtliche weitere Einflussparameter, die mit
berücksichtigt werden müssen? Beispiel: Die Nutzung von
üroimmobilien hängt ja wohl 1) mit der Mietpreisentwicklung
zusammen und von der Möglichkeit von Unternehmen, Büroarbeiten
im Ausland erledigen zu lassen und 2) von der
Subventionspolitik beim Bau von Bürogebäuden.

Ok, gesetzt den Fall, das ist alles korrekt bedacht und du
hast saubere Daten, dann kann man nachsehen, ob die Werte
korrelieren.

Der Pearson’sche Korrelationkoeffizient zeigt, wie stark eine
LINEARE Korrelation ist. Die Berechnung macht nur Sinn, wenn
der Zusammenhang tatsächlich linear ist und wenn der „Fehler“
um den linearen Trend normalverteilt ist.

Solltest du dir da nicht sicher sein, ist es besser, die
Rangkorrelation zu verwenden („Spearman“).

Ich bin tatsächlich von einem linearen Zusammenhang ausgegangen. Ich ging davon aus, dass wenn das Bip steigt, dass die Leerstandsflächen zurückgehen und gleichzeitig die Mietpreise anziehen.

Hast du dir die Werte mal angesehen? Beide Variablen schwanken
recht stark. Die Leerstandsraten sind fast alle negativ, zwei
aber sind extrem groß (200 und 275, Prozent, nehme ich an).
Was ist da los?
Ebenso sind die BIPraten alle größer als 2 - bis auf zwei
Werte (0.25 und -0.51). Was ist da los?

Ja,die Werte streuen sehr weit, liegt daran,dass die Leerstandsrate in einem Jahr u.a. von 1,5 Prozent auf 4,5 Prozent angestiegen ist.Diese beiden Werte sidn aus den Krisenjahren 2001 und 2002.

Bei den Bipwerten handelt es sich um das nominale Bip, nicht um das reale. Grund dafür ist, dass es sich bei dem Bip um das Bip der Stadt München handelt (die Leerstandsraten sind natürlich auch aus der Stadt München), das statistische Landesamt weist aber kein reales Bip aus. Eine eigene Umrechnung in das reale Bip ist nicht möglich (die Formeln aus verschiedenen Makrobüchern sind nicht zu verwenden)

Korrelation habe ich berechnet mit SPSS: Korrelation -->
Bivariat --> Pearson --> Signifikanztest Einseitig

Das Ergebnis lautet
Korrelation: -0,208
Signifikanz: 0,269

Habe ich bisher denn alles richtig gemacht? Hoffe doch mal ja!

Die (negative) Korrelation zeigt, dass - wenn die Daten durch
ein LINEARES Modell mit NORALVERTEILTEN Residuen beschrieben
wird, die Abhängige Variable umso kleiner ist, je größer die
unabh. Variable ist. Die Größe (-0.208)² = 0.04 weist darauf
hin, dass die STÄRKE der Korrelation verschwindend gering ist
(ein Wert von 0 wäre überhaupt gar keine Korrelation, ein Wert
nahe 1 wäre eine sehr starke Korrelation; bei Werte über 0.25
spricht man von einer moderaten, bei Werten über 0.5 von einer
starken Korrelation).

die 0,04 ist ja das Bestimmtheitsmaß, es gibt ja das Verhältnis der Varianz der Beobachteten Werte und der geschätzten Werte an. oder?

Nun kann es durchaus sein, dass Daten auch zufällig
korrelieren. Der Signifikanztest berechnet die
Wahrscheinlichkeit, eine mindestens so starke Korrelation wie
die beobachtete zu erhalten, wenn die Werte in Wirklichkeit
NICHT korrelieren. Diese empirische Wahrscheinlichkeit ist
oben mit „Signifikanz“ bezeichnet. Wenn dieser
Wahrscheinlichkeit sehr klein ist, geht man davon aus, dass
die Werte in Wirklichkeit korellieren. Üblicherweise sollte
die „Signifikanz“ besser sein (der Wert kleiner sein) als 0.05
(5%).

Ich habe das Signifikanzniveau innerhalb meiner Arbeit auf 0,1 gesetzt. Ist das zu hoch?

Ein solcher Test kann einseitig und zweiseitig gemacht werden.
Der einseitige Test ignoriert Ergebnisse in einer Richtung
(zB. betrachtet man überhaupt nur positive Korrelationen und
ignoriert negative oder umgekehrt). Dazu muss man vorher
wissen, was man irgnorieren will. Wenn man das nicht weiß,
mußß man beide Richtungen im test berücksichtigen, also einen
zweiseitigen Test machen.

Ich hatte das so verstanden, dass man einen einseitigen Test dann macht, wenn man schon vorher weiss in welche Richtung es korreliert, und einen zweiseitigen Test wenn man sich darüber nicht sicher ist? Ist das falsch?

Mir ist
durchaus bewusst, dass die Zeitreihe sehre kurz ist, aber das
liegt an der mangelnden Datenverfügbarkeit.

Keine Daten, keine Ergebnisse. Dieser Zusammenhang ist
einfach.

Sicherlich habe ich wenig Daten, liegt nun mal an der mangelnden Transparenz der Immobilienwirtschaft.

Ich konnte jetzt aber nochmal drei weitere Datensätze hinzugewinnen.

Die Korrelation (auf Basis der Wachstumsraten) sind jetzt nach Pearson:

r=-0,010551075
sig: 0,486

Berücksichtige ich einen time lag von einem jahr(da der Immobilienmarkt immer erst zeitverzögert reagiert), erhalte ich eine Korrelation von -0,425 (timelag von 2 Jahren = -0,36) und ein sig. von 0,074 (sig. für 2 jahre = 0,125). Bei einem angesetzten Signifikanzniveau von 10 Prozent hätte ich eine signifikante Korrelation gefunden? oder?

Nochmal generell:

ist die anwendung des Prason`schen Korrelationskoeffizienten vertretbar? Ich bin von einem linearen Zusammenhang ausgegangen. Ist der ansatz der Wachstumsraten doch nicht optimal?Ich denke mal, dass meine Ausreiser nach oben das Ergebnis extrem verfälschen.

Macht es Sinn den Rangkorrelationskoeefizient zu verwenden? Ich dachte bei metrisch skalierten Daten wäre der nicht anzuwenden

Wäre über Hilfe mehr als Dankbar, da ich verdammt unruhig
mittlerweile bin.

Eine wissenschaftliche Untersuchung in einem dermaßen
empirischen Feld macht keinen Sinn ohne gute Grundkenntnisse
in Statistik, die du dir unbedingt aneignen solltest.

LG
Jochen

Was eine Korrelation ist, wusst ich ja noch. ich habe vor allem probleme das signifikanzniveau zu interpretieren. Und bin mir eben unsicher aufgrund der ausreiser in der Datenreihe und ob ich den richtigen Korrelationskoeffizienten verwendet habe.

Kannst du mir vielleicht aufgrund meiner oben gemachten Angaben nochmal weiterhelfen? :smile:

Wäre echt super

Paula

nochmal ich :smile:

die leerstandsflächen wurden folgendermaßen erhoben:

der leerstand der einzelnen Jahre wurde in quadratmeter erhoben, dann ins Verhältnis gesetzt zu der Gesamtmietfläche der jeweiligen Jahre. Aufgrund dieser Basis habe ich die Wachstumsraten berechnet.

LG

Hallo,

erst mal danke für die schnelle Reaktion :smile:

Die Daten der Leerstandsraten wurden sinnvoll erhoben, das
heißt sie basieren auf gewisse „Vorschriften“ nach
gif(Gesellschaft für Immobilienforschung) zur Ermittlung der
Leerstandsraten.

Das heißt nicht unbedingt, dass diese Form der Datenerhebung sich für deine Fragestellung eignet. Ich sage das nur so ganz generell - ich habe von dem Them, der Art deiner Daten und den Zusammenhängen keine Ahnung. Es geht mir nur darum, klarzumachen, dass man schon bei der Art der Datenerhebung aufpassen muss wie ein Fuchs, wenn das Ergebnis am Ende einigermassen Sinn machen soll.

Natürlich ist die Büronutzung auch abhängig von den
Mietpreisen. Allerdings soll ausschließlich der Einfluss von
Konunktur untersucht werden, da die Konjunktur als kurz-bis
mittelfristiger einflussparameter auf den Immobilienmarkt
angesehen wird.

Genau das ist ja das Problem: Die Büronutzung hängt sicher nicht _nur_ von der Konjunktur ab. Wenn du die anderen (zumindest die bekannten und offensichtlichen) Parameter einfach außeracht läßt, dann tut die Analyse ja so, als wären die Büronutzungen _nur_ bedingt durch die Konjunktur. Wenn man schon weiß, dass es andere, bedeutsame Einflussgrößen gibt, weiß man auch vorher schon, dass das Ergebnis der Analyse schlichtweg sinnfrei ist. Zur Verdeutlichung Beispiele(!!) zweier Extremfälle:

a) Die Büronutzung sinkt, weil Unternehmen wegziehen oder Pleite machen (Zusammenhang zur Konjunktur); sie steigt aber auch, weil es durch die Durchsetzung von Umweltauflagen für andere Firmen attraktiver wird, hier Produktionsstandorte aufzugeben und ins Ausland zu verlagern, im Gegenzug hier aber die Verwaltung und Entwicklung auszubauen. Beide Effekte mögen sich in der Summe aufheben. Somit zeigt deine Untersuchung nichts, obwohl zwei wesentliche Vorgänge stattfinden.

b) Sowohl die Konjunktur als auch die Büronutzung hängen beide ab von einem dritten Faktor (mir fällt jetzt kein Beispiel ein; vielleicht vom Ölpreis - - egal). Eine Analyse, welche diesen Faktor berücksichtigt, würde vielleicht zeigen, dass die Konjunktur direkt praktisch keinen Einfluss auf die Büronutzung hat (weil sich die Änderung in Büronutzung UND Konjunktur BEIDE alleine durch die Änderung des dritten Faktors erklären lassen), während eine Analyse nur der Beiden Faktoren eine starke Korellation zeigen.

Die Wirklichkeit ist sicher komplizierter.

Ich bin tatsächlich von einem linearen Zusammenhang
ausgegangen. Ich ging davon aus, dass wenn das Bip steigt,
dass die Leerstandsflächen zurückgehen und gleichzeitig die
Mietpreise anziehen.

Ob das plausibel ist, musst du beurteilen können. Ich habe zu wenig Ahnung, würde es aus dem Bauch heraus aber eher für unwahrschenilich halten.

Ja,die Werte streuen sehr weit, liegt daran,dass die
Leerstandsrate in einem Jahr u.a. von 1,5 Prozent auf 4,5
Prozent angestiegen ist.Diese beiden Werte sidn aus den
Krisenjahren 2001 und 2002.

Tjaaaa, jetzt gibt es zwei Möglichkeiten:

a) Krisen beeinflussen die Konjunktur sehr stark und diese beiden Werte sind die einzigen, die einen Nennenswerten Effekt aufweisen oder

b) Krisen beeinflussen Tod&Teufel und ein möglicher Zusammenhang zur Büronutzung ist zu verwischt oder verfälscht, so dass diese Werte das Ergebnis unbrauchbar machen und somit nicht in die Analyse mit einbezogen werden sollten.

Aus das läßt sich nur mit Sachverstand entscheiden, den ich nicht habe.

die 0,04 ist ja das Bestimmtheitsmaß, es gibt ja das
Verhältnis der Varianz der Beobachteten Werte und der
geschätzten Werte an. oder?

Korrekt.

Ich habe das Signifikanzniveau innerhalb meiner Arbeit auf 0,1
gesetzt. Ist das zu hoch?

Nein. Das ist in Ordnung. Es bedeutet, dass wenn viele derartige Analysen gemacht würden, ohne dass in Wirklichkeit Zusammenhänge bestünden, etwa 10% der Analysen fälschlicherweise zum Schluss führen würden, dass es doch einen Zusammenhang gäbe (Typ-I-Fehlerrate). Anders: Sollte es in deinem Fall KEINEN Zusammenhang geben, dann würde dein Ergebnis mit einer Wahrschenilichkeit von 10% zum (falschen) Schluss kommen, dass es einen Zusammenhang gäbe. Wenn du damit leben kannst, ist das ok.

Ich hatte das so verstanden, dass man einen einseitigen Test
dann macht, wenn man schon vorher weiss in welche Richtung es
korreliert, und einen zweiseitigen Test wenn man sich darüber
nicht sicher ist? Ist das falsch?

Im Prinzip schon, aber nicht ganz. Beim einseitigen Test ist es wichtig, dass man „signifikante“ Ergebnisse „in die falsche Richtung“ auch tatsächlich ignoriert. Das macht aber praktisch keiner, und so glaubt man auch keinem, der behauptet, das zu tun. Würde ich eine solche Publikation deiner Daten/Auswertung lesen, würde ich mir denken: „Klasse, _eigentlich_ liegt sein Signifikanzniveau bei 0.2 (und nicht bei 0.1), also ist das Ergebnis mit bis zu 20%iger Wahrscheinlichkeit falsch-positiv - damit verschwende ich nicht weiter meine Zeit…“

Besser ist es, nur dann eineitig zu testen, wenn aus zwingenden logischen Gründen der Zusammenhang nur in eine Richtung laufen _kann_.

Sicherlich habe ich wenig Daten, liegt nun mal an der
mangelnden Transparenz der Immobilienwirtschaft.

Hey, das war kein Vorwurf. Es muss halt nur klar sein, dass man mit Statistik nicht mehr aus Daten rausholen kann, als ohnehin schon drinsteckt. Ich kann aus 100g Mehl kein 2kg-Brot backen.

Ich konnte jetzt aber nochmal drei weitere Datensätze
hinzugewinnen.

Mehr ist immer besser. Hierbei zumindest :wink:

Die Korrelation (auf Basis der Wachstumsraten) sind jetzt nach
Pearson:

r=-0,010551075
sig: 0,486

Also: überhauptgarnichts.

Berücksichtige ich einen time lag von einem jahr(da der
Immobilienmarkt immer erst zeitverzögert reagiert), erhalte
ich eine Korrelation von -0,425 (timelag von 2 Jahren = -0,36)
und ein sig. von 0,074 (sig. für 2 jahre = 0,125). Bei einem
angesetzten Signifikanzniveau von 10 Prozent hätte ich eine
signifikante Korrelation gefunden? oder?

Die Idee mit der Zeitverzögerung ist gut. Problematisch ist die Willkür, wieviele Jahre das sein sollen. Wenn du aus anderen Studien / Daten gute hinnweise auf eine SINNVOLLE Verzögerungsdauer hast, dann solltest du das so rechnen. Einfach mal durchprobieren, wann du was signifikant bekommst, ist KEINE gute Idee; die Wahrscheinlichkeit, dass du irgendein signifikanntes Ergebnis bekommst (wenn in Wahrheit KEIN Zusammenhang besteht), ist dann nämlich deutlich größer als die von dir gewünschten (und gerade noch akzeptablen!) 10% ! (Stichwort: multiples Testen)

ist die anwendung des Prason`schen Korrelationskoeffizienten
vertretbar?

Ja, wenn der Zusammenhang begründbar linear sein sollte.

Ich bin von einem linearen Zusammenhang
ausgegangen. Ist der ansatz der Wachstumsraten doch nicht
optimal?

Das kann ich nicht beurteilen. Das hängt wirklich vom genauen Problem ab. Wenn sich Änderungen an Grenzen abspielen (Sättigungseffekte oder Ausdünnungseffekte), sind Zusammenhänge praktisch nie linear. Theoretisch nicht-lineare Zusammenhänge können aber in bestimmten BEREICHEN durchaus hinreichend gut linear sein.

Ich denke mal, dass meine Ausreiser nach oben das
Ergebnis extrem verfälschen.

Oder dass es die einzigen Daten sind, die dir überhaupt was sagen…

Macht es Sinn den Rangkorrelationskoeefizient zu verwenden?

Ja. An deiner Stelle würde ich den Rangkorrelationskoeefizienten nutzen.

Ich dachte bei metrisch skalierten Daten wäre der nicht
anzuwenden

Doch, doch. Bei nicht-metrisch skalierten Daten kann man Pearson nicht verwenden, weil sowas wie Linearität dann ja nichtmal definiert ist. Andersherum kann man aber eine mögliche Information über einen linearen Zusammenhang in metrischen Daten ignorieren. WENN die Daten linear zusammenhängen, verliert man damit eben Information, d.h., Teststärke (ist wird schwerer, einen Zusammenhang nachzuweisen). WENN die Daten nicht-linear zusammenhängen, ist das Ergebnis von Pearson schlicht falsch.

Kannst du mir vielleicht aufgrund meiner oben gemachten
Angaben nochmal weiterhelfen? :smile:

Hat das geholfen? (was ist eigentlich die einfache Vergangenheitsform von ‚helfen‘: ‚half‘? klingt so komisch…)

LG
Jochen

1 „Gefällt mir“

Hallo,

erst mal danke für die schnelle Reaktion :smile:

Die Daten der Leerstandsraten wurden sinnvoll erhoben, das
heißt sie basieren auf gewisse „Vorschriften“ nach
gif(Gesellschaft für Immobilienforschung) zur Ermittlung der
Leerstandsraten.

Das heißt nicht unbedingt, dass diese Form der Datenerhebung
sich für deine Fragestellung eignet. Ich sage das nur so ganz
generell - ich habe von dem Them, der Art deiner Daten und den
Zusammenhängen keine Ahnung. Es geht mir nur darum,
klarzumachen, dass man schon bei der Art der Datenerhebung
aufpassen muss wie ein Fuchs, wenn das Ergebnis am Ende
einigermassen Sinn machen soll.

Natürlich ist die Büronutzung auch abhängig von den
Mietpreisen. Allerdings soll ausschließlich der Einfluss von
Konunktur untersucht werden, da die Konjunktur als kurz-bis
mittelfristiger einflussparameter auf den Immobilienmarkt
angesehen wird.

Genau das ist ja das Problem: Die Büronutzung hängt sicher
nicht _nur_ von der Konjunktur ab. Wenn du die anderen
(zumindest die bekannten und offensichtlichen) Parameter
einfach außeracht läßt, dann tut die Analyse ja so, als wären
die Büronutzungen _nur_ bedingt durch die Konjunktur. Wenn man
schon weiß, dass es andere, bedeutsame Einflussgrößen gibt,
weiß man auch vorher schon, dass das Ergebnis der Analyse
schlichtweg sinnfrei ist. Zur Verdeutlichung Beispiele(!!)
zweier Extremfälle:

a) Die Büronutzung sinkt, weil Unternehmen wegziehen oder
Pleite machen (Zusammenhang zur Konjunktur); sie steigt aber
auch, weil es durch die Durchsetzung von Umweltauflagen für
andere Firmen attraktiver wird, hier Produktionsstandorte
aufzugeben und ins Ausland zu verlagern, im Gegenzug hier aber
die Verwaltung und Entwicklung auszubauen. Beide Effekte mögen
sich in der Summe aufheben. Somit zeigt deine Untersuchung
nichts, obwohl zwei wesentliche Vorgänge stattfinden.

b) Sowohl die Konjunktur als auch die Büronutzung hängen beide
ab von einem dritten Faktor (mir fällt jetzt kein Beispiel
ein; vielleicht vom Ölpreis - - egal). Eine Analyse, welche
diesen Faktor berücksichtigt, würde vielleicht zeigen, dass
die Konjunktur direkt praktisch keinen Einfluss auf die
Büronutzung hat (weil sich die Änderung in Büronutzung UND
Konjunktur BEIDE alleine durch die Änderung des dritten
Faktors erklären lassen), während eine Analyse nur der Beiden
Faktoren eine starke Korellation zeigen.

Also in der Literatur wird seitens der Konjunktur von kurz bis mittelfristigen Einflüssen auf den Immobilien"schweinezyklus" ausgenagen. die Grundannahme ist dabei folgende. Steigt das Bip an, so expandieren Unternehmen und stellen neue Arbeitskräfte ein. Dadurch wird mehr Bürofläche nachgefragt. Es kommt zu einer Senkung des Leerstands und durch Verknappung der angebotenen Fläche zu einer Mietpreissteigerung, sowohl im Spitzenpreissegment als auch bei der Durchschnittsmiete.

Generell wird von einer Zeitverzögerung von 1 - 3 Jahren ausgenagen. Daher habe ich den Timelag eingebaut. Berechnet habe ich diese auch für 1 - 3 Jahre. Ich hab also nicht einfach das Timelag erfunden um eine Signifikanz zu erreichen :wink:

Die Wirklichkeit ist sicher komplizierter.

Ich bin tatsächlich von einem linearen Zusammenhang
ausgegangen. Ich ging davon aus, dass wenn das Bip steigt,
dass die Leerstandsflächen zurückgehen und gleichzeitig die
Mietpreise anziehen.

Hier würd mich mal interessieren was man genau unter Linear versteht. Wenn der Faktor x um 10 Prozent steigt, dass der Faktor y dann immer um 5 Prozent steigt (als Beispiel)?

Ob das plausibel ist, musst du beurteilen können. Ich habe zu
wenig Ahnung, würde es aus dem Bauch heraus aber eher für
unwahrschenilich halten.

Ja,die Werte streuen sehr weit, liegt daran,dass die
Leerstandsrate in einem Jahr u.a. von 1,5 Prozent auf 4,5
Prozent angestiegen ist.Diese beiden Werte sidn aus den
Krisenjahren 2001 und 2002.

Tjaaaa, jetzt gibt es zwei Möglichkeiten:

a) Krisen beeinflussen die Konjunktur sehr stark und diese
beiden Werte sind die einzigen, die einen Nennenswerten Effekt
aufweisen oder

b) Krisen beeinflussen Tod&Teufel und ein möglicher
Zusammenhang zur Büronutzung ist zu verwischt oder verfälscht,
so dass diese Werte das Ergebnis unbrauchbar machen und somit
nicht in die Analyse mit einbezogen werden sollten.

Aus das läßt sich nur mit Sachverstand entscheiden, den ich
nicht habe.

Also zu a) Zu einer Konjunktur gehören ja immer Aufschwung, Abschwung, und eben die Krise und die Erholungspahse. Die extremwerte sind der Krise zuzuordnen, also es ist ein Bestandteil des Konjunkturverlaufs. Weil ein Wachstum insgesamt erfolgt ja nicht linear, sondern unterliegt Schwankungen.

die 0,04 ist ja das Bestimmtheitsmaß, es gibt ja das
Verhältnis der Varianz der Beobachteten Werte und der
geschätzten Werte an. oder?

Korrekt.

Ich hatte das so verstanden, dass man einen einseitigen Test
dann macht, wenn man schon vorher weiss in welche Richtung es
korreliert, und einen zweiseitigen Test wenn man sich darüber
nicht sicher ist? Ist das falsch?

Im Prinzip schon, aber nicht ganz. Beim einseitigen Test ist
es wichtig, dass man „signifikante“ Ergebnisse „in die falsche
Richtung“ auch tatsächlich ignoriert. Das macht aber praktisch
keiner, und so glaubt man auch keinem, der behauptet, das zu
tun. Würde ich eine solche Publikation deiner Daten/Auswertung
lesen, würde ich mir denken: "Klasse, _eigentlich_ liegt sein
Signifikanzniveau bei 0.2 (und nicht bei 0.1), also ist das
Ergebnis mit bis zu 20%iger Wahrscheinlichkeit falsch-positiv

  • damit verschwende ich nicht weiter meine Zeit…"

das ist sicherlich richtig, dass die Fehlerwahrscheinlichkeit serhr hoch ist aufgrund „meiner“ Datenerhebung, bedingt durch eine zu kurze Zeitreihe. Auf die Unsicherheit der Ergebnisse wird ja natürlich hingewiesen.

Besser ist es, nur dann eineitig zu testen, wenn aus
zwingenden logischen Gründen der Zusammenhang nur in eine
Richtung laufen _kann_.

Hey, das war kein Vorwurf. Es muss halt nur klar sein, dass
man mit Statistik nicht mehr aus Daten rausholen kann, als
ohnehin schon drinsteckt. Ich kann aus 100g Mehl kein 2kg-Brot
backen.

Ich konnte jetzt aber nochmal drei weitere Datensätze
hinzugewinnen.

Mehr ist immer besser. Hierbei zumindest :wink:

Die Korrelation (auf Basis der Wachstumsraten) sind jetzt nach
Pearson:

r=-0,010551075
sig: 0,486

Also: überhauptgarnichts.

ja, berechnet ohne Timelag, mit Timelag (1,2,3-Jahre) ja dann eine negative Korrelation. Was die theorie ja bestätigen würde.

Also Ziel der Untersuchugn ist auch, wie Städte unterschiedlich auf die Konjunktur reagieren. In Frankfurt ist der Korrelationswert immer bei 0,1 bis 0,15. Also reagiert Frankfurt anders als München.

Die Frage für mich ist eben, würden völlig andere Ergebnisse rauskommen wenn ich mit dem Rangkorrelationskoeffizient neu berechnen würde? Oder wird es den gleichen „trend“ ausweisen? Kann man das überhaupt pauschal beantworten? *grübel

Berücksichtige ich einen time lag von einem jahr(da der
Immobilienmarkt immer erst zeitverzögert reagiert), erhalte
ich eine Korrelation von -0,425 (timelag von 2 Jahren = -0,36)
und ein sig. von 0,074 (sig. für 2 jahre = 0,125). Bei einem
angesetzten Signifikanzniveau von 10 Prozent hätte ich eine
signifikante Korrelation gefunden? oder?

Die Idee mit der Zeitverzögerung ist gut. Problematisch ist
die Willkür, wieviele Jahre das sein sollen. Wenn du aus
anderen Studien / Daten gute hinnweise auf eine SINNVOLLE
Verzögerungsdauer hast, dann solltest du das so rechnen.
Einfach mal durchprobieren, wann du was signifikant bekommst,
ist KEINE gute Idee; die Wahrscheinlichkeit, dass du irgendein
signifikanntes Ergebnis bekommst (wenn in Wahrheit KEIN
Zusammenhang besteht), ist dann nämlich deutlich größer als
die von dir gewünschten (und gerade noch akzeptablen!) 10% !
(Stichwort: multiples Testen)

ist die anwendung des Prason`schen Korrelationskoeffizienten
vertretbar?

Ja, wenn der Zusammenhang begründbar linear sein sollte.

Ich bin von einem linearen Zusammenhang
ausgegangen. Ist der ansatz der Wachstumsraten doch nicht
optimal?

Das kann ich nicht beurteilen. Das hängt wirklich vom genauen
Problem ab. Wenn sich Änderungen an Grenzen abspielen
(Sättigungseffekte oder Ausdünnungseffekte), sind
Zusammenhänge praktisch nie linear. Theoretisch nicht-lineare
Zusammenhänge können aber in bestimmten BEREICHEN durchaus
hinreichend gut linear sein.

Ich denke mal, dass meine Ausreiser nach oben das
Ergebnis extrem verfälschen.

Oder dass es die einzigen Daten sind, die dir überhaupt was
sagen…

Macht es Sinn den Rangkorrelationskoeefizient zu verwenden?

Ja. An deiner Stelle würde ich den
Rangkorrelationskoeefizienten nutzen.

Ich dachte bei metrisch skalierten Daten wäre der nicht
anzuwenden

Doch, doch. Bei nicht-metrisch skalierten Daten kann man
Pearson nicht verwenden, weil sowas wie Linearität dann ja
nichtmal definiert ist. Andersherum kann man aber eine
mögliche Information über einen linearen Zusammenhang in
metrischen Daten ignorieren. WENN die Daten linear
zusammenhängen, verliert man damit eben Information, d.h.,
Teststärke (ist wird schwerer, einen Zusammenhang
nachzuweisen). WENN die Daten nicht-linear zusammenhängen, ist
das Ergebnis von Pearson schlicht falsch.

Kannst du mir vielleicht aufgrund meiner oben gemachten
Angaben nochmal weiterhelfen? :smile:

Hat das geholfen? (was ist eigentlich die einfache
Vergangenheitsform von ‚helfen‘: ‚half‘? klingt so komisch…)

keine Ahnung. aber geholfen hört sich doch mal ganz gut an :wink:

LG
Jochen

Gruss

Also zu a) Zu einer Konjunktur gehören ja immer Aufschwung,
Abschwung, und eben die Krise und die Erholungspahse. Die
extremwerte sind der Krise zuzuordnen, also es ist ein
Bestandteil des Konjunkturverlaufs. Weil ein Wachstum
insgesamt erfolgt ja nicht linear, sondern unterliegt
Schwankungen.

hab ich mir hier selber die Antwort gegeben? Nicht linear weil kurzfristiges Wachstum (also die Konjunktur) Schwankungen unterliegt, und nur langfristig ein gleichmäßiges Wachstum zu ermitteln ist. Da meine Datenreihe sehr kurz ist (n=15) und ich somit extreme Schwankungen drin hab also den Pearson nicht verwenden sollte?

Ist das schlüssig? *grübel

Hallo,

Generell wird von einer Zeitverzögerung von 1 - 3 Jahren
ausgenagen. Daher habe ich den Timelag eingebaut. Berechnet
habe ich diese auch für 1 - 3 Jahre. Ich hab also nicht
einfach das Timelag erfunden um eine Signifikanz zu erreichen
:wink:

Das ist ja ok. Nur, wenn du einen Timelag von 1 UND von 2 UND von 3 Jahren durchrechnest, musst du die drei Werte für die Signifikanz so korrigieren, dass sich die Gesamtsignifikanz für „mindestens eine der drei Analysen“ ergibt. Das Einfachste ist hier eine Bonferroni-Korrektur der „Signifikanz“-Werte (=p-Werte). In deinem Fall bedeutet das, dass du ein Ergebnis dann auf dem Niveau von 0.1 als signifikant einstufen darfst, wenn der p-Wert der Einzelanalyse kleiner ist als 0.1/3 = 0.033.

In deinem Fall ist es aber auch möglich, schlicht den publizierten „mittleren Timelag“ zu nehmen (also 2 Jahre) und sich die beiden anderen Ergebnisse NICHT anzusehen. Dann braucht’s die Korrektur der p-Werte nicht.

das ist sicherlich richtig, dass die Fehlerwahrscheinlichkeit
serhr hoch ist aufgrund „meiner“ Datenerhebung, bedingt durch
eine zu kurze Zeitreihe. Auf die Unsicherheit der Ergebnisse
wird ja natürlich hingewiesen.

Das macht ja der p-Wert (die „Signifikanz“). Wenn der Wert sehr klein ist, dann ist sind die Daten gut genug, um den hypothetisierten Zusammenhang auch zu zeigen. Ist er zu groß, dann SIEHT man in den Daten eben KEINEN Zusammenhang (bitte nicht verwechseln: Etwas nicht zu sehen, heißt nicht, dass es nicht da ist; vielleicht ist man nur zu „blind“, um etwas zu sehen! - Wenn man das genauer wissen will, muss man _vor_ der Studie eine Poweranayse und Fallzahlplanung machen).

ja, berechnet ohne Timelag, mit Timelag (1,2,3-Jahre) ja dann
eine negative Korrelation. Was die theorie ja bestätigen
würde.

Korrekt.

Also Ziel der Untersuchugn ist auch, wie Städte
unterschiedlich auf die Konjunktur reagieren. In Frankfurt ist
der Korrelationswert immer bei 0,1 bis 0,15. Also reagiert
Frankfurt anders als München.

Naja, das müsste man eben zeigen. Die Frage ist also: wie wahrscheinlich ist es, mindestns so starke Unterschiede zwischen den Städten zu finden wie beobachtet, wenn es in Wirklichkeit keine Unterschiede gibt?

Die Frage für mich ist eben, würden völlig andere Ergebnisse
rauskommen wenn ich mit dem Rangkorrelationskoeffizient neu
berechnen würde? Oder wird es den gleichen „trend“ ausweisen?
Kann man das überhaupt pauschal beantworten? *grübel

Hängt von den Daten ab.

LG
Jochen

1 „Gefällt mir“

hab ich mir hier selber die Antwort gegeben? Nicht linear weil
kurzfristiges Wachstum (also die Konjunktur) Schwankungen
unterliegt, und nur langfristig ein gleichmäßiges Wachstum zu
ermitteln ist. Da meine Datenreihe sehr kurz ist (n=15) und
ich somit extreme Schwankungen drin hab also den Pearson nicht
verwenden sollte?

Nee.

Der ZUSAMMENHANG zwischen den Raten muss linear sein. Dabei ist es unerheblich, ob beide Raten mit der Zeit (oder irgendeinem anderen Faktor) schwanken oder sonstwas machen.

LINEAR heißt, dass sich der Zusammenhang beider Faktoren (X und Y) darstellen läßt als:

Y = m*X+b

wobei m und b die Parameter Steigung und Achsenabschnitt der linearen Modells sind. Beispiel: Erzeugte Strommenge aus Solarzellen und Intensität der Sonneneinstrahlung (linear zumindest in einem gewissn Bereich der Sonneneinstrahlung). Natürlich ist die Sonneneinstrahlung nicht konstant und schwankt im Tages- und Jahresverlauf.

Ein Beispiel für einen nicht-linearen Zusammenhang wäre zB.

Y = aX²

Das wäre ein quadratischer Zusammenhang. Der Bremsweg und die Geschwindigkeit, aus der gebremst wird, haben etwa einen quadratischen Zusammenhang. Es gibt auch exponentielle Zusammenhänge, log-lineare, logistische, reziproke, usw. Zusammenhänge.

LG
Jochen

Hallo,

Generell wird von einer Zeitverzögerung von 1 - 3 Jahren
ausgenagen. Daher habe ich den Timelag eingebaut. Berechnet
habe ich diese auch für 1 - 3 Jahre. Ich hab also nicht
einfach das Timelag erfunden um eine Signifikanz zu erreichen
:wink:

Das ist ja ok. Nur, wenn du einen Timelag von 1 UND von 2 UND
von 3 Jahren durchrechnest, musst du die drei Werte für die
Signifikanz so korrigieren, dass sich die Gesamtsignifikanz
für „mindestens eine der drei Analysen“ ergibt. Das Einfachste
ist hier eine Bonferroni-Korrektur der „Signifikanz“-Werte
(=p-Werte). In deinem Fall bedeutet das, dass du ein Ergebnis
dann auf dem Niveau von 0.1 als signifikant einstufen darfst,
wenn der p-Wert der Einzelanalyse kleiner ist als 0.1/3 =
0.033.

In deinem Fall ist es aber auch möglich, schlicht den
publizierten „mittleren Timelag“ zu nehmen (also 2 Jahre) und
sich die beiden anderen Ergebnisse NICHT anzusehen. Dann
braucht’s die Korrektur der p-Werte nicht.

das ist sicherlich richtig, dass die Fehlerwahrscheinlichkeit
serhr hoch ist aufgrund „meiner“ Datenerhebung, bedingt durch
eine zu kurze Zeitreihe. Auf die Unsicherheit der Ergebnisse
wird ja natürlich hingewiesen.

Das macht ja der p-Wert (die „Signifikanz“). Wenn der Wert
sehr klein ist, dann ist sind die Daten gut genug, um den
hypothetisierten Zusammenhang auch zu zeigen. Ist er zu groß,
dann SIEHT man in den Daten eben KEINEN Zusammenhang (bitte
nicht verwechseln: Etwas nicht zu sehen, heißt nicht, dass es
nicht da ist; vielleicht ist man nur zu „blind“, um etwas zu
sehen! - Wenn man das genauer wissen will, muss man _vor_ der
Studie eine Poweranayse und Fallzahlplanung machen).

ja, berechnet ohne Timelag, mit Timelag (1,2,3-Jahre) ja dann
eine negative Korrelation. Was die theorie ja bestätigen
würde.

Korrekt.

Also Ziel der Untersuchugn ist auch, wie Städte
unterschiedlich auf die Konjunktur reagieren. In Frankfurt ist
der Korrelationswert immer bei 0,1 bis 0,15. Also reagiert
Frankfurt anders als München.

Naja, das müsste man eben zeigen. Die Frage ist also: wie
wahrscheinlich ist es, mindestns so starke Unterschiede
zwischen den Städten zu finden wie beobachtet, wenn es in
Wirklichkeit keine Unterschiede gibt?

Die Frage für mich ist eben, würden völlig andere Ergebnisse
rauskommen wenn ich mit dem Rangkorrelationskoeffizient neu
berechnen würde? Oder wird es den gleichen „trend“ ausweisen?
Kann man das überhaupt pauschal beantworten? *grübel

Hängt von den Daten ab.

LG
Jochen

Danke für deine Antwort.

Fasse ich mal zusammen. Ich bin mir nicht sicher ob der Zusammenhang linear ist. Die Folge daraus ist: Der Korrelationskoeffizient nach Pearson könnte falsche Ergebnisse ausweisen.

Die Alternative ist der Rangkorrelationskoeffizient nach Spearman, weil eben dort Ausreiser nicht ins Gewicht fallen und es somitzu keinen verfälschten Ergebnissen kommt.

Mal angenommen.

Zusammenhang nicht linear —>ich nehme Pearson= „falsches“ Ergebnis
Zusammenhang nicht linear —>ich nehme Spearman= „richtiges“ Ergebnis
Zusammenhang linear —> ich nehme Spearman= dann heißt das was? trotzdem „richtig“? „nicht ganz so richtig“? oder „falsch“? *grübel

LG

Hallo,

Generell wird von einer Zeitverzögerung von 1 - 3 Jahren
ausgenagen. Daher habe ich den Timelag eingebaut. Berechnet
habe ich diese auch für 1 - 3 Jahre. Ich hab also nicht
einfach das Timelag erfunden um eine Signifikanz zu erreichen
:wink:

Das ist ja ok. Nur, wenn du einen Timelag von 1 UND von 2 UND
von 3 Jahren durchrechnest, musst du die drei Werte für die
Signifikanz so korrigieren, dass sich die Gesamtsignifikanz
für „mindestens eine der drei Analysen“ ergibt. Das Einfachste
ist hier eine Bonferroni-Korrektur der „Signifikanz“-Werte
(=p-Werte). In deinem Fall bedeutet das, dass du ein Ergebnis
dann auf dem Niveau von 0.1 als signifikant einstufen darfst,
wenn der p-Wert der Einzelanalyse kleiner ist als 0.1/3 =
0.033.

In deinem Fall ist es aber auch möglich, schlicht den
publizierten „mittleren Timelag“ zu nehmen (also 2 Jahre) und
sich die beiden anderen Ergebnisse NICHT anzusehen. Dann
braucht’s die Korrektur der p-Werte nicht.

das ist sicherlich richtig, dass die Fehlerwahrscheinlichkeit
serhr hoch ist aufgrund „meiner“ Datenerhebung, bedingt durch
eine zu kurze Zeitreihe. Auf die Unsicherheit der Ergebnisse
wird ja natürlich hingewiesen.

Das macht ja der p-Wert (die „Signifikanz“). Wenn der Wert
sehr klein ist, dann ist sind die Daten gut genug, um den
hypothetisierten Zusammenhang auch zu zeigen. Ist er zu groß,
dann SIEHT man in den Daten eben KEINEN Zusammenhang (bitte
nicht verwechseln: Etwas nicht zu sehen, heißt nicht, dass es
nicht da ist; vielleicht ist man nur zu „blind“, um etwas zu
sehen! - Wenn man das genauer wissen will, muss man _vor_ der
Studie eine Poweranayse und Fallzahlplanung machen).

ja, berechnet ohne Timelag, mit Timelag (1,2,3-Jahre) ja dann
eine negative Korrelation. Was die theorie ja bestätigen
würde.

Korrekt.

Also Ziel der Untersuchugn ist auch, wie Städte
unterschiedlich auf die Konjunktur reagieren. In Frankfurt ist
der Korrelationswert immer bei 0,1 bis 0,15. Also reagiert
Frankfurt anders als München.

Naja, das müsste man eben zeigen. Die Frage ist also: wie
wahrscheinlich ist es, mindestns so starke Unterschiede
zwischen den Städten zu finden wie beobachtet, wenn es in
Wirklichkeit keine Unterschiede gibt?

Die Frage für mich ist eben, würden völlig andere Ergebnisse
rauskommen wenn ich mit dem Rangkorrelationskoeffizient neu
berechnen würde? Oder wird es den gleichen „trend“ ausweisen?
Kann man das überhaupt pauschal beantworten? *grübel

Hängt von den Daten ab.

LG
Jochen

Danke für deine Antwort.

Fasse ich mal zusammen. Ich bin mir nicht sicher ob der Zusammenhang linear ist. Die Folge daraus ist: Der Korrelationskoeffizient nach Pearson könnte falsche Ergebnisse ausweisen.

Die Alternative ist der Rangkorrelationskoeffizient nach Spearman, weil eben dort Ausreiser nicht ins Gewicht fallen und es somitzu keinen verfälschten Ergebnissen kommt.

Mal angenommen.

Zusammenhang nicht linear —>ich nehme Pearson= „falsches“ Ergebnis
Zusammenhang nicht linear —>ich nehme Spearman= „richtiges“ Ergebnis
Zusammenhang linear —> ich nehme Spearman= dann heißt das was? trotzdem „richtig“? „nicht ganz so richtig“? oder „falsch“? **grübel

LG

Hallo,

Mal angenommen.

Zusammenhang nicht linear —>ich nehme Pearson= „falsches“
Ergebnis

Korrekt. Pearson misst die LINEARE Assoziation zweier Variablen.

Zusammenhang nicht linear —>ich nehme Spearman=
„richtiges“ Ergebnis

Korrekt. Spearman misst die MONOTONE Assoziation zweier Variablen. (Anm: Wenn der Zusammenhang nicht monoton ist, taugt auch Spearman nicht. Beispiel: Über X steigen die Werte für Y zunächst an und fallen dann wieder ab, so wie zB. die Flughöhe eines nach oben geworfenen Balles mit der Zeit nach Abwurf; natürlich gibt es hier eine strenge [quadratische!] Korrelation, die ist aber nicht monoton)

Zusammenhang linear —> ich nehme Spearman= dann heißt das
was? trotzdem „richtig“? „nicht ganz so richtig“? oder
„falsch“? *grübel

Wenn Spearman „signifikant“ wird, heißt das, dass es bei den beiden Variablen einen monotonen Zusammenhang gibt. Ein linearer Zusammenhang ist immer auch monoton. Ebenso sind exponentielle und logistische Zusammenhänge immer auch monoton.

Das einzige „Problem“ ist, wenn es tatsächlich ein linearer Zusammenhang ist und du „nur“ die Ränge verwendest anstatt der metrischen Were (also Spearman statt Pearson), dann nutzt du einen Teil der Information eben nicht aus. Ein linearer Zusammenhang würde mit Pearson eben etwas eher „signifikant“. Nochmal mit anderen Worten: Es gibt in Wahrheit schwache und lineare Zusammenhänge, die von Pearson gerade noch als statistisch signifikant erkannt werden, von Spearman aber nicht.

Auf der anderen Seite: Wenn die (in Wahrheit lineat korellierten) Daten Ausreißer enthalten, reagiert Pearson empfindlich darauf und wird dann nicht „signifikant“, während man mit Spearman das nicht so viel ausmacht.

LG
Jochen

1 „Gefällt mir“

ich habe bereits von allen Korrelationen eine Regressionsfunktion mit Schaubild erstellt. Kann ich daran erkennen ob ein linearer Zusammenhang vorliegt?

Manchmal habe ich eine Art Punktewolke und die Gerade geht einfach durch. Gut, dass ist bei den Regressionsfunktionen, die keine Korrelation beinhalten.

Wenn jetzt die beobachteten Werte entlang der Gerade (z.b. Steigung 1) liegen, dann müsste es doch linear sein?

Was ist aber, wenn es „etwas“ ungeordnet ist?Also die Punkte dicht gedrängt sind innerhalb eines kleinen Umfelds, dann eher nicht linear?

Du kannst dir sicherlich vorstellen wie die das Schaubild der Regressionsgerade für Leerstand/Bip aussieht. viele neagtive werte und zwei starke Ausreißer nach oben. Die Frage ist natürlich hierbei, ob diese Funktion irgendwas aussagt? aber das gibt mir ja das Bestimmtheitsmaß an…oder lieg ich da falsch?

LG

ich habe bereits von allen Korrelationen eine
Regressionsfunktion mit Schaubild erstellt. Kann ich daran
erkennen ob ein linearer Zusammenhang vorliegt?

Ja, wenn die Punkte alle in der Nähe eine Geraden liegen und nicht SYSTEMATISCH von der Geraden abweichen.

Man kann eine eventuelle, systematische Abweichung der Daten von der Regressionsgeraden gut visualisieen, wenn man statt der Datenwerte die Residuen (Differenz von y-Datenwert zum y-Wert der Regressionsgeradenfür den selben x-Wert) plottet. Wenn diese Residuen dann gleichmäßig um die Null herum streuen, ist alles ok.

Wenn die systematischen Abweichungen zur Geraden gering sind, kann man sie auch ignorieren.

Streuen die Daten sowiesowie verrückt („Punkte-Wolke“), dann ist es prinzipiell praktisch unmöglich, anhand der Daten zu beurteilen, ob der eigentliche, zugrundeliegende Zusammenhang nun linear ist oder nicht. Dann gibt es nur folgende Strategien:

Entweder man kennt die Art des Zusammenhangs aus der Literatur oder er ergibt sich aus einem Modell, was man hat (zu derartigen Beobachtungsstudien wie bei dir gibt es aber i.d.R. keine „guten“ Modelle, weil zu viel unbekannt ist),

oder man verzichtet auf die Annahme von Linearität (oder einer anderen Funktion) und beschränkt sich auf die Untersuchung monotoner Assoziationen (Spearman).

Wenn jetzt die beobachteten Werte entlang der Gerade (z.b.
Steigung 1) liegen, dann müsste es doch linear sein?

Ja, das spricht für einen zumindest im Wesentlichen linearen Zusammenhang.

Was ist aber, wenn es „etwas“ ungeordnet ist? Also die Punkte
dicht gedrängt sind innerhalb eines kleinen Umfelds, dann eher
nicht linear?

Dann kannst du aufgrund der vorliegenden Daten keinen Schluss über die Form eines möglichen Zusammenhangs ziehen. Eine Korrelationsanalyse liefert dir dann ja auch ein miserables Bestimmtheitsmass.

Wenn du eine solche Punkte-Wolke hast und einen starken, extremen Ausreisser, dann wird das Bestimmtheitsmass nach Pearson wieder besser - ein eben möglicherweise ganz falsches Ergebnis.

Die Frage ist
natürlich hierbei, ob diese Funktion irgendwas aussagt? aber
das gibt mir ja das Bestimmtheitsmaß an…oder lieg ich da
falsch?

Korrekt. Das Bestimmtheitsmass nach Pearson sagt dir, dass es in den Daten keinen erkennbaren (zumindest keinen nennenswerten) linearen Zusammenhang gibt. Ich glaube, dass auch das Bestimmtheitsmass nach Spearman ergeben wir, dass es keinen erkennbaren monotonen Zusammenhang gibt. Das ist zumindest für die Auswertung OHNE Timelag der Fall. Wie schon erwähnt, sollte das Bestimmtheitsmass über 0.25 (besser über 0.5) liegen, um überhaupt sowas wie eine praktische Bedeutsamkeit zu besitzen. Erst wenn das der Fall ist, lohnt es, zu prüfen, of der Zusammenhang „überzufällig“ ist, also statistisch signifikant ist.

LG
Jochen