T-Test

Hi!

Ich führe momentan eine Event Study durch. Ich habe bereits die abnormalen Returns bzw. die kumulativen abnormalen Returns berechnet. Jetzt muss ich noch analysieren, ob die abnormalen Returns signifikant sind. Das will ich mit einem t-Test in Excel machen. Ich weiß allerdings nicht wie das geht bzw. welchen Test ich verwenden muss. Ich habe ca. 180 Datensätze.

Im Prinzip teste ich bei diesem Test doch, wie sich die Abweichung vom Mittelwert zu einem bestimmten Datenpunkt zur Standardabweichung unterscheidet, oder? Wenn sich dann die Abweichung signifikant von der Standardabweichung unterscheidet, kann ich eine Hypothese bestätigen oder halt nicht…

Für Hilfe wäre ich sehr dankbar.

Viele Grüße

Hallo,

von Deiner kurzen Beschreibung wird nicht klar, was Du genau für Daten hast, wie der Versuch genau durchgeführt wurde und was Deine Hypothesen sind. Daher kann man nichts Konkretes dazu sagen.

Allgemein zum (Zweistichproben-)t-Test:

Dieser Test testet die Null-Hypothese (H0), dass zwei Stichproben aus Grundgesamtheiten mit dem gleichen Mittelwert gezogen wurden. Mit anderen Worten: Die Nullhypothese besagt, dass die Unterschiede in den Stichproben-Mittelwerten nur Stichprobenfehler sind (und nichts mit einem Systematischen Unterschied der beiden Gruppen zu tun haben).

Das ganze liefert nur sinnvolle Ergebnisse, wenn die Daten näherungsweise normalverteilt sind. Strenggenommen müssen auch die Varianzen beider Stichproben gleich sein. Leichte Abweichungen sind tolerabel, insbesondere wenn viele Datenwerte vorliegen (n>30 pro Gruppe).

Der t-Test berechnet eine Prüfgröße, deren Verteilung unter H0 der t-Verteilung mit n1+n2-2 Freiheitsgraden entspricht. Anhand dieser Verteilung können für gegebene Werte der Prüfgröße sog. p-Werte berechnet werden, die angeben, mit welcher Wahrscheinlichkeit die Prüfgröße unter H0 einen mindestens so extremen Wert annehmen würde.

Unter H0 sind die p-Werte gleichverteilt im Intervall 0…1. Unter H0 ist also die Wahrscheinlichkeit, einen p-Wert von kleiner 0.5 zu bekommen 0.5. Allgemein: Unter H0 ist die Wahrscheinlichkeit, einen p-Wert kleiner alpha zu bekommen genau gleich alpha.

Wenn man nun für gegebene Stichproben den p-Wert berechnet, und dieser p-Wert ist zB. 0.14, dann heißt das, dass man mit 14%iger Wahrscheinlichkeit unter H0 eine mindestens so extreme Prüfgröße bekommen würde wie die, die aus den vorliegenden Daten berechnet wurde.

Für die Interpretation muss man zwei Studienziele unterscheiden:

  1. In explorativen Studien gibt man den p-Wert an und interpretiert die Bedeutung der Ergebnisse in aller Regel im Zusammenhang mit anderen Ergebnissen, Modellen und Randbedingungen. Es geht nicht darum, eine terminale Aussage zu treffen, ob sich die Mittelwerte nun unterscheiden oder nicht, sondern darum, die Daten als Evidenz für oder gegen ein Modell zu verwenden. Als Maß für die Evidenzstärke dient der p-Wert.

  2. In konfirmatorischen Studien will man eine definitive Aussage: ja oder nein. Solchen Studien gehen Pilutstudien und exploratorische Studien voraus, außerdem eine genaue Fallzahlplanung, damit auch negative Ergebnisse interpretierbar sind (Stichwort Teststärke/Power). Hier wird vorher festgelegt, welche Hypothesen man testen will, wie groß die interessierenden Effekte sind und welche Wahrscheinlichkeit man für ein falsch-positives und ein falsch-negatives Ergebnis akzeptiert. Entsprechend wird die Studie geplant und durchgeführt. Die Art der Auswertung ist durch die Planung schon genau vorgegeben. Ist der p-Wert kleiner als die akzeptierte Wahrscheinlichkeit für ein falsch-positives Ergebnis, wird H0 verworfen. Ansonsten wird H0 akzeptiert, wobei die akzeptierte Wahrscheinlichkeit für ein falsch-negatives Ergebnis eingehalten wird.

Es ist zwar (noch) nicht gängige Praxis, aber genaugenommen sollte man bei explorativen Studien nicht von „signifikanten“ Ergebnissen sprechen. Stattdessen sollte eine „fuzzy logic“ verwendet werden, um die Ergebnisse zu beschreiben. Ist der p-Wert sehr klein (0.001), kann man von (gut) gesicherten Unterschieden sprechen, p-Werte größer 0.01 sprechen für Unterschiede, allerdings mit mäßiger Evidenz, bis 0.05 mit eher schwacher Evidenz, bis 0.1 mit sehr schwacher oder marginaler Evidenz. Darüber wird es müßig, die Ergebnisse zu interpretieren. Ohne Fallzahlplanung kann man dazu nur sagen, dass die Daten praktisch keine Evidenz gegen H0 liefern, was immer daran liegen kann, dass die Stichproben zu klein waren.

Die p-Werte lassen sich als quantitatives Maß sehen, wieviel wir aus den vorliegenden Daten über das Nicht-Zutreffen von H0 lernen. Jeder p-Wert revidiert unser Wissen. Viele p-Werte vieler explorativer Studien könnten allesamt zwischen 0.051 und 0.2 liegen. Keiner für sich genommen würde je als „signifikant“ interpretiert, keine dieser Studien würde publiziert (oder beachtet), teilte man die Ergebnisse in signifikant und nicht-signifikant ein. Alle zusammen lehren uns aber sehr wohl etwas. Jeder p-Wert revidiert unser Wissen etwas in Richtung „Es gibt Unterschiede“.

LG
Jochen

Servus Jochen,

Das ganze liefert nur sinnvolle Ergebnisse, wenn die Daten
näherungsweise normalverteilt sind. Strenggenommen müssen auch
die Varianzen beider Stichproben gleich sein.

Wobei es da schon lange entsprechende Anpassungen gibt (-> Welch Test). Also kann man die Annahme auch fallen lassen, im Zweifel den WElch test rechnen und ist fast sicher auf der sicheren Seite.

Für die Interpretation muss man zwei Studienziele
unterscheiden:

Es ist zwar (noch) nicht gängige Praxis, aber genaugenommen
sollte man bei explorativen Studien nicht von „signifikanten“
Ergebnissen sprechen. Stattdessen sollte eine „fuzzy logic“
verwendet werden, um die Ergebnisse zu beschreiben.

Sollte es m.M. auch nicht werden. Da schon die 5% für alpha denkbar beliebig sind, sind Grenzen von 0.001 und dergleichen es ebenso. Gänzlich irreführend finde ich, bei Werten > 5% von Tendenz zu sprechen. Tendenz wohin? Ohne eine weitere Studie kann keiner sagen, ob die Tendenz nun in Richtung Unterschied oder kein Unterschied geht.
Viel besser ist es, sich die Konfidenzintervalle anzusehen und auf fachlicher Grundlage zu entscheiden, ob das KI innerhalb oder ausserhlab eines relevanten Bereichs liegt. Dann bekommtm man nämlich auch eine wirkliche inhaltliche Interpretation der Ergebnisse und man würde davon abrücken, nur nach signifikanten Ergebnissen zu schielen.

Die p-Werte lassen sich als quantitatives Maß sehen, wieviel
wir aus den vorliegenden Daten über das Nicht-Zutreffen von H0
lernen. Jeder p-Wert revidiert unser Wissen. Viele p-Werte
vieler explorativer Studien könnten allesamt zwischen 0.051
und 0.2 liegen. Keiner für sich genommen würde je als
„signifikant“ interpretiert, keine dieser Studien würde
publiziert (oder beachtet), teilte man die Ergebnisse in
signifikant und nicht-signifikant ein. Alle zusammen lehren
uns aber sehr wohl etwas. Jeder p-Wert revidiert unser Wissen
etwas in Richtung „Es gibt Unterschiede“.

Kapier ich nicht. Wenn ich eine Folge von Studien habe und es ergeben sich p-Werte von 0.051, 0.069, 0.081, 0.12, 0.156 und 0.2, wieso soll das ein Indiz für Unterschiede sein? Viel eher könnte es ein Indiz für keine Unterschiede bei der nächsten Studie sein oder aber man hat gerade einen „bad run“. Kurzum: man weiß es nicht.

Grüße,
JPL

Hallo,

dankr erst mal für die schnelle Hilfe! Um das Gante zu konkretisieren:

Bei meiner Event Study lautet die Nullhypothese: gewisse Bekanntmachnungen haben keinen Einfluss auf den Aktienkurs.

Ich habe mir 180 Unternehmen angeschaut. Von diesen Unternehmen habe ich mir den sog. abnormalen Return errechnet. Hierbei handelt es sich einfach um die Rendite einer Aktie, die allerdings mit Holfe eines Aktienindex korrigiert wurde. Dann habe ich mir ein dreitägiges Event Window näher angeschaut. Innerhalb des Event Windows liegt die Bekanntmachung (siehe Hypothese). Ich betrachte mir also die rendite einen Tag vor der Bekanntmachung, am Tag der Bekanntmachung und einen Tag danach. Die Renditen innerhalb des Event Windows kummuliere ich. Nun stellt sich für mich dir Frage, ob dieser kummulierte Return signifikant ist. Pro Unternehmen habe ich also diesen kummulierten Return, den ich ja mit dem abnormalen Return vergleichen kann. Eine Tabelle würde so aussehen:

rendite rendite_aktienindex abnormal_return cummulative_abn_ret
0,05 0,03 0,02 -
.
.
.
0,06 0,03 0,03 0,03
0,01 0,01 0,00 0,00
0,01 0,02 -0,01 0,02

So eine Tabelle habe ich für alle 180 Unternehmen. Wenn die Bekanntmachung eine Auswirkung hat, müsste ja der kumm-abn_return eine größere Abweichung aufweisen, als die Standardabweichung, oder?

Moin,

Viel besser ist es, sich die Konfidenzintervalle anzusehen und
auf fachlicher Grundlage zu entscheiden, ob das KI innerhalb
oder ausserhlab eines relevanten Bereichs liegt.

Die Festlegung auf ein „relevantes KI“ ist letztlich das gleiche in Grün wie die Festlegung auf Schwellen-p-Werte. Was soll einfacher daran sein, inhaltlich zu beurteilen, ob nun ein 95%-, 99%- oder sonst ein %-KI wesentlich ist?

Kapier ich nicht. Wenn ich eine Folge von Studien habe und es
ergeben sich p-Werte von 0.051, 0.069, 0.081, 0.12, 0.156 und
0.2, wieso soll das ein Indiz für Unterschiede sein?

Was verstehst Du daran nicht? Unter H0 sind die p-Werte gleichverteilt. Die Experimente stellen ihrerseits eine Stichprobe von p-Werten dar. Wenn H0 zutrifft, ist der Erwartungswert 0.5. Man kann ausrechnen, wie wahrscheinlich es unter H0 ist, in n Experimenten immer wieder p

Hallo,

so ganz verstehen tu’ ich das nicht.

Wenn es um die Auswirkung der Bekanntmachung geht, solltest Du zwei Gruppen von Unternehmen unterscheiden, wo die eine Gruppe Bekanntmachungen getätigt hat und die andere nicht. Die Zusammensetzungen der beiden Gruppen sollte natürlich möglichst ähnlich sein.

So, wie ich Deinen Ansatz verstanden habe, sollten die abnormalen Returns und die cum.Renditen korrelieren, was nicht gut wäre. Außerdem hast vergleichst Du Daten von unterschiedlichen Tagen, so dass die Zeit als konfundierender Faktor mitspielt - auch nicht gut, und schon garnicht im Börsengeschäft, wo es so deutlich Unterschiede zwischen aufeinanderfolgenden Tagen geben kann.

LG
Jochen

Moin,

Die Festlegung auf ein „relevantes KI“ ist letztlich das
gleiche in Grün wie die Festlegung auf Schwellen-p-Werte. Was
soll einfacher daran sein, inhaltlich zu beurteilen, ob nun
ein 95%-, 99%- oder sonst ein %-KI wesentlich ist?

Ich meine die Festlegung auf einen relevanten Unterschied. So fliesst wissenschaftliche Fachkenntnis in die Auswertung mit ein. Dasselbe ist es nicht, denn bei Veränderung des KI von x% zu y% ändere ich nur mein alpha-Niveau. Demhingegen ist die Angabe einer non-inf-Grenze tatsächlich eine Veränderung des Tests vom simplen Unterschied zum maximal erlaubten Unterschied. Legte man sich z.B. auf ein 99.9% KI als relevant fest, würde man die Fallzahl in die Höhe schrauben oder selten Unterscheide zeigen können. Bleibt man bei 95% und setzt sich eine margin von x Einheiten Unterschied, kann man bei gleicher Fallzahl eine bessere Aussage treffen.

Kapier ich nicht. Wenn ich eine Folge von Studien habe und es
ergeben sich p-Werte von 0.051, 0.069, 0.081, 0.12, 0.156 und
0.2, wieso soll das ein Indiz für Unterschiede sein?

Was verstehst Du daran nicht? Unter H0 sind die p-Werte
gleichverteilt. Die Experimente stellen ihrerseits eine
Stichprobe von p-Werten dar. Wenn H0 zutrifft, ist der
Erwartungswert 0.5. Man kann ausrechnen, wie wahrscheinlich es
unter H0 ist, in n Experimenten immer wieder p

Huhu,

Wenn man unendlich viele Werte zwischen 0.051 und
0.49 hat, zeigt das noch keinen Unterschied zwischen zwei
tretments, sondern nur, dass die Gleichverteilungsannahme der
p-Werte nicht hinhaut.

Wenn dem so ist, dann kann es dafür zwei Gründe geben:

Entweder: Die Voraussetzungen für die Berechnung der p-Werte stimmen nicht (dann sind die Ergebnisse eh falsch)

Oder: H0 trifft nicht zu.

Was ist falsch daran?

LG
Jochen

Hi Jochen,

zuerst einmal sagt es dir nur, dass deine Teststatistik nur in einem bestimmten Bereich ist und man eben keinen Unterschied gefunden hat.
Gerade wenn H0 stimmt, ist das der Fall. Und die Teststatistik kann trotzdem richtig berechnet worden sein.
Grüße,
JPL

Hallo,

die Diskussionen mit Dir sind immer sehr lehrreich. Danke dafür!

zuerst einmal sagt es dir nur, dass deine Teststatistik nur in
einem bestimmten Bereich ist und man eben keinen Unterschied
gefunden hat.

Das verstehe ich wieder nicht. Hier setzt Du doch wieder eine (willkürliche) Grenze für die ja-oder-nein-Interpretation der p-Werte. Darum geht es doch aber hier garnicht. Das wird klar, wenn man sich klarmacht, dass die Ergebnisse einem Niveau von 0.2 alle *für* einen Unterschied sprechen.

Gerade wenn H0 stimmt, ist das der Fall. Und die Teststatistik
kann trotzdem richtig berechnet worden sein.

Wenn H0 stimmt und die Rechnung (bzw. die Modell-Voraussetzungen) stimmt, das *sind* die p-Werte gleichverteilt. Und damit läßt sich ausrechnen, wie wahrscheinlich man bei N Experimenten n oder mehr p-Werte kleiner als 0.2 bekommt. Nach der Binomialverteilung mit p=0.2, N=5 und n=5 ist das 0.00032. Unter wahrer H0 ist die W’keit also 0.032%, dass von 5 Experimenten alle 5 einen p-Wert kleine 0.2 liefern. Das spricht m.E. gegen H0.

Womöglich habe ich deinen Punkt überhauptnicht verstanden. Dann hab bitte Nachsicht und erklär’s mir nochmal.

LG
Jochen

Moin Jochen,

die Diskussionen mit Dir sind immer sehr lehrreich. Danke
dafür!

Daran bist du ja nicht unschuldig. :smile:

zuerst einmal sagt es dir nur, dass deine Teststatistik nur in
einem bestimmten Bereich ist und man eben keinen Unterschied
gefunden hat.

Das verstehe ich wieder nicht. Hier setzt Du doch wieder eine
(willkürliche) Grenze für die ja-oder-nein-Interpretation der
p-Werte. Darum geht es doch aber hier garnicht. Das wird klar,
wenn man sich klarmacht, dass die Ergebnisse einem Niveau von
0.2 alle *für* einen Unterschied sprechen.

Ich meinte: Man kann Fälle konstruieren, in denen niemals Unterscheide gezeigt werden können. Der riviale Fall wäre, wenn beide Stichprocben identisch sind. Dann wäre H0 (= kein Unterschied) immer richtig, p immer = 1 und die Gleichverteilung natürlich verletzt. Wenn man ein wening herumspielt, kann man de Bereich ausweiten (die Simaulation läuft aber gerade noch *g*), aber so setzen, dass er immer noch > x (z.B. 0.05) ist.
Die Grenze, von der du sprichst ist dann das Signifikanzniveau, die man wirklich frei wählen kann, aber ebenso frei ist von fachlicher Bedeutung. Denn warum sollte aus wissenschaftlichen Gründen man für den einen Fall ein anderen Sig.-Niveau wählen als in einem anderen (abgesehen davon, die Fallzahl drücken zu wollen)?

Gerade wenn H0 stimmt, ist das der Fall. Und die Teststatistik
kann trotzdem richtig berechnet worden sein.

Wenn H0 stimmt und die Rechnung (bzw. die
Modell-Voraussetzungen) stimmt, das *sind* die p-Werte
gleichverteilt. Und damit läßt sich ausrechnen, wie
wahrscheinlich man bei N Experimenten n oder mehr p-Werte
kleiner als 0.2 bekommt. Nach der Binomialverteilung mit
p=0.2, N=5 und n=5 ist das 0.00032. Unter wahrer H0 ist die
W’keit also 0.032%, dass von 5 Experimenten alle 5 einen
p-Wert kleine 0.2 liefern. Das spricht m.E. gegen H0.

Dann hast du dein SigNiveau auf 0.2 gesetzt. vorher hatte ich es verstanden, dass dies bei 0.05 lag und die p’s größer sind (keinen Unterschied belegen) aber

Huhu,

Ich meinte: Man kann Fälle konstruieren, in denen niemals
Unterscheide gezeigt werden können. Der riviale Fall wäre,
wenn beide Stichprocben identisch sind. Dann wäre H0 (= kein
Unterschied) immer richtig, p immer = 1 und die
Gleichverteilung natürlich verletzt.

Hmm, das verletzt m.E. die Voraussetzung (bleiben wir mal beim t-Test), dass die GG normalverteilt ist. Daraus immer wieder zwei identische Stichproben zu ziehen, ist praktisch unmöglich. Nimmt man endliche GG an (mit N) und zieht Srelativ große Stichproben (n nahe bei oder gleich N), geht das zwar, aber da müssen die p-Werte korrigiert werden (n x (z.B. 0.05) ist.

Da bin ich gespannt.

Die Grenze, von der du sprichst ist dann das
Signifikanzniveau, die man wirklich frei wählen kann, …

Das war mir wohl alles klar.

Dann hast du dein SigNiveau auf 0.2 gesetzt. vorher hatte ich
es verstanden, dass dies bei 0.05 lag

Ja, genau das ist der Punkt! Versuch nochmal, meine Argumentation zu verstehen:

Ich habe Datensätze von mehreren Experimenten. Diese Daten stehen in einem Zusammenhang zur Wahrheit. Nun führt *deine* Interpretation der p-Werte zu entgegengesetzten Interpretationen (Annahmen über die Wirklichkeit), je nachdem, wie hoch das SigNiveau gewählt wird. Wohlgemerkt, von den *selben* Daten ausgehend.

Würde man alle Daten gemeinsam auswerten, wäre der Stichprobenumfang viel größer und -sofern H0 nicht zutrifft- wäre p deutlich kleiner. Das zeigt doch auch, dass die Summe der Experimente in diesem Fall stärker gegen H0 spricht als jedes einzelne Experiment.

LG
Jochen

Hi!

Ich war leider krank und melde mich deswegen erst jetzt wieder.

Zu Frage 1::Wenn es um die Auswirkung der Bekanntmachung geht, solltest Du

zwei Gruppen von Unternehmen unterscheiden, wo die eine Gruppe
Bekanntmachungen getätigt hat und die andere nicht. Die
Zusammensetzungen der beiden Gruppen sollte natürlich
möglichst ähnlich sein.

Ich regressiere die Aktienkurse des Unternehmens, das die Ankündigung tätigt mit einem Aktienindex und zwar in einem Zeitraum vor der Ankündigung. Die Regressionsgerade verwende ich dann zum Forecasten. Ich schaue mir also die Aktienentwicklung zur Ankündigung an und korrigiere sie mit Hilfe des Indexes. So erkenne ich, welcher Return der „normalen“ ökonomischen Allgemeinentwicklung entspringt und welcher abnormal ist.

und schon garnicht im
Börsengeschäft, wo es so deutlich Unterschiede zwischen
aufeinanderfolgenden Tagen geben kann.

Ich gehe hier von einer Normalverteilung aus.

Ich schätze dann die Varianz der Returns mit Vergangenheitswerten, um dann diese Varianz mit dem kumulierten abnormalen Return ins Verhältnis zu setzen. (Return=tägliche prozentuale Veränderung des Aktienkurses) Ich schaue also wie sich dir durchschnittliche Abweichung von der Abweichung nach der Ankündigung unterscheidet und muss dann wissen, ob diese Abweichung signifikant ist.

Das hört sich alles viel komplizierter an als es ist…

Danke für eure Hilfe!

Hallo,

Ich regressiere die Aktienkurse des Unternehmens, das die
Ankündigung tätigt mit einem Aktienindex und zwar in einem
Zeitraum vor der Ankündigung. Die Regressionsgerade verwende
ich dann zum Forecasten.

Ich halte die Annahme eines Linearen Zusammenhangs hier für nicht sinnvoll.

Ich gehe hier von einer Normalverteilung aus.

Würde ich auch nicht. Die Verteilung ist m.M.n. sicher stark schief. Gibt es Belege für die Sinnhaftigkeit dieser Annahme?

Ich schätze dann die Varianz der Returns mit
Vergangenheitswerten, um dann diese Varianz mit dem
kumulierten abnormalen Return ins Verhältnis zu setzen.

Willst du nun wissen, ob die Ankündigungen die Varianzen oder die Erwartungswerte der Returns beeinflussen?

LG
Jochen

Huhu,

Hmm, das verletzt m.E. die Voraussetzung (bleiben wir mal beim
t-Test), dass die GG normalverteilt ist. Daraus immer wieder
zwei identische Stichproben zu ziehen, ist praktisch
unmöglich. Nimmt man endliche GG an (mit N) und zieht Srelativ
große Stichproben (n nahe bei oder gleich N), geht das zwar,
aber da müssen die p-Werte korrigiert werden (n zu entgegengesetzten
Interpretationen (Annahmen über die Wirklichkeit),
je nachdem, wie hoch das SigNiveau gewählt
wird. Wohlgemerkt, von den *selben* Daten ausgehend.

Klar. Aber mit welcher Begründung sollte ich mein SigNiv ändern, bzw. ein andere favorisieren? Wenn dann würde man es doch verkleinern, um einen kleineren Fehler zu haben. Wer würde denn einer Studie trauen, wenn das SN immer 20% wäre und die Hersteller groß tönen, sie hätten sig. Unterscheide gefunden? Oder anders herum, sie hätten SN=0.000001 gewählt und hätten keinen Unterscheid nachweisen können?
Wenn man hingegen eine zusätzliche Fachinformation hineeinsteckt kann man z.B. Non-inf zeigen ohne das SN ändern zu müssen. Diese Grenze ist natürlich auch diskutabel, aber bei weitem nciht so beliebig wie das SN.

Würde man alle Daten gemeinsam auswerten, wäre der
Stichprobenumfang viel größer und -sofern H0 nicht zutrifft-
wäre p deutlich kleiner.

Genau.

Das zeigt doch auch, dass die Summe
der Experimente in diesem Fall stärker gegen H0 spricht als
jedes einzelne Experiment.

Das setzt aber das Wissen aus dem vorigen Absatz voraus, dass H0 falsch ist und eben das weißt du ja nicht.

Grüße,
John