Hallo!
ich versuche mal im Groben zu beschreiben, was „Wissenschaft“ ist, dann sollte Dir auch klar werden, wo der Unterschied zu „Alltagsweisheiten“ liegt.
Wissenschaft versucht, Beobachtungen zu ordnen, Regelmäßigkeiten zu erkennen und zu beschreiben, und eine logisch Verbindung zwischen verschiedenen Beobachtungen herzustellen. Letztenendes läuft das darauf hinaus, eine Modellvorstellung von der Welt zu haben, anhand derer man möglichst gute „Vorhersagen“ machen kann („Vorhersagen“ in Gänsefüßchen, weil es nicht die Zukunft betreffen muss; Mithilfe des Modells lassen Aussagen darüber treffen, wie etwas unter gegebenen Bedingungen ist).
Grundlage von Modellen sind Beobachtungen (meist anhand von Experimenten gemachtm wo man verschiedene Randbedingungen gezielt wählen kann oder den Einfluss von störenden Faktoren, die in dem betrachteten Zusammenhang nicht wichtig sind, konstant halten, d.h. „ausblenden“ kann).
Weil es aber immer unendlich viele Einflüsse gibt, welche die Beobachtungen eben beeinflussen, von unseren Modellen aber nicht berücksichtigt werden (können), gibt es praktisch kein Modell, welches Beobachtungen EXAKT erklärt. Beobachtungen stehen prinzipiell immer nur in mehr oder weniger guter Übereinstimmung mit einem Modell.
Wichtig in der Wissenschaft ist, dass man quantifiziert, _wie_ gut die Beobachtungen/Daten mit dem Modell übereinstimmen. Da jede Messung/Beobachtung etwas anders ist und jeder Versuch ein etwas anderes Ergebnis haben wird, ist man hir auf statistische Verfahren angewiesen. Die Statistik wird bemüht, um ausrurechnen, wie gut die Daten mit einem Modell vereinbar sind.
Nach Popper (http://de.wikipedia.org/wiki/Karl_Popper) wissen wir, dass wir Aussagen über die Welt niemals beweisen können (nur Mathematiker können echte Beweise führen!). So ist eine Aussage wie „Alle Gänse sind weiß“ prinzipiell nicht beweisbar. Dazu müßte man ja alle alle Gänse, die leben, gelebt haben und jemals leben werden, sehen und prüfen, ob sie denn auch wirklich weiß sind. Allerdings kann man solche Aussagen widerlegen. Hierzu reicht es, eine einzige nicht-weiße Gans zu beobachten. Popper schlug daher vor, nicht zu versuchen, Annahmen über Zusammenhänge zu beweisen, sondern eine „verdrehte“, genau gegenteilige Annahme zu machen und zu versuchen, diese zu widerlegen. Gelingt die Widerlegung der „Gegenannahme“, so spricht das sozusagen automatisch für die eigentliche Annahme.
Zum konkreten Beispiel mit den „Instandsetzungszeiten“ von Männern und Frauen bei der Morgentoilette: Zuerst das statistische Problem: Jeder Mann und jede Frau wird eine andere Zeit im Bad verbringen. Es wird manche Männer geben, die länger im Bad sind als manche Frauen, und genauso umgekehrt. Nun mag man beobachtet haben, dass Frauen oft länger im Bad sind und fragt sich: „Gibt es einen Zusammenhang zwischen dem Geschlecht und der verweildauer im Bad?“. Um das zu klären, können wir nicht alle (lebenden, toten und ungeborenen) Männer und Frauen untersuchen. Wir müssen eine Stichprobe nehmen. Die liefert uns dann einen Sack voller Daten, den Verweilzeiten. Diese Werte von Frauen und männer können wir dann mit einem aus logischen oder praktischen Erwägungen sinnvolle mathematischen Verfahren vergleichen. Ganz einfach (und wohl zu einfach) wäre es, die mittlere Verweildauer von Frauen und Männern zu vergleichen. So könnte es sein, dass für Frauen 30 und für Männer 45 Minuten rauskommt. Das widerspricht erstmal unserer anfänglichen Vermutung, dass Frauen länger brauchten. Hier hören pseudowissenschaftliche Unteruchungen auf und enden mit einer Schlagzeile in den einschlägigen Frauenjournalen der Art „Studie beweist: Männer brauchen länger im Bad!“…
Um die Unteruschung wissenschaftlich werden zu lassen, braucht man angaben darüber, sehr man diesem Ergebnis trauen kann. Hier geht es wieder zurück zur Statistik, und jetzt brauchen wir Popper. Die Aussage „Männer brauchen länger“ (oder „Frauen brauchen länger“, wie wir zunächst annahmen
) können wir nicht beweisen. Also versuchen wir, eine Gegenaussage zu formulieren, die -ganz unvoreingenommen- so lautet: „Manner und Frauen brauchen gleich lange“. Diese Aussage versuchen wir nun, mit unseren Daten zu widerlegen. Wenn die Daten sagen: „Diese Aussage läßt sich so nicht halten“, dann *müssen* ja die einen länger brauchen als die anderen. Soweit zur verdrehten Philosophie wissenschaftlichen Schließens.
Doch es kommt noch etwas schlimmer: Der Nachweis, dass die obige Aussage *definitiv* falsch ist, kann mit echten Daten prinzipiell auch nicht erfolgen, weil eben die Daten „verrauscht“ sind durch milliarden Einflüsse, die wir nicht kennen (können). Dieses Rauschen in den Daten wird immer dazu führen, dass sich zB. die Mittelwerte für Männer und Frauen unterscheiden, Sie werden praktisch niemals exakt gleich sein, selbst, wenn das Geschlecht tatsächlich keinen Einfluss hätte. Würden wir das Experiment widerholen, bekämen wir mit Sicherheit (etwas) andere Ergebnisse.
Die Frage, die es nun zu beantworten gilt, ist: Wie wahrscheinlich würden wie bei wiederholten, gleichartigen Experimenten zu Unterschieden zwischen Männern und Frauen kommen, die mindestens so groß sind wie die hier beobachteten, UNTER DER ANNAHME, dass es TATSÄCHLICH KEINEN Unterschied gäbe (und wir mit unserer Stichprobe zB. nur „Pech“ hatten, gerade eine Handvoll Männer auszuwählen, die eben recht lange brauchen). Diese Annahme, für die diese Wahrscheinlichkeit berechnet wird, ist die Popper’sche Gegenannahme zu dem, was uns eigentlich interessiert! Das machen statistische Verfahren, indem sie auch die Information über das „Rauschen“ in unseren erhobenen Daten berücksichtigen. Am Ende bekommt man einen Wahrscheinlichkeitswert; ist der sehr KLEIN, heißt das, es ist sehr UNwahrscheinlich, dass man rein zufällig eine Stichprobe gezogen hat, die einen so krassen Unterschied zwischen Männern und Frauen zeigt. Das nimmt man dann als Maß für die Sicherheit der Aussage, dass Männer eben länger brauchen als Frauen (nochmal: je kleiner dieser Wahrscheinlichkeitswert, desto unwahrscheinlicher die Gegenannahme, also desto besser sind die Daten mit unserem Modell („Geschlecht bedingt Verweilzeit im Bad“) vereinbar. Ist der Wahrscheinlichkeitswert hingegen eher groß, dann heißt das, dass wir selbst dann, wenn es in Wahrheit keinen Unterschied gäbe, mit einem solchen Experiment locker auf die beobachteten 15 Minuten Unterschied hätten kommen können. Nun, in diesem Fall *könnte* es wohl einen Effekt des geschlecht geben, aber die Daten reichen nicht, um das mit ausreichender Sicherheit zu belegen. In diesem Fall können wir schlicht keine Aussage treffen (und überlegen, ob wir das Experiment mit einer größeren Stichprobe wiederholen).
Der gemeine Witz an der Sache ist, dass man so praktisch IMMER ein Modell belegen kann, dazu muss nur die Stichprobe groß genug sein. Am Ende zu sagen: Es gibt einen Zusammenhang zw. Geschlecht und Verweilzeit im Bad" ist nur die halbe Miete. Der Effekt (also der tatsächliche Unterschied) muss auch groß genug, d.h. „relevant“ sein. Leider läßt sich meist nicht sagen, was nun relevant ist und was nicht. Hier hilft dann nur Erfahrung und Sachverstand, und oft ist auch viel „persönliche Meinung“ im Spiel. Wichtig aber ist, nicht nur den in der Stichprobe beobachteten Effekt (hier 15 Minuten) anzugeben, sondern auch die unsicherheit zu quantifizieren. Wieder eine ähnliche Frage wie oben (und die Beantwortung ist mathematisch sehr varwandt): „Wenn man das gleiche Experiment sehr oft machen würde, in welchem Bereich würden die Beobachteten Effekte liegen“. Eine Antwort darauf lautet dann etwa so: „In 95% solcher Experimente würde der beobachtete Effekt zwischen 5 und 25 Minuten liegen“. Das ist gleichbedeutend mit der Aussage: „Mit 95%iger Sicherheit liegt der *wahre* Unterschied irgendwo zwischen 5 und 25 Minuten“.
All das ist here Wissenschaft, was die *Auswertung* der Daten betrifft. Aber gemäß dem Motto „Shit in - shit out“ liefern falsche oder schlechte Daten auch falsche oder schlechte Ergebnisse. Bei der Erhebung der Daten, bei der Planung der Experimente kann schon vieles schief laufen und falsch gemacht werden. Wenn ich blöderweise Jungs in der Pupertät als „Männergruppe“ nehme und dem Frauen in etwas reiferem Alter gegenüberstelle, mag man interpretieren, dass die länger Zeit im Bad der Pupertät geschuldet ist und nicht dem Geschlecht. Was mich auf die Frage bringt: Könnte es nicht auch sein, dass ältere Männer länger brauchen als ältere Frauen, und dass das bei jungen Menschen anders ist? Gibt es kulturelle Komponenten? Hat der Beruf was damit zu tun? … Eine wissenschaftliche Unteruchung muss sich vorher mit diesen Fragen auseinandersetzen und die Stichproben mit bedacht wählen. Das Verfahren „eben mal 5 Freiwillige zu befragen“ ist meist die schlechteste aller Möglichkeiten, aber das passiert oft in den pseudowissenschaftlichen Berichten, wie man sie in Brigitte & Co findet (nicht, dass ich das lesen würde
ist nur so’ne Behauptung). Was man alles falsch machen kann, füllt ganze Bücher. Wissenschaftler sind sich dessen (hoffentlich) bewußt und halten sich (hoffentlich) an eine Praxis im Studiendesign und der Auswertung, die solche Fehler so gur irgend möglich vermeidet.
Aber wo her weis ich das etwas „wissenschaftlich geprüft
wurde“ so das es kein Vorurteil oder Alltagspsychologie ist?
Es wurde ein gut geplantes Experiment durchgeführt, mit einer passenden Auswahl einer Stichprobe. Daten wurden erhoben und mit den korrekten Verfahren statistisch ausgewertet. Anhand der Daten wurde die Wahrscheinlichkeit berechnet, dass es sich auch um einen „Zufallsbefund“ handeln kann und für die Aussagen wurden Bereiche angegeben, in denen die Wahrheit mit vorgegebener Gewissheit liegt.
Warum kann die Psychologie nur eine Wahrscheinlichkeitsaussage
sein und keine 100% wie bei Naturwissenschaftlichen?
In den Naturwissenschaften gibt es keine absolute Sicherheit. Daten von verschiedenen Stichproben sind immer verschieden. Je nach Datenlage (Menge UND Qualität der Daten) können Experimente den Glauben an die Richtigkeit eines Modells verstärken. Zu vielen Modellen gibt es dermaßen viele Daten, welche sie bekräftigen, dass man praktisch sicher ist, dass die Modelle - in ihrem Gültigkeitsbereich - korrekt sind (das heißt NICHT, dass die Modelle die Wahrheint sind, sondern dass sie korrekte Vorhersagen machen!).
Ich hoffe, der lange Text hat nicht abgeschreckt und/oder verwirrt 
VG
Jochen