Hallo zusammen,
ich habe ein kleines Statistik-Problem, bei dem ihr mir hoffentlich helfen könnt.
Ich habe X Datensätze. Für jeden Datensatz weiss ich, wie sich die Datenpunkte auf N Eigenschaften verteilen. Damit kann ich jeden Datensatz durch ein Histogramm charakterisieren, in dem ich auftrage, zu wieviel Prozent die Daten aus Datensatz xi auf Eigenschaft nj fallen. Für jeden Datensatz summieren sich die Prozentsätze der Eigenschaften zu 100% auf.
Jetzt die Frage: Wie kann ich anhand der Histogramme die Datensätze mit einander vergleichen?
-
RMSE kann man natürlich berechnen, aber ab welchem Wert wäre hier ein Unterschied signifikant?
-
Bei der Pearson Korrelation kann man die Signifikanz des Ergebnisses berechnen, aber ist das Maß an sich in diesem Zusammenhang sinnvoll?
-
Mit dem KS-Test habe ich momentan etwas Probleme. Egal welches Paar ich reinstecke, sowohl R als auch Matlab geben für alle Paare die gleichen Werte aus.
-
Hier im Forum habe ich dazu die Antwort gefunden, Chi^2 oder Fischers exakter Test wären dazu geeignet. Aber die werden ja eigentlich auf Integer angewendet. Soll ich runden und die benutzen?
Ich freue mich über jede hilfreiche Antwort.
Gruß
Schorsch