Hallo,
genau ausrechnen kann man sowas, wenn die Fehlerrate des externen Unternehmens bekannt ist. Möglicherweise gibt es hierzu vernünftige Schätzwerte oder Erfahrungen. Die folgenden Betrachtungen gelten, wenn die Elemente der Stichprobe nach dem Prüfen wieder ausgewählt werden dürfen (Mehrfachauswahl ist möglich: „Ziehen MIT Zurücklegen“). Es gilt Näherungsweise, wenn die Stichprobe sehr klein ist im Verhältnis zur Gesamtzahl der Datensätze in der Datenbank!
Nehmen wir an, die Fehlerrate sei f (0 pS => 1 - (1-f)^n > pS
Das ganze nach n aufgelöst gibt die geforderte Stichprobengröße:
- (1-f)^n > pS - 1
(1-f)^n > 1-pS
ln((1-f)^n) > ln(1-pS)
n*ln(1-f) > ln(1-pS)
n > ln(1-pS)/ln(1-f)
Beispiel: Sei f = 0.01 (d.h., im Mittel ist jeder 100ste Datensatz falsch) und wir wünschen mindestens einen Fehler mit einer Sicherheit von pS = 0.95 (=95%) zu finden, so muß die Stichprobe folgenden Umfang haben:
n > ln(1-0.95)/ln(1-0.01) = ln(0.05)/ln(0.99) = 298.1
Also muss n mindestens 299 sein.
Anmerkung: Es könnte ja sein, dass die Datenbank überhaupt nur N=500 Datensätze umfaßt. Dann wäre N nicht viel größer als n und die anfangs genannte Bedingung ist nicht erfüllt. Praktisch heißt das, dass die Findungssicherheit pS hier deutlich größer ausfällt als angegeben. Das ist zwar nicht schlecht, aber damit hast du eine unnötig große Stichprobe untersucht.
Wenn keine Schätzung von f vorliegt, kann man den „worst case“ annehmen und festlegen, mit welcher Sicherheit ein Fehler mit einer Stichprobe entdeckt werden soll, wenn sich in der ganzen Datenbank nur ein einziger Fehler verstecken würde. Für diesen Fall gilt schlicht f = 1/N. Der Rest rechnet sich wie oben.
Anmerkung: bei einer großen Datenbank ist f dann sehr, sehr klein. Somit wird schon für relativ geringe Werte von pS der Stichprobenumfang sehr groß! Bei N=10000 und pS=0.5 (nur 50%) ist n = 6932 und damit schon zu groß, um mit diesem Modell rechnen zu können.
Wenn die Stichprobe nicht deutlich (~10x) kleiner sein kann als die Datenbank, dann muß mit der Hypergeometrischen Verteilung gerechnet werden. Wie oben läßt sich aber auch hier genau berechnen, wie groß eine Stichprobe sein muß, um bei gegebener „Fehlerrate“ f und Datenbankgröße N eine festgelegte Sicherheit zu haben, mindestens einen Defekten Datensatz in der Stichprobe zu haben.
Ob das rechtlich sicher ist, kann dir wohl nur ein Jurist beantworten. Ich denke aber, die Chancen dafür stehen gut…
LG
Jochen