Stichprobe auf Datenbank

Urkel · 9. November 2019 um 13:44

Hallo,

ich betreue ein Datenbankprojekt. Die Datenbank wird von einen externen Unternehmen gefüllt. Meine Aufgabe ist es zu überprüfen, ob die Daten richtig sind. Da die Menge der Daten zu groß für eine Sichtprüfung ist, habe ich mir Überlegt ein Art Stichprobeverfahren anzuwenden.
Hierbei entsteht für mich die Frage:
a) Wie berechnet sich die Größe einer Stichprobe
b) Ist dieses Verfahren rechtlich sicher
c) Wie berechnet sich der Grad der Zulässigkeit einer Stichprobe (Anzahl bis die Stichprobe zulässig ist)

Ich wäre über jegliche Hilfe dankbar.

MFG
Sebastian G.

E-Mail: [email protected]

M_L_ · 9. November 2019 um 13:44

Auch hallo.

a) Wie berechnet sich die Größe einer Stichprobe

Je nach Prüfmenge. Da das Verfahren aus dem QM stammt, könnte das hier weiterhelfen: http://www.reiter1.com/Glossar/Glossar_detailliert_I…

b) Ist dieses Verfahren rechtlich sicher

Kommt auf die Sensibilität und Rückverfolgbarkeit der Daten an. Und die Branche.

c) Wie berechnet sich der Grad der Zulässigkeit einer
Stichprobe (Anzahl bis die Stichprobe zulässig ist)

Also einen Fehler kann man immer begehen: nur die besten DAtensätze erwischt oder nur die schlechtesten. Stichworte: alpha und beta Fehler sowie Gütefunktion

Aber diese Publikation hier befasst sich auch mit dem Thema: http://www.datenbank-spektrum.de/v2/archiv/inhalt.ht…
(die Inhalte von Heft 14/2005 müssten demnächst verfügbar sein)

HTH
mfg M.L.

Jo1_a88223 · 9. November 2019 um 13:44

Hallo,

genau ausrechnen kann man sowas, wenn die Fehlerrate des externen Unternehmens bekannt ist. Möglicherweise gibt es hierzu vernünftige Schätzwerte oder Erfahrungen. Die folgenden Betrachtungen gelten, wenn die Elemente der Stichprobe nach dem Prüfen wieder ausgewählt werden dürfen (Mehrfachauswahl ist möglich: „Ziehen MIT Zurücklegen“). Es gilt Näherungsweise, wenn die Stichprobe sehr klein ist im Verhältnis zur Gesamtzahl der Datensätze in der Datenbank!

Nehmen wir an, die Fehlerrate sei f (0 pS => 1 - (1-f)^n > pS

Das ganze nach n aufgelöst gibt die geforderte Stichprobengröße:

(1-f)^n > pS - 1
(1-f)^n > 1-pS
ln((1-f)^n) > ln(1-pS)
n*ln(1-f) > ln(1-pS)
n > ln(1-pS)/ln(1-f)

Beispiel: Sei f = 0.01 (d.h., im Mittel ist jeder 100ste Datensatz falsch) und wir wünschen mindestens einen Fehler mit einer Sicherheit von pS = 0.95 (=95%) zu finden, so muß die Stichprobe folgenden Umfang haben:

n > ln(1-0.95)/ln(1-0.01) = ln(0.05)/ln(0.99) = 298.1

Also muss n mindestens 299 sein.

Anmerkung: Es könnte ja sein, dass die Datenbank überhaupt nur N=500 Datensätze umfaßt. Dann wäre N nicht viel größer als n und die anfangs genannte Bedingung ist nicht erfüllt. Praktisch heißt das, dass die Findungssicherheit pS hier deutlich größer ausfällt als angegeben. Das ist zwar nicht schlecht, aber damit hast du eine unnötig große Stichprobe untersucht.

Wenn keine Schätzung von f vorliegt, kann man den „worst case“ annehmen und festlegen, mit welcher Sicherheit ein Fehler mit einer Stichprobe entdeckt werden soll, wenn sich in der ganzen Datenbank nur ein einziger Fehler verstecken würde. Für diesen Fall gilt schlicht f = 1/N. Der Rest rechnet sich wie oben.

Anmerkung: bei einer großen Datenbank ist f dann sehr, sehr klein. Somit wird schon für relativ geringe Werte von pS der Stichprobenumfang sehr groß! Bei N=10000 und pS=0.5 (nur 50%) ist n = 6932 und damit schon zu groß, um mit diesem Modell rechnen zu können.

Wenn die Stichprobe nicht deutlich (~10x) kleiner sein kann als die Datenbank, dann muß mit der Hypergeometrischen Verteilung gerechnet werden. Wie oben läßt sich aber auch hier genau berechnen, wie groß eine Stichprobe sein muß, um bei gegebener „Fehlerrate“ f und Datenbankgröße N eine festgelegte Sicherheit zu haben, mindestens einen Defekten Datensatz in der Stichprobe zu haben.

Ob das rechtlich sicher ist, kann dir wohl nur ein Jurist beantworten. Ich denke aber, die Chancen dafür stehen gut…

LG
Jochen

Reinhard_Kern_4bc529 · 9. November 2019 um 13:45

Hallo,

ich betreue ein Datenbankprojekt. Die Datenbank wird von einen
externen Unternehmen gefüllt. Meine Aufgabe ist es zu
überprüfen, ob die Daten richtig sind. Da die Menge der Daten
zu groß für eine Sichtprüfung ist, habe ich mir Überlegt ein
Art Stichprobeverfahren anzuwenden.
Hierbei entsteht für mich die Frage:
a) Wie berechnet sich die Größe einer Stichprobe
b) Ist dieses Verfahren rechtlich sicher
c) Wie berechnet sich der Grad der Zulässigkeit einer
Stichprobe (Anzahl bis die Stichprobe zulässig ist)

Ich wäre über jegliche Hilfe dankbar.

Hallo,

wie gross eine Stichprobe sein muss, um eine bestimmte Zuverlässigkeit der Gut/Schlecht-Aussage zu garantieren, ist eine mathematische Frage, aber so weit ich weiss, gibt es dazu auch Tabellen, wahrscheinlich als DIN. Diese sind auch rechtlich weitgehend anerkannt, z.B. sind sie Bestandteil vieler Lieferverträge der Industrie mit Zulieferern: beide Vertragspartner sichern zu, dass sie die Aussage einer Stichprobe mit Konfidenzlevel von x anerkennen als Grundlage für die Annahme oder Rückweisung einer Liefercharge.

Such am besten in Richtung Qualitäts Management oder wenn deine Firma einen QManager hat, frag den. Der müsste das gelernt haben.

Gruss Reinhard

Jo1_a88223 · 9. November 2019 um 13:48

Hallo,

eine mathematische Frage, aber so weit ich weiss, gibt es dazu
auch Tabellen, wahrscheinlich als DIN.

Toll, es scheint ja wirklich alles genormt zu sein… !

Such am besten in Richtung Qualitäts Management oder wenn
deine Firma einen QManager hat, frag den. Der müsste das
gelernt haben.

Da stimme ich zu. Für den Fall, dass da keiner ist, der sich mit sowas auskennt:

Lege gemeinsam mit dem Kunden ein beiderseits akzeptables Vorgehen fest (mit vernünftigen, nachvollziehbaren und praktisch erreichbaren Kriterien, evtl. basierend auf den Ergebnissen einer Pilotstudie) und fixiere das in einem schriftlichen Vertrag. Dieser ist sicher rechtlich bindend.

LG
Jochen