Historische Datensammlung (Texte und Fotos) mit KI besser verwalten

Hallo,
ich habe mich zwar seit 1985 immer wieder mit Computern und Programmierungen (dbase) beschäftigt, benötige aber jetzt Ratschläge.
Zum Sachverhalt:
Mein Freund (jetzt 83 Jahre) hat eine wirklich unendliche aber hochwertige Sammlung von Texten und Fotos zu einem historischen Sachverhalt erstellt. Dazu hat er bisher viele Bücher und Veröffentlichungen herausgegeben. Er möchte jetzt, dass diese (teilweise ungeordnete) Sammlung der Nachwelt erhalten bleibt und genutzt werden kann.
Meine Idee:
Ich habe gelesen, dass man in einem KI System (chatgpt o.ä.) diese Daten relativ problemlos eingeben kann und daraus ein Abfragesystem entsteht.
Wer kann mir hier einen Rat zum Vorgehen geben. Es muss auch nicht kostenfrei sein. Wenn wir die Kosten kennen, würden wir uns auch um Geldgeber bemühen.
Gruss RPK

Hallo,

mir ist noch nicht ganz klar, was du genau möchtest. Du sagst, dein Freund hat viele Bücher und Veröffentlichungen herausgegeben, aber in welcher Form ist die

? Sind die auf Papier? Sind sie schon alle digital? Ist es eine Mischform?

Bestehen die Möglichkeit und der Wille, die

noch zu ordnen?

Was genau meinst du mit

? Was sollte es genau können? Wer wäre die Zielgruppe, und wie sollte sie auf das Abfragesystem zugreifen? Davon hängt das auch etwas ab, in welcher Form man das realisiert.

Wäre es zum Beispiel vorstellbar, die Daten im Internet zu veröffentlichen?

Gruß
Christa

1 Like

Hallo,
danke für die Antwort.
Die Sammlung besteht im Grundsatz aus Word Dokumenten und JPG Bildern.
Sie soll im Internet zugänglich sein.
Die Abfrage soll so wie bei Chatgpt sein.
Ein Ordnen der Dokumente wird wegen der Unmasse schwierig und ist zeitlich kaum zu bewältigen.
Ich war davon ausgegangen, dass „alles“ quasi in „einen Topf“ gefüllt wird und das KI System sich dann das Richtige bei einer Rechercheanfrage raussucht.
Gruss RPK

Leider können das „KIs“ nicht, weil sie eigentlich auch nur sehr fortgeschrittene Suchmaschinen sind und Texte und Bilder nicht inhaltlich „verstehen“ können, weil dazu mehr erforderlich ist als z.b. einen Code zu schreiben oder eine komplexe mathematische Aufgabe zu berechnen .

Wenn die Dokumente und vor allem die Bilder nicht ordentlich archiviert und vor allem „beschriftet“ sind wird es sehr sehr schwer sie sinnvoll von einer KI ordnen zu lassen.

Das ist Unsinn.

Zum nachgefragten Zweck taugen sie deshalb aber trotzdem nicht.

Und irgendwas ins Netz stellen, was zum einen Kosten verursacht und bei dem niemand weiß, wie es sich mit dem Urheberrecht der einzelnen Dokumente verhält sollte man sich zweimal überlagen. Das sollte jemand machen, der sich damit auskennt und Lust dazu hat. Kontaktaufnahme mit einer Uni/Fachhochschule vielleicht? Als Bachelor-/Master-/Doktorarbeit?

Ich mag das immer sehr wenn Menschen einem erklären das etwas unsinn ist, aber aus irgendeinem Grund nicht erklären warum. Ich lerne nämlich gerne dazu und gebe auch gerne zu das ich mich geirrt habe.

Ich war der Annahme das Chattgpt und Co nichts weiter als Chatbot/assistenzprogramme mit einer sehr komplexen Suchmaschine im Hintergund sind.
Von einer „echten“ KI sind sie auf jedenfall lichtjahre entfernt.

Das ist, wie schon gesagt, kompletter Unsinn.

Es gibt KI zur Erstellung von Bildern, zur Erzeugung von Software, zur Erzeugung von Musik, zum Schreiben von Texten, es gibt KI zur Regelung von technischen Vorgängen, es gibt KI zur Objekterkennung, zur Bildauswertung, zur Spracherkennung,… - kurz: KI ist nahezu überall. Schau doch selber:

Wobei aber all das mit Intelligenz so ziemlich gar nichts zu tun hat. Es ist in aller Regel nichts als ein Riesenhaufen Statistik in einer schwarzen Verpackung.

Und mit einer Suchmaschine wie Google, Bing und Konsorten hat das erst recht nichts zu tun. Das sind Datenbanken, die durch Suchprogramme permanent gefüllt und korrigiert werden und mit einer Benutzeroberfläche abgefragt werden können. Wobei letzteres dann wiederum durch eine KI-Zwischenschicht „erleichtert“ werden kann (Spracherkennung -> Android-Sprach-Suche, Suchbegriffe aus natürlicher Sprache ausfiltern etc.).

Aber nichts davon kann die hier nachgefragte Aufgabe erledigen. Mangels Intelligenz und Wissen der KI.

So wie sich das liest hat dies erst einmal wenig mit KI und ChatBots wie ChatGPT zu tun, sondern ein Großteil damit, diese Texte in Bilder erst einmal einzugeben und zu verschlagworten. Das Ganze kann man mit normalen Datenbanken oder ähnlichem machen. Danach kann man sich dann überlegen ob man eine Art ChatBot drumherum baut, welche dann spezifische Fragen rund um dieses spezielle Thema entsprechend detailliert beantwortet. Denn zum trainieren der KI benötigt man ja wiederum eben genau diese Daten die man vorher eingegeben hat. keine KI kann (im Moment jedenfalls) aus heiterem Himmel irgendetwas beantworten wenn diese nicht vorher entsprechend trainiert wurde. Wenn man also diese Datenbasis dann hat kann man entsprechende KI’s drumherum basteln. Das aufwendigste und ggf. teuerste wird eben das eingeben der Daten sein. Viel Glück.

1 Like

Danke für die Antwort. Das KI Bilder nur verarbeiten kann, wenn sie beschriftet sind, kann ich verstehen. Bei Texten müsste KI doch den Inhalt lesen (und verarbeiten) können?

Die Idee mit der Doktorarbeit ist gut, da werde ich in unserer Hochschule mal nachfragen. An das Urheberrecht hatte ich bei den Zeitungsartikeln von 1945 nicht gedacht. Gibt es dafür noch Beschränkungen?

Das Problem ist das man den Text verstehen muss um ihn zuordnen zu können und das dürfte außerhalb der Fähigkeiten von frei verfügbaren KIs liegen.

Das Urheberrecht erlischt in Deutschland regelmäßig (Regelschutzfrist) 70 Jahre nach dem Tod des Urhebers (§ 64 Abs. 1 UrhG). Es gibt aber Ausnahmen.

Das Problem ist, dass dieses „lesen und verarbeiten“ können voraussetzt, dass die KI bestimmte Muster erkennen kann, die man zunächst einmal trainieren muss. Natürlich gibt es die großen generalisierten Modelle, die man im Internet findet, die bereits riesige Datenbestände durchforstet haben, um sich zu trainieren. Aber ein solcher Ansatz hilft hier eher weniger, weil es für einen sehr speziellen Zweck einfach viel zu viel „Rauschen“ erzeugt. Und um so ein Monster online verfügbar zu machen, reicht es dann eben auch nicht, mal eben einen kleinen Webhosting-Vertrag für ein paar Euro monatlich abzuschließen, sondern dafür braucht es dann auch enorme Rechenleistung.

D.h. hier wäre ein Ansatz nötig, genau in dem vorhandenen und zusätzlichem, konkret zum Training ausgewählten Material zunächst einmal zu konkretisieren, was überhaupt erkannt werden soll. Z.B. macht es wenig Sinn, wenn Du 1000 Fotos von Gebäuden aus genau einer Stadt hast, einen Bestand von zig Millionen Fotos von Gebäuden weltweit zu nutzen. Vielmehr sollte man sich dann auf die Identifizierbarkeit von Gebäuden in genau dieser Stadt beschränken, und versuchen so viele Bilder wie möglich von Gebäuden aus dieser Stadt als Trainingsgrundlage zusammen zu stellen, und dazu zur Abgrenzung Bilder von recht ähnlichen Gebäuden trainieren, um false positives zu vermeiden.

Und genau dieses Spiel muss man dann eben auch mit Bildern von Personen, Daten zu Ereignissen in der Stadt, … machen um am Ende ein Modell für genau diesen Zweck zu erhalten, das dann so handlich ist, dass es auch auf recht bescheidener Hardware noch ausreichend performant läuft, die dauerhaft finanzierbar ist. Es gibt z.B. sehr spezialisierte kleine KI-Modelle, die man auf Einplatinenrechnern wie einem Raspberry Pi oder in spezialisierten Chips/Board/USB-Geräten recht problemlos betreiben kann, wie z.B. eine Erkennung der Ziffern eines analogen Strom-/Gas-Wasserzählers, um mal ein ganz triviales Beispiel zu nennen.

Aber Du siehst, die Abfragbarkeit einer solchen Sammlung über ein KI-System bedeutet in der Vorbereitung nicht weniger sondern deutlich mehr Arbeit, als an ein Foto einfach nur das Datum der Aufnahme, den Ort, das Ereignis und die Namen von drei abgebildeten Persönlichkeiten und Gebäuden zu hängen.