Zukunftssicherheit: Datenformat

Hallo,

als ich mit EDV begonnen habe, hab ich sehr viele Texte in Winword-Dokumenten gespeichert. Nun, fast 10 Jahre nach der ersten Datei hab ich mir Gedanken um die Zukunftssicherheit gemacht.
Ich denke solch ein spezifisches Format (von der Firma MS in diesem Fall) ist nicht gut, es sollte ein allgemeines Format sein. Wie z. B. PDF, HTML oder TXT.

TXT -> ist wohl die portabelste Lösung, im Klartext in Datei gespeichert, allerdings ohne Formatierung

HTML -> ist auch sehr portabel, der Inhalt ist leicht aus der Datei zu lesen (auch ohne Browser), sieht aber nicht auf jedem Bildschirm 100% gleich aus

PDF -> ist auch portabel, der Inhalt wird immer gleich dargestellt

Am liebsten wäre mir PDF, ich denke es ist die bessere Wahl wie DOC, RTF oder TXT. Allerdings ist HTML/XML vielleicht doch etwas besser? Was meint ihr? Oder gibt es ein noch zukunftsicherereres Format, auf das man auch noch in 20 Jahren bauen kann? Mir wäre halt besonders wichtig, dass die Daten gute 15 Jahre überdauern können.

Gruß Giovanni

HTML & CSS bzw. XHTML o. XML

  1. Es sind alles Klartextformate, das heißt an den wertvollen Inhalt kommt man auf jeden Fall dran

  2. Mit HTML & CSS kann synthaktisch sauberer Code produziert werden, der von automatischen Umsetzern fehlerarm verarbeitet werden kann. Bei dem althergebrachten und oft synthaktisch falsch verschachtelten HTML-Ergüssen dürften viele Parser scheitern.

  3. XHTML/XML hat die sauberere Syntax mit der man leicht sauber arbeitende Umsetzer in andere Formate machen kann.

Ein Problem bleibt aber noch ungelöst. Was ist mit Graphiken??? Die im Internet gebräuchlichen Pixelformate haben zur Weiterverarbeitung zu große Qualitätsverluste. Ein Vektorformat hat sich als Standard noch nicht durchgesetzt.

Gruß

Stefan

Morgen :smiley:

Also DIE optimale Lösung wäre ein Einsatz
verschiedenster Technologien: HTML wird in jedem
Browser anders interpretiert, PDF kann Farbfehler
beinhalten (wenn’s denn gelesen wird) usw…
Also ich würde mehrgleisig fahren um wenigstens eine
saubere Darstellung pro Betriebssystem/Browser
gewährleisten zu können.

In diesem Sinne
mfg M.L.

Hallo,

Hi,

Oder gibt es ein noch zukunftsicherereres Format, auf das man
auch noch in 20 Jahren bauen kann?

Ausdrucken und auf Mikrofilm damit. Dann kannst Du es auch in 60 Jahren (wenn es laengst keine Computer mehr gibt) noch mit einer Kerze und einem Wasserglas lesen.

YMMV,
Gruss vom Frank.

Morgen

Also DIE optimale Lösung wäre ein Einsatz
verschiedenster Technologien

also, ich würde mich schon gerene nur auf ein Format festlegen, es ist auch nicht so dass ich mit Zeit gesegnet bin und deine Lösung ist eben auch zeitaufwendiger.

Es sind alles Klartextformate, das heißt an den wertvollen Inhalt
kommt man auf jeden Fall dran

Also ich habe schon PDFs gesehen die nicht im Klartext gespeichert werden, um genau zu sein, hab ich noch nie das Gegenteil gesehen.

Ein Problem bleibt aber noch ungelöst. Was ist mit Graphiken???

Bei PDFs hätte ich doch dieses Problem, nicht da die Grafik eingebettet würde.

Also, so wie ich mir das jetzt überlegt hab, spricht schon vieles für HTML. Aber ich finde PDF einfach kompakter, die Daten können nicht mehr verändert werden, aber dennoch durch Copy-Paste weiter verwendet werden, Grafiken und Formatierung bleibt erhalten und es ist auch einfacher und schneller eine PDF zu erstellen als eine saubere HTML-Datei. Schließlich sollten Formatierungen nicht mehr mit HTML gemacht werden, sondern mit CSS. Sprich statt

Ausdrucken und auf Mikrofilm damit. Dann kannst Du es auch in
60 Jahren (wenn es laengst keine Computer mehr gibt) noch mit
einer Kerze und einem Wasserglas lesen.

Das sollte ich vielleicht erst mal in meiner Firma testen… Ich schlags mal meinem Chef vor, der wird davon bestimmt begeistert sein. Schließlich ist das ja eine höchst portabele Lösung, die unabhängig von irgendwelchen Medien funktioniert (außer Kerze) und ein Mikrofilm ist auch bestimmt länger haltbar wie eine Festplatte oder ein Band.

Hallo,

ich habe dieses Jahr in einer c’t gelesen, dass MS mit der naechsten Office-Version das .doc-Format verlassen und stattdessen auf xml umschwenken wird.

Kann dir leider nicht die genaue Ausgabe nennen, aber es ging in dem Artikel genau um dein Anliegen =:wink:

Wenn die Version dann kommt, sollte man alle alten Dateien vielleicht nochmal umwandeln, oder?

Ciao! Bjoern

Ja, das ist richtig. Das ist aber schon länger klar. XML ist die Zukunft nicht nur für DOC-Dateien, sondern auch für Grafiken und viele andere Formate. XML ist schlicht und einfach die Zukunft.

Aber der Aufwand ist mir meiner Meinung nach wesentlich größer wie der bei PDFs. Welche Software macht anständige XSLT Formatierungen für mein Word-Dokument? Die auch wirklich der korrekten Norm entsprechen?
Zwar könnte man dann eine XSLT-Datei für alle Word-Dokumente verwenden. ABER meine Word-Dokumente haben vielleicht ein Duzend verschiedene Formate (und dass bei mehreren Tausend). Da hinzugehen und fast jede Datei anzupassen - ist einfach zu viel Arbeit. Bei PDF - speichere ichs einfach nur ab.

Und in 15 Jahren - da brauche ich viele von den Dateien auch wohl nicht mehr, schließlich sind diese dann zwischen 15 und 25 Jahre alt.

Gruß Giovanni

Hallo…

Also, ich glaube nicht, dass es in 20 Jahren noch irgendwas geben wird was XML, HTML oder sonst einen Quark lesen kann.

Gruß
Thorsten :smiley:

Also, ich glaube nicht, dass es in 20 Jahren noch irgendwas
geben wird was XML, HTML oder sonst einen Quark lesen kann.

Das gibts ganz sicher - ist alles plaintext.
Problematisch sind nur verblichene Binärformate.

LG
Stuffi

Das seh ich auch so. XML ist gerade dabei sich duchzusetzen, es ist noch nicht mal Standard (wird aber kommen). Und wenn es sich XML mal durchgesetzt hat (was auch kommen wird), wird es auch ne Weile bleiben. Ich denke, wer in 20 Jahren noch XML lesen will, der wird damit keine Probleme haben.
Und ein Konvertierungstool für XML-Dateien zu schreiben, ist absolut keine Kunst. Das hab ich auch schon, total easy. Schwieriger ist es da bei PDFs.

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Hallo,

Also DIE optimale Lösung wäre ein Einsatz
verschiedenster Technologien: HTML wird in jedem
Browser anders interpretiert,

HTML ist - wie der Name sagt - eine Textbeschreibungssprache. Es geht nicht darum, ein bestimmtes Aussehen zu erzeugen, dazu kann man die Kombination mit CSS heranziehen.

PDF kann Farbfehler
beinhalten

Hä?

(wenn’s denn gelesen wird) usw…
Also ich würde mehrgleisig fahren um wenigstens eine
saubere Darstellung pro Betriebssystem/Browser
gewährleisten zu können.

Ich nicht.

Und dann wäre noch Postscript zu erwähnen.

Ich halte HTML oder XML für die geschickteste Strategie. Dabei sollte man aber alles meiden, was patentierbar ist.

Gruß,

Sebastian

Hallo

ich habe dieses Jahr in einer c’t gelesen, dass MS mit der
naechsten Office-Version das .doc-Format verlassen und
stattdessen auf xml umschwenken wird.

– was allerdings nicht weiterhilft, solange die zugrundeliegenden Schemata nicht dokumentiert sind. Und das ist nicht unbedingt vorgesehen.

Zudem werden die XML-Verfahren von MS versucht, zu patentieren. Selbst wenn Du ein offenes Format hast, wird das erstellen von Verarbeitungsmechanismen zum juristisch-russischen Roulette.

Auch ein guter Grund übrigens, Softwarepatente so lange zu bekämpfen, bis sie endgültig vom Tisch sind.

Gruß,

Sebastian

Also, ich glaube nicht, dass es in 20 Jahren noch irgendwas
geben wird was XML, HTML oder sonst einen Quark lesen kann.

Ich bin geneigt, dem zuzustimmen, wobei Geruechte ueber meine praekognitiven Faehigkeiten aber haltlos uebertrieben sind.

Das gibts ganz sicher - ist alles plaintext.
Problematisch sind nur verblichene Binärformate.

Binaerformate sind auch nicht so schwierig (plaintext ist auch ein Binaerformat). Problematisch sind undokumentierte oder proprietaere Formate, auf die nur ein beschraenkter Personenkreis Zugang hat. Plaintext ist freilich sehr gut und oeffentlich dokumentiert.

Das seh ich auch so. XML ist gerade dabei sich duchzusetzen,
es ist noch nicht mal Standard (wird aber kommen).

Genau das ist es: Du weisst nicht, was kommen wird. Wenn es um sowas geht setzt man eher auf konservative Technologien. \LaTeX ist z.~B. schon >20 Jahre alt, die Textauszeichung hat sich seit dem nur unwesentlich geaendert.

Meinen Hinweis auf Mikrofilm hast Du IMHO etwas ironisch kommentiert. Denk nochmal drueber nach: es lassen sich erhebliche Datenmengen darauf ablegen, die Haltbarkeit ist, richtig gelagert, unuebertroffen (sie verschleissen kontinuierlich, es gibt keine Bitkipper; 20 Jahre alte CDs kannst Du vergessen, genauso Festplatten, wenn sie nicht regelmaessig betrieben werden, so das sie Magnetisierung erneuert wird; betriebene Festplatten scheiden sowieso aus), falls es irgendeine EDV-faehige Anlage gibt, hat die auch einen scanner und eine OCR-software, falls nicht (und Du die Dokumente dann immer noch brauchst), geht es auch ohne. Ausserdem wage ich auch ernsthaft zu bezweifeln, dass in 20 Jahren noch irgendein Betriebssystem die heute gaengigen Dateissysteme lesen kann.

YMMV,
Gruss vom Frank.

»» Ehrlich, ich hab alle Vorteile von XML verstanden, klar, XML ist das beste, bestreite ich doch nicht. Habe ich auch den ganzen Tag lang NIE gemacht. ABER ich hab ein paar Tausend Dateien, mit welchem Tool kann ich denn die DOC-Dateien so abspeichern dass meine Formatierung, meine Grafiken und meine Tabellen erhalten bleiben?
»»
»» Bei PDF dauert das ganze Pro Datei vielleicht 30 Sekunden. Öffnen, neu Speichern, fertig. Ich bin gerne für jeden Vorschlag offen, deswegen bin ich auch hier. Weil die meisten die hier antworten ja auch mehr Ahnung hab als ich. Aber, es reden alle darüber wie toll XML ist, nur wie bitte soll ich das ganze umsetzen?
»»
»» Gruß Giovanni

Hi, ich hab mal gehört, dass die american libary of congress die digitalisierung als ANSI-Text macht, die Bilder dazu als einfache Bitmap (bmp). Das sind derart einfache Formate, dass sich Konverter in jede künftige Software einfach schreiben lassen.

Wie speichern in der Firma. alles als tiff-Grafik, was später nicht bearbeitet werdem muss, sondern nur archiviert wird.

von pdf kann ich für langfristige Archivzwecke nur abraten: ein proprietäres Format, aus dem man die Daten nicht sauber wieder raus bekommt. Wer weiß, ob pdf in 5 Jahren noch Mode ist?

A.

Hallo,

von pdf kann ich für langfristige Archivzwecke nur abraten:
ein proprietäres Format, aus dem man die Daten nicht sauber
wieder raus bekommt.

PDF ist nicht proprietaer: http://partners.adobe.com/asn/tech/pdf/specification…

Wer weiß, ob pdf in 5 Jahren noch Mode ist?

Das kann man sich natuerlich unabhaengig davon fragen.

Gruss vom Frank.

Hi, echt interessant, dass es von Adobe dazu eine Spezifikation gibt. Werd ich mir mal reinziehen…

A.

»» Bei PDF dauert das ganze Pro Datei vielleicht 30 Sekunden.
Öffnen, neu Speichern, fertig. Ich bin gerne für jeden
Vorschlag offen, deswegen bin ich auch hier. Weil die meisten
die hier antworten ja auch mehr Ahnung hab als ich. Aber, es
reden alle darüber wie toll XML ist, nur wie bitte soll ich
das ganze umsetzen?

Naja, wenn Du die Dokumente im Archiv nur lesen willst, ist PDF wahrscheinlich am einfachsten. Wenn sie bearbeitbar bleiben sollen könntest Du sie ev. ins Openoffice-Format übersetzen, das ist gezipptes XML - aber wahrscheinlich gibts da noch elegantere Lösungen.

LG
Stuffi

TXT -> ist wohl die portabelste Lösung, im Klartext in
Datei gespeichert, allerdings ohne Formatierung

Plain Text ist empfehlenswert, wenn es nicht auf Layout ankommt. Einfache Layouts wie Fettschrift oder Kursiv lassen sich durch fest definierte Syntax erreichen (z.B. *fett*, **kursiv**).

HTML -> ist auch sehr portabel, der Inhalt ist leicht aus
der Datei zu lesen (auch ohne Browser), sieht aber nicht auf
jedem Bildschirm 100% gleich aus

HTML ist mittel empfehlenswert. Es wird noch lange in die Zukunft lesbar sein, allerdings ist es nichts halbes und nichts ganzes.

PDF -> ist auch portabel, der Inhalt wird immer gleich
dargestellt

PDF wird in der Weiterentwicklung von Adobe und der Lizenzpolitik von Adobe beeinflusst sein. Natürlich ist davon auszugehen, dass es die nächsten Jahre Standard bleiben wird, aber für Langzeitarchivierung gänzlich ungeeignet. Wie bekommst du z.B. die Texte in eine Datenbank für eine Komplettsuche? Wird der Acrobat Reader auch in 10 Jahren noch für welches Betriebssystemverfügbar sein. PDF ist meiner Meinung nach für Langzeitarchivierung gänzlich ungeeignet. Sollte es auf Layouttreue ankommen, könnte man eher über Postscript nachdenken, auch wenn hier die gleichen Nachteile wie bei PDF wirken, wenn es um die Indexierung geht.

Noch nicht erwähnt - und da währen wir beim Favorit - ist XML. Hier liegt einerseits die Zukunft, was Anbindung an kommende Programme angeht, andererseits ist gewährleistet, dass es auch in vielen Jahren noch wirksam verarbeitet werden kann, da die Datenbeschreibung ja meist angehängt wird und das Dateiformat sich auf Plain Text beschränkt. Wird auch immer wieder in Fachartikeln so erwähnt.

Ein Außenseiter fällt mir noch ein: Tex beziehungsweise Latex. Basiert auf Plain Text, kann folglich bearbeitet werden, hat aber ein professionelles Layout, das getrennt davon definiert werden kann. Ergebnisse können als DVI, PS, HTML (oder auch PDF) ausgegeben werden und stehen so in vielen Umgebungen in einer angepassten Form zur Verfügung, wobei die Quelldatei immer bearbeitbar, indexierbar und klein (auch nicht unwichtig, bei Datenmengen über Jahrzehnte hinweg) bleibt.

Bilder sollten auf alle Fälle getrennt abgespeichert werden. Aus heutiger Sicht empfehlen sich die Formate JPG (wenn Verlust ok ist), PNG (Platzvorteil, je nachdem keine Verluste), TIF (keine Verluste, große Dateien) oder (E)PS (in Druckumgebungen, z.B. Verlage). Bei einem Formatwechsel wie er alle 20 bis 30 Jahre zu erwarten ist, kann man dann mit einem einfachen Batchskript alle Dateien auf einmal in ein anderes Format kovertieren.

Bleibt noch die Frage der Datenhaltung / Datenträger - aber danach war ja gar nicht gefragt :smile: