XML Datei mit eingebettetem PDF auftrennen

Daniel_8a1db9 · 17. April 2013 um 12:03

Guten Tag,

ich habe mehrere XML-Dateien vorliegen in denen ein PDF eingebettet ist.
Die XML-Datei beinhaltet in den ersten Zeilen Nutzdaten zum PDF, welche ich gerne weiterhin als XML behalten würde.
Ab Zeilen X beginnt dann das PDF, welches sich in einem XML-Editor mit kryptischen Zeichen darstellt.

Das PDF würde ich nun gerne aus der XML-Datei extrahieren und als eigenständige Datei ablegen.

Kann mir das eher helfen bzw. gibt es hier eine Lösung?

Danke Euch!

MfG
Daniel

UrielMhezzek · 17. April 2013 um 22:49

Hier sollte kurz das Thema Copyright erwähnt werden, gegen das du wahrscheinlich verstoßen wirst, wenn du einen solchen Eingriff vor nimmst. Und das lässt sich bei PDF´s heutzutage leicht herausfinden, von welcher Person/Rechner/Lizenz die stammt, DRM und Wassermarkierungen wird nur zwei Mittel um dich eindeutig zu identifizieren. Lass also lieber die Finger davon.

Daniel_8a1db9 · 19. April 2013 um 08:28

Hi,

danke für die Antwort, aber ich glaube das stimmt nicht ganz. Vielleicht schreib ich mal ein wenig was zum Hintergrund.

Ich habe hier eine SQL-Datenbank in der BLOP-Felder enthalten sind. In diesem BLOP-Felder liegen die XML-Dateien. Ich habe es schon geschafft sämtliche XML-Dateien zu extrahieren und einzeln abzulegen. Jetzt muss ich aus den XML-Dateien die PDFs extrahieren.

Stichwort dazu soll wohl auch Base64 Kodierung sein, das wusste ich beim posten aber noch nicht.
En/Decoder gibt es massenweise, aber leider ist das PDF danach nicht brauchbar.

Ich hoffe das bringt Euch das Thema ein wenig näher.

Heavy · 19. April 2013 um 13:46

Hallo,

Stichwort dazu soll wohl auch Base64 Kodierung sein, das
wusste ich beim posten aber noch nicht.
En/Decoder gibt es massenweise, aber leider ist das PDF danach
nicht brauchbar.

Ja, Base64 ist eine Möglichkeit Binärdaten in XML einzubetten. Wenn das Dekodieren nicht funkionert gibt es IMHO 3 Möglichkeiten, entweder der Fehler liegt in der Dekodierung, es handelt sich nicht um Base64 Daten im XML oder die Daten enthalten kein PDF Dokument.

Ich würde zunächst mal die Base64 Dekodierung mit Plain-Text prüfen, was kommt heraus wenn du folgendes entschlüsselst:

WE1MIERhdGVpIG1pdCBlaW5nZWJldHRldGVtIFBERiBhdWZ0cmVubmVu

Womit beginnt dein Ergebnis wenn du die PDF Daten entschlüsselst und in einem Texteditor öffnest? PDF Dateien beginnen mit „%PDF“ (http://en.wikipedia.org/wiki/Magic_number_%28program…)

Gruß
Heavy