PDF: Embedded fonts, encoding ansi

Hallo allerseits,

man erhält ein PDF Dokument (erstellt an einer deutschen Schule mit Word 2007), welches 3 embedded Fonts enthält, die wiederum mit encoding Ansi vorliegen.

Keine der gängigen Softwarelösungen für PDFs unter Linux und auch nicht unter Windows 10 kann die enthaltenen deutschen Umlaute und Sonderzeichen korrekt darstellen (z.B. öäüÖÄÜß§). Das Gleiche gilt für den Ausdruck. Ein Gimp Import der Datei liefert das gleiche (d.h. falsche) Resultat.

Was muss getan werden, damit man von diesem Dokument zumindest einen korrekten Ausdruck bekommt?

Gruß
BW

PS Natürlich werde ich morgen die Schule anrufen. Bei meinem heutigen Anruf um 15:05 war nur der AB dran: „Sie rufen außerhalb unserer ‚‚Geschäftszeiten‘‘ an. Wir sind nur bis 15:15 Uhr da …“. Mich interessiert die Beantwortung der Frage aber im allgemeinen.

ANSI ist ein Encoding, dass für Westeuropa und deutsche Umlaute wunderbar paßt. Wenn die Umlaute als Müll erscheinen, hat der Ersteller des PDFs Mist gebaut. Da kann man nix reparieren.

Normalerweise sollte ein deutscher Text aber trotzdem lesbar sein. Für einen korrekten Ausdruck bliebe als Notlösung nur, den Text zu extrahieren (ggf. nach PDF extractor googeln), z.B. in Word neu zu formatieren und durch textuelle Ersetzung die Umlaute zu rekonstruieren.

Gruß,
\m/

Das wäre - nachdem es auf Linux und inzwischen mehreren Windows 10 Systemen nicht funktioniert hat - auch meine Meinung gewesen. Ein Anruf bei der Schule hat nun ergeben, dass man dort der Meinung ist, nichts falsch gemacht zu haben und auch nichts korrigieren zu müssen…

Der Kontakt mit einem „Techniker“ auf deren Seite steht aus.

Nebenfrage, da ich idR LibreOffice verwende: Welche Falscheinstellung kann denn in Word 2007 beim Export auf PDF ein derartiges Verhalten auslösen?

Gruß
BW

Was für Fonts waren das denn genau? ANSI heißt zunächst nur, dass grundsätzlich ein entsprechender Umfang an Zeichen im Zeichensatz unterstützt wird, und dass die Zeichen an definierten Stellen zu finden sind. Das bedeutet aber noch lange nicht, dass im Font auch alle möglichen, hiermit theoretisch darstellbaren Zeichen auch (korrekt) belegt sind. Gerade bei Zierschriften kommt es gerne vor, dass deren Zeichenvorrat ggf. sehr bescheiden ist/an sich für standardisierte Sonderzeichen vorgesehene Positionen dann mit sonstigen Zierelementen belegt werden.

Wenn man mit einer WYSIWYG-Software arbeitet, müsste dies allerdings dann auch schon beim Erstellen des Dokuments auffallen. Dieses Problem tritt häufiger dort auf, wo PDFs automatisch als Output von Software generiert werden, bei denen keine optische Kontrolle der Ergebnisse im Einzelfall stattfindet/dies nicht hinreichend vorab getestet wurde.

Hi Wiz,

hier die Ausgabe meines Linuxsystems:

Der Windows acrobat reader gab „nette Namen“ (also ohne die 7 initialen Zeichen) aus und anstatt WinAnsi dann halt Ansi.

Gruß
BW

Oh, Wunder geschehen! Inzwischen meint die Schule doch, nachbessern zu müssen.

Nunmehr hat das Dokument

also nur noch einen embeddeten Font. Ich werd mal rüberschauen, ob noch Fehler drinnen sind.

Gruß
BW