Hallo,
ich möchte pdf-Dateien in HTML umwandeln und
habe ein Problem mit den Zeichensätzen. Dabei gehe ich folgendermaßen vor:
- Erzeugen einer XML-Datei aus einer pdf-Datei mit MS Word.
- Per JavaScript (ActiveX) und XSLT transformiere ich nun die XML-Datei in das HTML-Format.
Problem: Der Internet-Explorer stellt die Sonderzeichen falsch dar. z.B.: „Daß ißt ein täst!“ in der XML-Datei wird im IE als „Daß ißt ein täst!“ dargestellt.
Wenn ich mir den HTML-Quelltext aber im Texteditor anzeigen lasse, werden die Sonderzeichen richtig angezeigt! Wenn ich den Quelltest jetzt als UTF-8 (auch Unicode oder ANSI) speichere, zeigt danach der IE die Sonderzeichen richtig an.
Die XML-Datei wird im IE aber richtig angezeigt. Also muss das Problem bei der XSL-Transformation (oder JavaScript) liegen. Ich habe schon versucht die HTML-Datei in alle möglichen Zeichensätze umzuwandeln, aber ich weiß leider nicht, in welchem Zeichensatz-Format die HTML selbst vorliegt.
Kennt jemand die Ursache bzw. Lösung dieses Problems? Oder kennt jemand das Format der HTML-Datei (Daß ißt ein täst!)?