Hilfe! Probleme mit dem Zeichensatz (XML, XSLT)

Al_De · 14. November 2003 um 15:15

Hallo,

ich möchte pdf-Dateien in HTML umwandeln und
habe ein Problem mit den Zeichensätzen. Dabei gehe ich folgendermaßen vor:

Erzeugen einer XML-Datei aus einer pdf-Datei mit MS Word.
Per JavaScript (ActiveX) und XSLT transformiere ich nun die XML-Datei in das HTML-Format.

Problem: Der Internet-Explorer stellt die Sonderzeichen falsch dar. z.B.: „Daß ißt ein täst!“ in der XML-Datei wird im IE als „DaÃŸ iÃŸt ein tÃ¤st!“ dargestellt.

Wenn ich mir den HTML-Quelltext aber im Texteditor anzeigen lasse, werden die Sonderzeichen richtig angezeigt! Wenn ich den Quelltest jetzt als UTF-8 (auch Unicode oder ANSI) speichere, zeigt danach der IE die Sonderzeichen richtig an.

Die XML-Datei wird im IE aber richtig angezeigt. Also muss das Problem bei der XSL-Transformation (oder JavaScript) liegen. Ich habe schon versucht die HTML-Datei in alle möglichen Zeichensätze umzuwandeln, aber ich weiß leider nicht, in welchem Zeichensatz-Format die HTML selbst vorliegt.

Kennt jemand die Ursache bzw. Lösung dieses Problems? Oder kennt jemand das Format der HTML-Datei (DaÃŸ iÃŸt ein tÃ¤st!)?

J_rgen_Auer · 14. November 2003 um 17:44

Zunächst würde mich interessieren, wie Du aus einer pdf-Datei mit Word eine Xml-Datei machst?

Jedenfalls speicherst Du die Datei in Word als Xml-Datei ab, das wird wahrscheinlich UTF-8 sein, ohne daß eine Xml-Declaration drinsteht - siehe den Thread drunter. Dann ist entscheidend, was die XSLT-Datei daraus macht: Schreibt sie eine Xml-Declaration oder läßt sie diese weg (xsl:output omit-xml-declaration=‚yes‘) und setzt sie zwangsweise eine hinein, obwohl die Datei als UTF-8 gespeichert ist? Falls letzteres der Fall ist: Dasselbe Problem habe ich beim Erzeugen meiner Site www.sql-und-xml.de. Dort liegt unter ‚Diese Site‘ ein VBScript herum, mit dem ich diesen String einfach gesucht und gelöscht habe.

Gruß, Jürgen Auer