Text aus PDF kopieren ohne Trennungsstriche

Anonym · 30. September 2009 um 12:58

Hallo!

Häufig muss ich aus PDF-Dateien sehr lange Texte kopieren, um sie auf eine Homepage zu stellen.
Leider kopiert das „Text-Select“-Tool von foxitreader auch die Trennungsstriche mit.
Heißt konkret:
Da das Pdf ein anderes Format als die Homepage hat, kommt es häufig vor, dass dann auf der Homepage Wörter in der Zeilenmitte (oder sonstwo) sinn-los ge-trennt wer-den.
Diese ganzen Trennungsstriche per Hand zu löschen, ist sehr zeitaufwändig!

Darum meine Frage:

Fällt euch eine Möglichkeit ein, den Text ohne Trennungszeichen zu kopieren?
Oder eine andere Lösung?

Den Text erst in WOrd zu kopieren und dort automatisch alle „-“ löschen zu lassen, funktioniert auch nicht, da im Text auch Wörter wie „Planungs- und Bauausschuss“ drin vorkommen.

Wäre echt super glücklich, wenn ihr mir weiterhelfen könntet!

Mit freundlichen Grüßen und vielen Dank im voraus,

Asbjørn M.

PHvL · 30. September 2009 um 14:45

Hallo,

Häufig muss ich aus PDF-Dateien sehr lange Texte kopieren, um
sie auf eine Homepage zu stellen.

günstiger wäre es, vom Urheber die Originaltexte zu erhalten. PDF ist regelmäßig ungeeignet, Texte zur Weiterverarbeitung zu übertragen.

Fällt euch eine Möglichkeit ein, den Text ohne
Trennungszeichen zu kopieren?

Wie du selbst schon festgestellt hast, ist die Frage, ob ein Divis ein Trenn- oder Bindestrich ist (oder es gar ein gedankenstrich hätte sein sollen), nicht gespeichert sondern muss aus dem Zusammenhang geschlossen werden. Das Schließen aus dem Zusammenhang gelingt Computern nur sehr selten zuverlässig.

–
PHvL

Bjoern_96ed05 · 30. September 2009 um 16:36

Hallo,

wenn die Zeilenumbrueche mitkopiert werden kannst du den Text als pre uebernehmen, dann wird die Formatierung beibehalten.

Zum Pre-Tag siehe hier: http://de.selfhtml.org/html/text/praeformatiert.htm

Ciao! Bjoern

airtime · 15. Dezember 2009 um 13:54

Du kannst den Text in eine Datei speichern (z.B. Word) und mit einer regex unterscheiden zwischen (text)-(text) und (text)-(leerzeichen). Ist zwar etwas umständlich, aber eine andere Lösung fällt mir nicht ein.