.EPS Dateien zu .DOC konvertieren?

Hallo Grafik Spezialisten

Ich weiss nicht, ob für Postscript Fragen hier das richtige Forum ist, aber… versuchen wirs :wink:

Kann man (wenn ja, wie?) eine Datei vom Format EPS in eine Textdatei
umwandeln? Format egal - also DOC oder RTF oder TXT.

viele Grüsse
Peter

Hallo Namensvetter,
meines Wissens kannst du die EPS-Datei in ein Bitmap umwandeln und in einem OCR-Programm den Text daraus extrahieren.
MFG Peter

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

huhu Peter!

ich würde aus deiner eps-datei ein *.wmf machen, das lässt sich prima ins word oder so einbinden. der vorteil ist auch, dass die datei dann nicht unnötig schwer wird, wie wenn du zuerst ein bitmap daraus machst.

bye

laurent

ps: ich hoffe, ich habe deine frage überhaupt richtig verstanden :smiley:

pps: wenn du von *.eps dateien sprichst, geh ich davon aus, dass es sich um bilder in pfaden und nicht um bitmaps handelt…

AFAIK kann Ghostscript den Text extrahieren, aber ich habe keine Ahnung wie gut das geht.

LG
Stuffi

geht es dir mehr uns darstellen (also Ausdruck am Bildschirm oder Drucker) oder ums extrahieren von Informationen aus dem EPS?

  • Darstellen lassen sich eps-files ganz gut jedem Programm das pdfs lesen kann.
  • um eps-files direkt zu drucken benötigts du einen Postscript-fähigen Drucker (d.h. eps z.b. ins word einbinden und an drucker senden)
  • das extrahieren von informationen geht zwar auch (eps-files sind auch als in einem text-editor fast lesbar) dazu mußt du in den Aufbau der eps-datei einarbeiten.

Gruss
Nils

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Genial…!
Ihr seid wohl das schnellste Forum überhaupt???
Kaum ein paar Stunden vergangen und schon vier interessante Postings… :wink: !!!

Also etwas ausführlicher:
Es handelt sich um PDF Files mit stark verschachteltem Inhalt (also Statistiken, Mind Maps, etc und dazwischen Text.
Da die PDF nicht gesichert wurden, konnte ich mit Ghostscript / GSview (Version 7.04) die Dinger öffnen. Allerdings bietet er mir als Export nur Grafikformate oder EPS an…

Und ich hätte schon gerne ein Textformat, um den Text zu indizieren.

Extra ein paar 100 Euro auszugeben, um den Acrobat Distiller zu kaufen, will ich einfach nicht. Allerdings habe ich noch Corel Draw 10 in Griffweite und könnte mal schauen ob dort möglicherweise „save as“ im Textformat vorhanden sind.

Nochmals vielen Dank.
Grüsse Peter

Hi
… gesetzt den Fall in den PDF ist überhaupt kein Text?
alle möglichen Leute Schannen Grafik und Text, bauen dadraus PDFs (weiss der T… was sie davon haben). Dann hast du schlechtte Karten, ob nun mit Acrobat Vollversion oder ohne.
dann könntest du nur versuchen auf einem der unten angeführten wege die bitmaps zu extrahieren, hoffen dass die quali für ne Texterkennung ausreicht (was ich bezweifle, denn die pdf-erzeuger wollen ja kleine dateigrössen, daher komprimieren sie die eingebundenen Bitmaps tot).
Viel Glück…

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Wahrscheinlich hast Du Recht!
Das scannen wäre einfach exrem mühsam. Es sind insgesamt in PDF Files über 8 MB! d.H. hunderte von Seiten. Das alle alles ausdrucken und scannen - ach Du meine Schande…
und das mit der geringen Erfolgschance

Grüsse und Dank
Peter

hunderte von seiten in 8 mb?
dann muss der text als echter text drin sein.

lade dir die trial vom abby finereader runter, und lass ihn machen, er liest pdfs direkt und vollautomatisch.

Das scannen wäre einfach exrem mühsam. Es sind insgesamt in
PDF Files über 8 MB! d.H. hunderte von Seiten. Das alle alles
ausdrucken und scannen - ach Du meine Schande…
und das mit der geringen Erfolgschance

Hi
ich meinte eigentlich dass du in den Pdf’s so du die Möglichkeit (per acrobat) haben solltest ev eh nur scans vorfinden könntest und die Gedanken an tatsächlichen Text uU vergessen könntest.

Aber wenn du angibst hunderte Seiten in einer 8mb-pdf, das kann dann eigentlich nicht alles gescannt sein. esseidenn in einer unsäglich schlechten qualität. Wenn ich HiQ Scans verarbeite, für Offset, dann hab ich im PDF etwas unter 2MB/Seite (Nicht in Farbe, Graustufe). Da sollte dann echt text verarbeitet worden sein. Versuche mal sowas wie Ghostscript. wenn es damit möglich ist zumindest Seitenweise Text auszulesen will ich das auch haben.
den ganzen kram drucken und wieder schannen… so weit in diese Richtung wollt ich nicht denken, denn da täts auch ein (je nach auflösung die du fährst) ein screenshot. würd schneller gehn.
HH

HH

Weshalb ist der Inhalt des Pdf relevant?
Hi Helge

Wie anfangs beschrieben enthalten die (5-6) PDF Text mit Grafiken und Strukturelmenten wie Tabellen. Wie der Text in die PDF kam, ist
(IMHO) völlig egal. Ob die Jungs & Mädels Word - DOC s konvertierten oder Papier via OCR SW digitalisierten…
Oder hab ich jetzt ein logisches Brett vor dem Kopf *grübel* ?

Zweitens ausdrucken ist einfach mörderisch! Das sind wirklich hunderte von Farbigen Seiten - ich weiss gar nicht was eine Seite auf meinem HP 1000P kostet - aber ich zahle für eine Farbpatrone zwischen 50 - 60 Fränkli. Ev. kann ich das Zeug auch in einer Druckere günstig printen lassen. Die haben zwar primär Macs im Einsatz, aber PDF ist ja universell.

Last but not least - ich schimpfe mich Infomatiker - und jetzt liegen Daten digital vor und ich fühle mich saudoof wenn ich die Daten via Medienbruch in ein anderes Digitalformat bringen muss.

viele Grüsse
Peter

Ab welcher Version?
Hi dog.je

Das hört sich phänomenal an. Ab welcher Version kann das ding das?
In einer Zeitschrfit wurde letztes Jahr eine alte Vollversion verschenkt. Ev. finde ich die Vollversion noch.

viele Grüsse
Peter

Hallo Peter,

die Frage, wie der Text in das PDF gekommen ist, ist schon von entscheidender Bedeutung. Und zwar hast Du bei gescannten Seiten eben nur Grafik, beim Extrahieren in Richtung EPS bekommst du pro Seite eine Bounding Box mit einer Grafik und den textlichen Inhalt könntest Du höchstens per OCR wieder aus der Grafik als Text verarbeitbar machen.

Handelt es sich aber um ein z.B. aus Word erstelltes PDF, dann ist der Text üblicherweise als Text im PDF, lässt sich als Text über EPS extrahieren und wenn Du jetzt die ganzen PS-Befehle und Grafiken filterst, hast Du wieder einen per Textverarbeitung nutzbaren Text.

Muss nicht funktionieren, da Text auch als Kurven in PDF und EPS konvertiert werden kann, aber die geringe Dateigröße spricht eigentlich dafür, dass der Text als Text drinsteht.

Gruß vom Wiz

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

>Hi Helge
>Wie anfangs beschrieben enthalten die (5-6) PDF Text mit
>Grafiken und Strukturelmenten wie Tabellen. Wie der Text in
>die PDF kam, ist (IMHO) völlig egal. Ob die Jungs & Mädels >Word - DOC s konvertierten oder Papier via OCR SW >digitalisierten… Oder hab ich jetzt ein logisches Brett vor >dem Kopf *grübel* ?

Hi
In dem Moment wenn du Text als Text extrahieren willst ist das ein deutlicher Unterschied, denn eingebundene Scans von Text sind eben kein Text sondern Bildchen :smile: von Text…

>Zweitens ausdrucken ist einfach mörderisch! Das sind wirklich
>hunderte von Farbigen Seiten - ich weiss gar nicht was eine
>Seite auf meinem HP 1000P kostet - aber ich zahle für eine
>Farbpatrone zwischen 50 - 60 Fränkli. Ev. kann ich das Zeug
>auch in einer Druckere günstig printen lassen. Die haben zwar
>primär Macs im Einsatz, aber PDF ist ja universell.

Hab ich das vorgeschlagen? Diese Idee ist der grösste Schmarrn und NICHT von mir. Ich distanziere mich hiermit öffentlich!

>Last but not least - ich schimpfe mich Infomatiker - und jetzt
>liegen Daten digital vor und ich fühle mich saudoof wenn ich
>die Daten via Medienbruch in ein anderes Digitalformat
>bringen muss.

Yo, undd Digital kann vieles sein :smile: ein .Doc (text) genau wie ein .bmp (bild) - nochmal: NICHT ICH kam auf die idee digitale (in welcher Form auch immer) über den umweg Papier wieder per Scan zu Bildern zu digitalisieren, um sie danach mit ner Texterkennung zu Text zu wandeln (der dann immer noch digital wär).

Gruss Zurück - Helge

viele Grüsse
Peter

Hi dog.je

Das hört sich phänomenal an. Ab welcher Version kann das ding
das?

keine ahnung, ich habe hier 6.0 pro. auf der seite laesst sich eine vollfunktionsfaehige trial runterladen.

Peter,

ich habe gerade mal in meinen Acrobat 5 reingeguckt und unter DATEI/SPEICHERN UNTER auch das RTF-Format gefunden. Da exportiert er aber nur den Text, Grafiken werden nicht berücksichtigt.

Ich weiss allerdings nicht, ob das auch mit dem Acrobat Reader (Freeware) geht.

Grüße

Wolle

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Status: erfolgreich abgeschlossen!
Hallo Forumsbesucher

Der Hinweis mit dem Abbey Fine Reader (Ver. 6.0) war entscheidend.
Anscheinend hat man die Dokumente tatsächlich zuerst als TIFF eingescannt
und danach als PDF gespeichert (Eigenschaften).

Aber nach 2-3 Anläufen konnte ich mit „Alles lesen“ sämtliche 20 Seiten erfassen. Das Programm ist sogar so clever und schlägt als Exportziel nicht nur das omnipräsente MS Word, sondern auch StarWriter vor.

Nach einer ersten oberflächlichen Prüfung scheint der Text vollständig zu sein. Die Formatierung ist weitgehend korrekt übernommen worden. Lediglich die Seitenumbrüche haben nicht korrekt geklappt. Das werde heute in der Nacht mal genauer analysieren.

Vielen Dank den ausdauernden und fundierten Postern. Ihr seid wirklich eine kompetente Crew!! :wink:)

Peter