Da habe ich nun endlich alle Adressen von Leuten, die angeschrieben werden müssen, und dann dummerweise nur als PDF…
Wie kann man die Adressen da am geschicktesten herausholen? Der erste Versuch mit Kopieren und in Excel einsetzen führte dazu, daß alle Spalten im PDF in einer Spalte in Excel landen, nur mit Leerzeichen getrennt, da hilft auch kein anschließendes Suchen und Ersetzen.
Hat jemand eine Idee, wie ich die Daten dort raus und in mein Mailprogramm hineinbekommen kann? Es sind ein paar tausend Adressen, abtippen geht nicht, der Lieferant hat nur ein PDF…
Hallo,
Wie kann man die Adressen da am geschicktesten herausholen?
Ich würde es so versuchen:
a)
- PDF im Acrobat nach XML exportieren
- in Excel importieren
oder
b)OCR drüber laufen lassen
salut
gernot
Hallo,
Wie kann man die Adressen da am geschicktesten herausholen?
Ich würde es so versuchen:
a)
- PDF im Acrobat nach XML exportieren
Das geht leider nur als Text. Ich habe nur den Acrobat Reader.
Dort kommt das ganze wieder nur mit Leerzeichen als Feldtrennern an. Wenn ich dann „Text als Tabelle“ benutze, kann ich sie auch aufspalten. Blöderweise ist z.B. im Feld „Land“ nicht nur „Germany“, sondern z.B. auch „United Kindom“ oder „Republic of Ireland“, und schon wird alles durcheinander gewürfelt.
oder
b)OCR drüber laufen lassen
Hm, das ist aber doch kein Scan, sondern schon Text…
*grübel*
oder
b)OCR drüber laufen lassen
So, habe das Ding jetzt als 200dpi-TIFF gespeichert, Omnipage SE drüberlaufen lassen und siehe da, eine andere Art von Datensalat. Einige Felder mit langen Inhalten werden von Omnimüll auf mehrere Felder verteilt. Super Sache, dabei ist das Layout total klar und einfach und nichts gibt einen Anlaß, es so zu verhunzen…
oder
b)OCR drüber laufen lassen
Hm, das ist aber doch kein Scan, sondern schon Text…
-> PDF als jpg speichern (keine Ahung, ob das mit dem Reader geht, aber vielleicht mit einem anderen PDF Tool)
-> jpg mit OCR einlesen
-> nach Excel speichern
Hab’s gerade mit Omnipage 4 probiert, hat gut funktioniert
salut
gernot
Hallo,
Dort kommt das ganze wieder nur mit Leerzeichen als
Feldtrennern an. Wenn ich dann „Text als Tabelle“ benutze,
kann ich sie auch aufspalten. Blöderweise ist z.B. im Feld
„Land“ nicht nur „Germany“, sondern z.B. auch „United Kindom“
oder „Republic of Ireland“, und schon wird alles durcheinander
gewürfelt.
Dann ersetze doch „United Kingdom“ durch „UnitedKingdom“, bevor du „Text als Tabelle“ machst, und danach wieder zurück.
Cheers, Felix
Das müßte ich dann leider auch bei allen Leuten mit Doppelvornamen machen, es ist erstaunlich wieviele Leute z.B. „Jose Manuel“ ohne Bindestrich etc. heißen.
Inzwischen habe ich das Problem anders gelöst:
- ich habe alle Seiten als TIFF gespeichert
- MIt ein bißchen probieren kam dann doch mit Omnipage ein bißchen was heraus, das ergab insgesamt noch eine halbe Stunde Nacharbeit.
Also vielen Dank für all die Tipps!
[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]