Word 2010 OCR-Ergebnisse aufräumen

Hallo liebe Wissenden!

Ich bearbeite gelegentlich digitalisierte Bücher, um sie weitgehend maschinenlesbar zu machen (konkret für Braillezeilen bzw. eigentlich deren Benutzer). Die Bücher werden dabei natürlich vorher vom OCR-Pürierstab bearbeitet, was aber nicht ich mache (ich kriege nur das mehr oder weniger brauchbare Ergebnis). Dabei fallen manchmal Tätigkeiten an, die ich gerne (semi-)automatisieren würde, weil sie einfach unglaublich nervig sind (besonders bei Dokumenten mit mehreren hundert Seiten), und die Schrifterkennung noch immer genügend anderen Mist baut, den ich beheben muss.

Konkret würde ich gerne Zeilenumbrüche des Originallayouts auf einfache Weise automatisiert entfernen (das geht zwar eigentlich schon im Finereader recht annehmbar, wird aber leider manchmal vergessen). Dabei sollte nach Möglichkeit auch die Silbentrennung aufgehoben werden werden, um den Text weitgehend intakt zu halten. Also so in der Art: wenn das letzte Zeichen vor dem Umbruch ein Bindestrich und das vorletzte Zeichen ein Buchstabe ist, werden Umbruch und Bindestrich gelöscht. In allen anderen Fällen wird der Umbruch gelöscht und ein Leerzeichen eingefügt. Gibt es dafür eine Funktion, ein Tool oder ein Makro? Leider sind meine Kenntnisse auf diesem Gebiet nicht ausreichend, um mir sowas selbst zu basteln.

Eine andere Funktion die ich gerne hätte: Einfügen eines bestimmten vordefinierten Textes (meist nur ein abgekürztes Wort) gefolgt von einer fortlaufenden Zahl an der Cursorposition. Die Zahl sollte jedoch anpassbar sein, weil manchmal einzelne Vorkommnisse übersprungen werden müssen. Sinn des Ganzen ist beispielsweise die Angabe der Seitenzahlen des Originaldokuments im Fließtext. Die Seitenzahlenfunktion von Word fällt hierbei aus, weil die Seitenwechsel manchmal einfach nicht übereinstimmen. Eine andere Anwendung wäre die fortlaufende Nummerierung von Marginalien bei juristischen Texten.

Hat hierzu jemand Tipps für mich?

Gruß
Stephan

Hallo!

Mein erstes Problem konnte ich mittlerweile selbst lösen. Mit etwas Abstand sieht man auch den Wald wieder, und nicht nur die Bäume. Die Lösung waren mehrere Durchläufe mit Suchen und ersetzen, beginnend mit den Sonderfällen.

1.) Zeilenumbruch nach Schrägstrichen, kein Leerzeichen:

/^l [ersetzen durch] /

2.) Zeilenumbruch nach Gedankenstrichen ersetzen durch Leerzeichen:

[Leerzeichen]-^l [ersetzen durch] [Leerzeichen]-[Leerzeichen]

3.) Zeilenumbruch nach Bindestrich (Silbentrennung):

-^l [ersetzen durch] [nichts]

4.) Zeilenumbruch normal:

^l [ersetzen durch] [Leerzeichen]

Für mein zweites Problem bin ich aber immer noch für Hinweise dankbar.

Gruß
Stephan