Hallo liebe Wissenden!
Ich bearbeite gelegentlich digitalisierte Bücher, um sie weitgehend maschinenlesbar zu machen (konkret für Braillezeilen bzw. eigentlich deren Benutzer). Die Bücher werden dabei natürlich vorher vom OCR-Pürierstab bearbeitet, was aber nicht ich mache (ich kriege nur das mehr oder weniger brauchbare Ergebnis). Dabei fallen manchmal Tätigkeiten an, die ich gerne (semi-)automatisieren würde, weil sie einfach unglaublich nervig sind (besonders bei Dokumenten mit mehreren hundert Seiten), und die Schrifterkennung noch immer genügend anderen Mist baut, den ich beheben muss.
Konkret würde ich gerne Zeilenumbrüche des Originallayouts auf einfache Weise automatisiert entfernen (das geht zwar eigentlich schon im Finereader recht annehmbar, wird aber leider manchmal vergessen). Dabei sollte nach Möglichkeit auch die Silbentrennung aufgehoben werden werden, um den Text weitgehend intakt zu halten. Also so in der Art: wenn das letzte Zeichen vor dem Umbruch ein Bindestrich und das vorletzte Zeichen ein Buchstabe ist, werden Umbruch und Bindestrich gelöscht. In allen anderen Fällen wird der Umbruch gelöscht und ein Leerzeichen eingefügt. Gibt es dafür eine Funktion, ein Tool oder ein Makro? Leider sind meine Kenntnisse auf diesem Gebiet nicht ausreichend, um mir sowas selbst zu basteln.
Eine andere Funktion die ich gerne hätte: Einfügen eines bestimmten vordefinierten Textes (meist nur ein abgekürztes Wort) gefolgt von einer fortlaufenden Zahl an der Cursorposition. Die Zahl sollte jedoch anpassbar sein, weil manchmal einzelne Vorkommnisse übersprungen werden müssen. Sinn des Ganzen ist beispielsweise die Angabe der Seitenzahlen des Originaldokuments im Fließtext. Die Seitenzahlenfunktion von Word fällt hierbei aus, weil die Seitenwechsel manchmal einfach nicht übereinstimmen. Eine andere Anwendung wäre die fortlaufende Nummerierung von Marginalien bei juristischen Texten.
Hat hierzu jemand Tipps für mich?
Gruß
Stephan