Automatischer pdf-pdf Vergleich?

Von: , Frage gestellt am Mi, 9. Apr 2008

Hallöchen,

ich weiß nicht mal welches das richtige Brett für diese Frage ist, notfalls verschieben.


Problemstellung:
Eine große Menge von PDF-Dateien müssen miteinander verglichen werden.
Also zB. Verzeichnis 1: 1000 Dateien, Verzeichnis 2: 1000 Dateien.

Nullhypothese (was zu beweisen wäre), dass es keine Unterschiede der Dateien in den beiden Verzeichnissen gibt.
Wenn es doch Unterschiede gibt, wo sind sie und was sind sie.
Als Unterschied zu bewerten ist ein falsch plaziertes oder fehlendes Image, ein anderer Text oder eine geänderte Reihenfolge.

Für eine Datei aus V1 mit einer Datei aus V2 kann man das problemlos über Adobe Acrobat Reader bewältigen. Für 1000 geht das nicht mehr.

Die konkrete Frage: Kennt jemand Tools, die einen solchen Vergleich entweder selbst vollautomatisch durchführen können oder über irgendeine Form der Kommandozeilenparametrisierung so angesteuert werden können, dass für den Vergleich selbst keine manuellen Aufwände entstehen?

D.h. ich suche etwas, das mindestens so gut ist, dass ein Vergleich nicht mehr Aufwand bedeutet als

VergleicheMeinePDFs -sourceDocument 1.pdf -targetDocument 2.pdf |
UnterschiedAuswertung


Ich gehe nicht davon aus, dass es eine Dreizeiler-Lösung gibt, wenn man dazu eine kostenpflichtige SW anschaffen muss, hilft mir auch schon weiter.

Danke,
Michael

11 Antworten zu dieser Frage

  1. Antwort von nach 39 Minuten 0 hilfreich
    Re: Duplikate finden?

    Hallo Michael, Problemstellung:
    Eine große Menge von PDF-Dateien müssen miteinander verglichen
    werden.
    Also zB. Verzeichnis 1: 1000 Dateien, Verzeichnis 2: 1000
    Dateien.

    Nullhypothese (was zu beweisen wäre), dass es keine
    Unterschiede der Dateien in den beiden Verzeichnissen gibt.
    Es gibt etliche Programme, die nach Duplikaten suchen. Damit könntest du deine Verzeichnisse durchsuchen und alle Duplikate aus z.B. Verzeichnis 2 verschieben. Wenn da dann noch etwas übrig bleibt, geht die Vergleicherei los. Wenn du Glück hast, gibt es keinen Rest ;)

    Cheers, Felix

    • Antwort von nach 14 Stunden 0 hilfreich
      Re^2: Duplikate finden?

      Hallöchen, Es gibt etliche Programme, die nach Duplikaten suchen.
      Exakte Doubletten sind ja nicht das Problem, das kriege ich auch selbst mit einem Binärvergleich hin.
      Hintergrund:
      Ein pdf-Formatter wird ersetzt.
      Laut Anforderung müssen die Outputs von Formatter1 exakt identisch mit denen von Formatter2 sein.

      Da jedoch die Übersetzung selbst im entsprechenden Formatter konfiguriert ist und nichtmal abgesichert ist dass die Formatter 100% fehlerfrei sind, kann es durchaus passieren, daß da mal Fehler unterlaufen: hier das Logo drei Pixel zu klein, da die Textzeile 2 Pixel zu hoch.

      Weil es nicht nur um eins, sondern um Dutzende Layouts mit jeweils zig Nebenbedingungen geht, ist davon auszugehen, dass in erster Instanz sehr viele Dateien keine Doubletten sein werden und dann möchte ich halt nicht "suchen was", sondern "wissen wo.

      • Antwort von nach 19 Stunden 0 hilfreich
        Re^3: Duplikate finden?

        Moien Ein pdf-Formatter wird ersetzt.
        Laut Anforderung müssen die Outputs von Formatter1 exakt
        identisch mit denen von Formatter2 sein.
        Durck das Zeug als bmp aus (pdf2ps, dann convert um auf bmp zu kommen) und vergleich die Bilder.

        cu

        • Antwort von nach einem Tag 0 hilfreich
          BMP?

          Hallo, Durck das Zeug als bmp aus (pdf2ps, dann convert um auf bmp zu kommen) und vergleich die Bilder.
          Nicht mal verkehrt die Idee, ist halt leider eine immense Datenmenge - und die Genauigkeit des Vergleichs auf die Auflösung beschränkt :(

          • Antwort von nach 2 Tagen 0 hilfreich
            Re: BMP?

            Moien Nicht mal verkehrt die Idee, ist halt leider eine immense
            Datenmenge
            Du vergleichst doch eh nur 1000 x 2 Stück. Also müssen immer nur 2 Bilder vorhanden sein. - und die Genauigkeit des Vergleichs auf die Auflösung beschränkt :(
            Wenn die pdf komplett als Vektorgraphen gespeichert ist kann man die Bilder beliebig aufblasen. Und in dem anderen Fall ist es egal: hochskalieren von Rasterdaten bringt keinen Informationsgewinn. Ausserdem: wenn man jede Seite auf ~1000x2000 Pixel bringt und dann noch kein Unterschied sichtbar ist fällt den Endanwendern auch nix auf.

            cu

  2. Antwort von nach 3 Stunden 0 hilfreich
    Re: Automatischer pdf-pdf Vergleich?

    Hallo Mike, Problemstellung:
    Eine große Menge von PDF-Dateien müssen miteinander verglichen
    werden.
    Also zB. Verzeichnis 1: 1000 Dateien, Verzeichnis 2: 1000
    Dateien.

    Nullhypothese (was zu beweisen wäre), dass es keine
    Unterschiede der Dateien in den beiden Verzeichnissen gibt.
    Wenn es doch Unterschiede gibt, wo sind sie
    und was sind sie.
    Als Unterschied zu bewerten ist ein falsch plaziertes oder
    fehlendes Image, ein anderer Text oder eine geänderte
    Reihenfolge.
    Die konkrete Frage: Kennt jemand Tools, die einen solchen
    Vergleich entweder selbst vollautomatisch durchführen können
    oder über irgendeine Form der Kommandozeilenparametrisierung
    so angesteuert werden können, dass für den Vergleich selbst
    keine manuellen Aufwände entstehen?

    zsCompare könnte dir weiterhelfen:
    http://www.zizasoft.com/products/zsCompare/index.shtml
    Es ist in der Lage pdf-Dateien miteinander zu vergleichen und dann die Unterschiede auszugeben:
    Da es auch Kommandozeilen-gesteuert läuft, kannst Du eine Batchdatei schreiben, die deine Aufgabe erledigt:
    http://www.zizasoft.com/products/zsCompare/webHelp/c...

    Ähnliche Möglichkeiten soll auch Compare Suite bieten:
    http://www.comparesuite.com/
    ebenfalls von der Kommandozeile aus startbar:
    http://www.comparesuite.com/on-line_manual/de/runnin...

    Beide Programme kosten etwas und ich kenne sie nicht aus der praktischen Erfahrung, kann also nichts dazu sagen, ob sie halten, was sie versprechen.

    Viele Grüße
    Marvin

  3. Antwort von nach einem Tag 0 hilfreich
    Re: Automatischer pdf-pdf Vergleich?

    Hallo.
    Bei der in der Frage angegebenen Größenordnung von jeweils 1000 PDFs in zwei Ordnern wirst du Probleme mir der Laufzeit deines Programms haben. Dauert der Vergleich zweier PDFs miteinander nur eine Sekunde so kommt man schlimmstenfalls (d.h. wenn kein PDF aus dem ersten Ordner mit einem aus dem zweiten übereinstimmt) auf 1000*1000 Sekunden (gute 11 Tage), da ja das erste PDF aus dem ersten Ordner mit 1000 aus dem zweiten Ordner verglichen werden muss, dann das zweite wieder mit den 1000, usw. 1000 mal.
    Ich weiß zwar nicht in wiefern meine Annahme, dass ein Vergleich 1 Sekunde benötigt, haltbar ist, aber ich denke dass dies ein halbwegs realistisches Szenario ist.
    Sollte ich mich irren so danke ich für Korrekturen.
    Liebe Grüße.
    Alex

    • Antwort von nach einem Tag 0 hilfreich
      Re^2: Automatischer pdf-pdf Vergleich?

      Grüßi,

      Danke für Deine Erläuterungen.
      Vorab:
      ich will nicht 1000² Vergleiche machen, sondern 1000.
      Die Struktur ist so:

      Ordner1     : Ordner2
      Datei_alt_1 : Datei_neu_1 
      Datei_alt_2 : Datei_neu_2
      ...
      

      Hierbei sollen alle "Alt" Dateien exakt ihrem "Neu" Pendant entsprechen.

      Natürlich kann man "definitiv unterschiedliche" Dateien schon allein über ein "ls | diff" rausfinden, aber so offensichtlich werden die Unterschiede nicht sein. Die Unterschiede, mit denen ich rechne sind fehlplazierte Tags, falsche Farbcodes etc. Ich weiß zwar nicht in wiefern meine Annahme, dass ein Vergleich 1 Sekunde benötigt, haltbar ist, aber ich denke dass dies ein halbwegs realistisches Szenario ist.
      Ich habe eine (wenig) brauchbare Software gefunden, die benötigt rund 3 Sekunden für einen Dateivergleich meiner Größenordnung.
      Es geht also um rund 1 Stunde Laufzeit plus Overhead, was durchaus tolerabel ist.

      Das Dumme ist halt, dass ich die Identität (und bei Abweichungen: die Ursachen) für alle Fälle brauche, und die Alternative ist (arghs!) Handarbeit, so dass selbst das langsamste Tool noch eine massive Beschleunigung ist.

      • Antwort von nach einem Tag 0 hilfreich
        Re^3: Automatischer pdf-pdf Vergleich?

        Servus.
        Hast du schon "Compare Suite" ausprobiert. Informationen und eine 30-Tage Testversion findest du unter http://www.comparesuite.com/.
        Ich bin mir aber nicht sicher ob dieses Programm nicht nur den Text vergleicht. Am besten du probierst mal die Demo aus.
        Liebe Grüße.
        Alex



Keine passende Antwort gefunden? Jetzt eigene Frage stellen!