Dokumententriage-Plattform

Ich suche nach einer Art Softwareplattform (oder möglicherweise einer Open-Source-API, die das meiste davon erledigen würde), um eine Dokumentensichtung durchzuführen.

Stellen Sie sich vor, Sie erhalten 3.000 Dokumente (Word, PDF, Powerpoint, gemischte Formate) zu einem Cluster aus 5 verschiedenen Themen. Wir würden uns eine teilweise automatisierte Lösung wünschen, die helfen würde:

  • Bestimmen Sie die grobe Themenabdeckung im Hauptteil der Dokumente
  • Helfen Sie einer Person dabei, Prioritäten zu setzen, welche zuerst gelesen werden sollen und in welcher Reihenfolge sie gelesen werden, um den Zeitaufwand für das Durchsuchen von Junk zu minimieren
  • Durchsuchen Sie alle Dokumente formatübergreifend nach bestimmten Schlüsselwörtern oder Ausdrücken, am besten mit der Möglichkeit, einige Synonyme zu definieren (z. B. „Akquisition“ und „Einkauf“).
  • Legen Sie fest, welche Dokumente Kopien/Versionen voneinander sind, sodass nur eine Kopie geprüft wird
Vermutlich würden Sie auch einen Mechanismus benötigen, um zu unterscheiden, welche die maßgebliche Version ist, wenn mehrere Versionen vorhanden sind, z. B. Datum der letzten Bearbeitung oder zuletzt von der vertrauenswürdigsten bearbeitet - dh wenn die am meisten zurückgesendete Bearbeitung eine geringfügige Änderung an einer wirklich alten Version durch einen Studenten und eine war Der ältere war vom Professor, den brauchst du wahrscheinlich.

Antworten (2)

Installieren Sie zuerst Alfresco und die Calais-Integration (je nach Erfahrung kann dies einen Tag dauern).
Laden Sie dann alle Ihre Dokumente in Alfresco hoch.

Calais ist eine Bibliothek/API, die von Reuters entwickelt wurde, um semantische Informationen aus menschlichem Text zu extrahieren.

Calais

Sie können jetzt:

  • Finden Sie alle Dokumente zum Einkaufen mit einer schönen Schlagwortwolke.
  • Suchen Sie schnell nach allen Dokumenten, die ein bestimmtes Schlüsselwort enthalten. Sie können diese Suche auch mit Bedingungen für Tags, Dateinamen, Autor, Datum usw. kombinieren.
  • Sie können Prioritäten setzen, indem Sie die Dokumente markieren, die Sie zuerst lesen müssen.

Alfresco hatte früher ein Modul zum Finden von Duplikaten, aber ich kann es nicht mehr finden.

Ich würde vorschlagen, dass Sie zuerst eine Kopie aller Dokumente in einem Nur-Text-Format, möglicherweise Markdown, erhalten müssen.

Angenommen, Sie haben Werkzeuge zum Öffnen der meisten von ihnen, die in Klartext ausgegeben werden können, möglicherweise automatisiert über Python mit win32com , NB für die PDF-Dokumente hängt viel vom Typ ab - wenn es sich um gescannte Dokumente handelt, die nur die Bilder der Seiten enthalten Sie kein Glück haben - wenn sie von einer Software wie print to pdf generiert wurden, dann könnten Sie pdfminer verwenden . Nebenbei sollten Sie auch Metainformationen wie Datum der letzten Aktualisierung usw. erfassen.

Sobald Sie alle Dateien in einem Nur-Text-Format haben, können Sie Tools wie NLTK verwenden , um jede Ihrer Textdateien mit einem Fingerabdruck zu versehen, indem Sie sie analysieren, um wichtige Elemente wie Substantive und Verben zu extrahieren und dann jedes dieser Elemente zu zählen. Wenn Sie in diesen Listen nach Ihren Schlüsselwörtern suchen, sollten Sie einen Hinweis darauf erhalten, welche der Originaldateien am meisten und am wenigsten einen Blick wert ist. Dateien mit sehr ähnlichen Listen der signifikanten Elemente und ähnlichen Zählungen sind wahrscheinlich Kopien voneinander .