Dokumententriage-Plattform

Question

Dokumententriage-Plattform

nlp
Software
Dokument-Indexierung
Dokumenten-Management

FrobberOfBits

Ich suche nach einer Art Softwareplattform (oder möglicherweise einer Open-Source-API, die das meiste davon erledigen würde), um eine Dokumentensichtung durchzuführen.

Stellen Sie sich vor, Sie erhalten 3.000 Dokumente (Word, PDF, Powerpoint, gemischte Formate) zu einem Cluster aus 5 verschiedenen Themen. Wir würden uns eine teilweise automatisierte Lösung wünschen, die helfen würde:

Bestimmen Sie die grobe Themenabdeckung im Hauptteil der Dokumente
Helfen Sie einer Person dabei, Prioritäten zu setzen, welche zuerst gelesen werden sollen und in welcher Reihenfolge sie gelesen werden, um den Zeitaufwand für das Durchsuchen von Junk zu minimieren
Durchsuchen Sie alle Dokumente formatübergreifend nach bestimmten Schlüsselwörtern oder Ausdrücken, am besten mit der Möglichkeit, einige Synonyme zu definieren (z. B. „Akquisition“ und „Einkauf“).
Legen Sie fest, welche Dokumente Kopien/Versionen voneinander sind, sodass nur eine Kopie geprüft wird

Steve Barnes

Vermutlich würden Sie auch einen Mechanismus benötigen, um zu unterscheiden, welche die maßgebliche Version ist, wenn mehrere Versionen vorhanden sind, z. B. Datum der letzten Bearbeitung oder zuletzt von der vertrauenswürdigsten bearbeitet - dh wenn die am meisten zurückgesendete Bearbeitung eine geringfügige Änderung an einer wirklich alten Version durch einen Studenten und eine war Der ältere war vom Professor, den brauchst du wahrscheinlich.

Antworten (2)

Dokumententriage-Plattform

Vermutlich würden Sie auch einen Mechanismus benötigen, um zu unterscheiden, welche die maßgebliche Version ist, wenn mehrere Versionen vorhanden sind, z. B. Datum der letzten Bearbeitung oder zuletzt von der vertrauenswürdigsten bearbeitet - dh wenn die am meisten zurückgesendete Bearbeitung eine geringfügige Änderung an einer wirklich alten Version durch einen Studenten und eine war Der ältere war vom Professor, den brauchst du wahrscheinlich.

Nikolaus Raul · Answer 1

Installieren Sie zuerst Alfresco und die Calais-Integration (je nach Erfahrung kann dies einen Tag dauern).
Laden Sie dann alle Ihre Dokumente in Alfresco hoch.

Calais ist eine Bibliothek/API, die von Reuters entwickelt wurde, um semantische Informationen aus menschlichem Text zu extrahieren.

Sie können jetzt:

Finden Sie alle Dokumente zum Einkaufen mit einer schönen Schlagwortwolke.
Suchen Sie schnell nach allen Dokumenten, die ein bestimmtes Schlüsselwort enthalten. Sie können diese Suche auch mit Bedingungen für Tags, Dateinamen, Autor, Datum usw. kombinieren.
Sie können Prioritäten setzen, indem Sie die Dokumente markieren, die Sie zuerst lesen müssen.

Alfresco hatte früher ein Modul zum Finden von Duplikaten, aber ich kann es nicht mehr finden.

Steve Barnes · Answer 2

Ich würde vorschlagen, dass Sie zuerst eine Kopie aller Dokumente in einem Nur-Text-Format, möglicherweise Markdown, erhalten müssen.

Angenommen, Sie haben Werkzeuge zum Öffnen der meisten von ihnen, die in Klartext ausgegeben werden können, möglicherweise automatisiert über Python mit win32com , NB für die PDF-Dokumente hängt viel vom Typ ab - wenn es sich um gescannte Dokumente handelt, die nur die Bilder der Seiten enthalten Sie kein Glück haben - wenn sie von einer Software wie print to pdf generiert wurden, dann könnten Sie pdfminer verwenden . Nebenbei sollten Sie auch Metainformationen wie Datum der letzten Aktualisierung usw. erfassen.

Sobald Sie alle Dateien in einem Nur-Text-Format haben, können Sie Tools wie NLTK verwenden , um jede Ihrer Textdateien mit einem Fingerabdruck zu versehen, indem Sie sie analysieren, um wichtige Elemente wie Substantive und Verben zu extrahieren und dann jedes dieser Elemente zu zählen. Wenn Sie in diesen Listen nach Ihren Schlüsselwörtern suchen, sollten Sie einen Hinweis darauf erhalten, welche der Originaldateien am meisten und am wenigsten einen Blick wert ist. Dateien mit sehr ähnlichen Listen der signifikanten Elemente und ähnlichen Zählungen sind wahrscheinlich Kopien voneinander .

Dokumententriage-Plattform

FrobberOfBits

Steve Barnes

Antworten (2)

Nikolaus Raul

Steve Barnes

Ein sicherer, privater, durchsuchbarer Online-Dokumentenspeicherdienst

Dokumentenmanager für papierloses Büro

Was ist der beste Ansatz zum Archivieren/Speichern vieler Dateien, um später leicht darauf zugreifen zu können?

Auf der Suche nach einem Cloud-Speicheranbieter mit Inhaltsindizierungsfunktionen

Eine Software zum Indizieren von PDF-Dateien und Verwalten von Sammlungen

Software zum Extrahieren und Organisieren von Daten aus PDF- und Word-Dateien

Inhaltsrepository mit Versionsverwaltung und Volltextsuchfunktionen

Software zum Auffinden von JPG unter Tausenden von lokal gespeicherten gescannten Dokumenten

Webbasierte Software zum Erstellen einer durchsuchbaren Dokumentendatenbank mit Benutzerverwaltung

Leichte Empfehlungen für die Verwaltung persönlicher Dokumente (Open Source/.net)