Ich suche nach einer Art Softwareplattform (oder möglicherweise einer Open-Source-API, die das meiste davon erledigen würde), um eine Dokumentensichtung durchzuführen.
Stellen Sie sich vor, Sie erhalten 3.000 Dokumente (Word, PDF, Powerpoint, gemischte Formate) zu einem Cluster aus 5 verschiedenen Themen. Wir würden uns eine teilweise automatisierte Lösung wünschen, die helfen würde:
Installieren Sie zuerst Alfresco und die Calais-Integration (je nach Erfahrung kann dies einen Tag dauern).
Laden Sie dann alle Ihre Dokumente in Alfresco hoch.
Calais ist eine Bibliothek/API, die von Reuters entwickelt wurde, um semantische Informationen aus menschlichem Text zu extrahieren.
Sie können jetzt:
Alfresco hatte früher ein Modul zum Finden von Duplikaten, aber ich kann es nicht mehr finden.
Ich würde vorschlagen, dass Sie zuerst eine Kopie aller Dokumente in einem Nur-Text-Format, möglicherweise Markdown, erhalten müssen.
Angenommen, Sie haben Werkzeuge zum Öffnen der meisten von ihnen, die in Klartext ausgegeben werden können, möglicherweise automatisiert über Python mit win32com , NB für die PDF-Dokumente hängt viel vom Typ ab - wenn es sich um gescannte Dokumente handelt, die nur die Bilder der Seiten enthalten Sie kein Glück haben - wenn sie von einer Software wie print to pdf generiert wurden, dann könnten Sie pdfminer verwenden . Nebenbei sollten Sie auch Metainformationen wie Datum der letzten Aktualisierung usw. erfassen.
Sobald Sie alle Dateien in einem Nur-Text-Format haben, können Sie Tools wie NLTK verwenden , um jede Ihrer Textdateien mit einem Fingerabdruck zu versehen, indem Sie sie analysieren, um wichtige Elemente wie Substantive und Verben zu extrahieren und dann jedes dieser Elemente zu zählen. Wenn Sie in diesen Listen nach Ihren Schlüsselwörtern suchen, sollten Sie einen Hinweis darauf erhalten, welche der Originaldateien am meisten und am wenigsten einen Blick wert ist. Dateien mit sehr ähnlichen Listen der signifikanten Elemente und ähnlichen Zählungen sind wahrscheinlich Kopien voneinander .
Steve Barnes