Software zum Extrahieren und Organisieren von Daten aus PDF- und Word-Dateien

Ich bin ein Ingenieur, der an einem Projekt arbeitet, und ich habe eine Menge Dokumente zu bearbeiten. Auch wenn diese Dokumente nach Themen und Daten geordnet sind, brauche ich immer mehr Zeit, um die gesuchten Informationen zu finden. Ich hoffe, dass einige Software ( offline arbeiten ) helfen kann.

Meine Unterlagen sind:

  • Words DOC(X)
  • Pdf
  • Handgeschriebene Papierseiten. Diese wurden als Bilder (JPG) gescannt und ich möchte die OCR-Sachen nicht durchgehen (was aufgrund meiner Handschrift wahrscheinlich nicht funktioniert!). Diese Bilder wurden mit Schlüsselwörtern versehen.

Wenn ich diese Dokumente lese, möchte ich Notizen machen (interessante Ideen, potenzielle Probleme, Grafikextraktion, numerische Werte, ...), während ich eine gewisse Beziehung zwischen einer Notiz und den Dokumenten, aus denen sie stammt, aufrechterhält (URL und Seitenzahl einer PDF zum Beispiel), wenn ich also auf diesen Link klicke, öffnet sich das Dokument an der richtigen Stelle.

Die „ideale“ Software (Linux und/oder Windows, kostenlos oder nicht) kann:

  • Schlüsselwörter aus PDF-, Word-Dateien und Bildern extrahieren (mit oder ohne menschliche Hilfe)
  • Fügen Sie jedem Dokument beliebig viele Schlüsselwörter hinzu (wenn möglich, sollte ein Schlüsselwort in einem Dokument auf eine bestimmte Seite verweisen)
  • Erstellen Sie Notizen mit Links zu den Dokumenten in seiner "Datenbank"

PS: Ich habe Software wie OneNote, CintaNotes oder DtSearch gefunden und versuche immer noch herauszufinden, ob eine Kombination davon funktioniert, bisher kein Erfolg ...

Was ist mit OneNote, das nicht das tut, was Sie brauchen? Es klingt, als würde es für Sie funktionieren.
OneNote ist in der Tat ziemlich nah an einer idealen Lösung, aber es scheint möglich, es noch besser zu machen. Ich denke, ich sollte in der Lage sein, nahtloser von einer Notizsoftware zu PDF-Dateien zu wechseln. Ich habe aber noch nicht kapiert, was fehlt...
Eine der nützlichsten Funktionen, die ich suche, ist die Schlüsselwortextraktion aus einem PDF. Ich möchte automatisch Schlüsselwörter von Dokumenten extrahieren und sie als Tag für die spätere Suche hinzufügen. Onenote funktioniert so nicht.
@Olivier Je nachdem, wie die PDF-Datei erstellt wurde, ist es möglicherweise nicht möglich, Text daraus zu extrahieren, ohne ein OCR-Tool zu durchlaufen.

Antworten (2)

Nachdem Sie im Content- und Wissensmanagement gearbeitet haben, ist der erste Ansatz nur gültig, wenn es sich um ein größeres, sehr gut finanziertes Projekt handelt, dh um ein COTS-Produkt zu identifizieren, das viele Ihrer Anforderungen sofort erfüllt. Es ist oft zusätzliche Arbeit erforderlich, um von beispielsweise 75 % Ihrer Anforderungen näher an 100 % zu kommen. Oft ist diese zusätzliche Arbeit alles andere als trivial. Zu den potenziellen Anbietern gehören diejenigen, die in das Parsen von PDF-, Word- und möglicherweise OCR-Dateien und das anschließende Speichern der Inhalte in einer Datenbank investiert haben. Häufig wird auch das Taggen und Strukturieren der Inhalte mittels XML angeboten. Astera und Kapow [ein Unternehmen von Lexmark] sind zwei Anbieter, die eine solche Lösung für sehr große [Unternehmens-]Unternehmen anbieten.

Häufiger findet man Tools und DIY-Lösungen, die die Dateien importieren, ohne sie in eine SQL-Datenbank zu analysieren - aber nach dem, was ich hier verstehe, ist das nicht das, wonach Sie gesucht haben.

Ein zweiter Ansatz ist die DIY-Route, die vielleicht nicht viel oder kein Geld aus eigener Tasche kostet, aber sicherlich eine Investition von Zeit und Energie erfordert. PHP hat zum Beispiel PDFlib, das verwendet werden kann, um das zu tun, was Sie für PDF-Dateien benötigen. Dieser Link http://www.php.net/manual/en/ref.pdf.php kann bei der Untersuchung dieses speziellen Ansatzes hilfreich sein. Ich schätze, Sie könnten PHP-Skripte finden, die die Arbeit der Implementierung von PDFlib bereits erledigt haben und die Sie möglicherweise unverändert oder mit einigen geringfügigen Änderungen verwenden können.

Wenn es um die Arbeit mit dem Inhalt von .doc- und .docx-Dateien geht, scheint es viele Lösungen mit verschiedenen Tools zu geben. Dieser Link enthält viele Empfehlungen https://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix und dies ist ein Thread, der sich auf einen PHP-Ansatz konzentriert https ://stackoverflow.com/questions/5540886/extract-text-from-doc-and-docx . Ich habe mich jahrelang nicht damit beschäftigt, aber ich würde wetten, dass es viele Tools für einen Microsoft-zentrierten Ansatz zum Arbeiten mit den Inhalten und Metadaten von .doc- und .docx-Dateien [und .xls .xlsx usw.] gibt. auch.

Bei OCR wird Ihre Situation dadurch erschwert, dass die Dateien handschriftlich sind. Wären sie alle getippt, gäbe es meiner Meinung nach leichter verfügbare Lösungen, die den Inhalt extrahieren könnten. Ich könnte mich irren, aber ich denke, mit handgeschriebenen und/oder gezeichneten Bildern würden Sie Metadaten auf die Dateien anwenden und das als gut bezeichnen müssen. Die mit diesem Ansatz verbundene Arbeit wäre selbst bei einem idealen Setup wahrscheinlich ziemlich zeitaufwändig, da die gesamte Hintergrundarbeit zum Einrichten einer Taxonomie und dergleichen den Weg für die Routinearbeit des Lesens der handgefertigten Dateien und der Entscheidung, wie sie kategorisiert werden, ebnen müsste , welche Tags anzuwenden sind und so weiter. Abgesehen von der Komplikation handgeschriebener Dateien scheint es zahlreiche Open-Source- und andere Projekte entlang der DIY-Route für einen OCR-Ansatz zu geben. Nuance scheint die führende zu sein,

Abgesehen davon, dass Evernote Premium die ganze Zeit über alles offline hält (womit offline gearbeitet werden kann), klingt das genau nach dem, wonach Sie suchen:

  • Suchen Sie in Office, PDF und sogar handschriftlichen gescannten Notizen
  • Kommentieren Sie PDFs usw. und suchen Sie nach Anmerkungen
  • Springen Sie direkt zu den Informationen
  • Clip aus dem Internet in Ihre Notizen
  • Visitenkarten scannen und digitalisieren
  • Erstellen Sie Präsentationen aus Ihren Notizen
  • Cross-Plattform einschließlich Handy.

Für Evernote-Pläne über dem Basic-Level fällt eine jährliche Lizenzgebühr an.