Ich bin ein Ingenieur, der an einem Projekt arbeitet, und ich habe eine Menge Dokumente zu bearbeiten. Auch wenn diese Dokumente nach Themen und Daten geordnet sind, brauche ich immer mehr Zeit, um die gesuchten Informationen zu finden. Ich hoffe, dass einige Software ( offline arbeiten ) helfen kann.
Meine Unterlagen sind:
Wenn ich diese Dokumente lese, möchte ich Notizen machen (interessante Ideen, potenzielle Probleme, Grafikextraktion, numerische Werte, ...), während ich eine gewisse Beziehung zwischen einer Notiz und den Dokumenten, aus denen sie stammt, aufrechterhält (URL und Seitenzahl einer PDF zum Beispiel), wenn ich also auf diesen Link klicke, öffnet sich das Dokument an der richtigen Stelle.
Die „ideale“ Software (Linux und/oder Windows, kostenlos oder nicht) kann:
PS: Ich habe Software wie OneNote, CintaNotes oder DtSearch gefunden und versuche immer noch herauszufinden, ob eine Kombination davon funktioniert, bisher kein Erfolg ...
Nachdem Sie im Content- und Wissensmanagement gearbeitet haben, ist der erste Ansatz nur gültig, wenn es sich um ein größeres, sehr gut finanziertes Projekt handelt, dh um ein COTS-Produkt zu identifizieren, das viele Ihrer Anforderungen sofort erfüllt. Es ist oft zusätzliche Arbeit erforderlich, um von beispielsweise 75 % Ihrer Anforderungen näher an 100 % zu kommen. Oft ist diese zusätzliche Arbeit alles andere als trivial. Zu den potenziellen Anbietern gehören diejenigen, die in das Parsen von PDF-, Word- und möglicherweise OCR-Dateien und das anschließende Speichern der Inhalte in einer Datenbank investiert haben. Häufig wird auch das Taggen und Strukturieren der Inhalte mittels XML angeboten. Astera und Kapow [ein Unternehmen von Lexmark] sind zwei Anbieter, die eine solche Lösung für sehr große [Unternehmens-]Unternehmen anbieten.
Häufiger findet man Tools und DIY-Lösungen, die die Dateien importieren, ohne sie in eine SQL-Datenbank zu analysieren - aber nach dem, was ich hier verstehe, ist das nicht das, wonach Sie gesucht haben.
Ein zweiter Ansatz ist die DIY-Route, die vielleicht nicht viel oder kein Geld aus eigener Tasche kostet, aber sicherlich eine Investition von Zeit und Energie erfordert. PHP hat zum Beispiel PDFlib, das verwendet werden kann, um das zu tun, was Sie für PDF-Dateien benötigen. Dieser Link http://www.php.net/manual/en/ref.pdf.php kann bei der Untersuchung dieses speziellen Ansatzes hilfreich sein. Ich schätze, Sie könnten PHP-Skripte finden, die die Arbeit der Implementierung von PDFlib bereits erledigt haben und die Sie möglicherweise unverändert oder mit einigen geringfügigen Änderungen verwenden können.
Wenn es um die Arbeit mit dem Inhalt von .doc- und .docx-Dateien geht, scheint es viele Lösungen mit verschiedenen Tools zu geben. Dieser Link enthält viele Empfehlungen https://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix und dies ist ein Thread, der sich auf einen PHP-Ansatz konzentriert https ://stackoverflow.com/questions/5540886/extract-text-from-doc-and-docx . Ich habe mich jahrelang nicht damit beschäftigt, aber ich würde wetten, dass es viele Tools für einen Microsoft-zentrierten Ansatz zum Arbeiten mit den Inhalten und Metadaten von .doc- und .docx-Dateien [und .xls .xlsx usw.] gibt. auch.
Bei OCR wird Ihre Situation dadurch erschwert, dass die Dateien handschriftlich sind. Wären sie alle getippt, gäbe es meiner Meinung nach leichter verfügbare Lösungen, die den Inhalt extrahieren könnten. Ich könnte mich irren, aber ich denke, mit handgeschriebenen und/oder gezeichneten Bildern würden Sie Metadaten auf die Dateien anwenden und das als gut bezeichnen müssen. Die mit diesem Ansatz verbundene Arbeit wäre selbst bei einem idealen Setup wahrscheinlich ziemlich zeitaufwändig, da die gesamte Hintergrundarbeit zum Einrichten einer Taxonomie und dergleichen den Weg für die Routinearbeit des Lesens der handgefertigten Dateien und der Entscheidung, wie sie kategorisiert werden, ebnen müsste , welche Tags anzuwenden sind und so weiter. Abgesehen von der Komplikation handgeschriebener Dateien scheint es zahlreiche Open-Source- und andere Projekte entlang der DIY-Route für einen OCR-Ansatz zu geben. Nuance scheint die führende zu sein,
Abgesehen davon, dass Evernote Premium die ganze Zeit über alles offline hält (womit offline gearbeitet werden kann), klingt das genau nach dem, wonach Sie suchen:
Für Evernote-Pläne über dem Basic-Level fällt eine jährliche Lizenzgebühr an.
mann207
Olivier
Olivier
yms