Ich habe viele PDF-Dateien, die ich in meine Buchhaltungssoftware importieren muss. Die Buchhaltungssoftware unterstützt UBL/XML - Rechnungen ( Muster ).
Ich suche ein Tool (Software, Skript etc.) oder einen Service, um meine Rechnungen in dieses Format zu konvertieren. Vorzugsweise ist es ein Software-Tool, das kostenlos oder einmalig zu kaufen ist.
Weitere Informationen zu UBL auf Wikipedia
Ich kenne Chimpkey bereits (sie scheinen inaktiv zu sein) . Und ich suche nach mehr, damit ich einen Vergleich machen kann.
Die Rechnungen sind alle unterschiedlich mit verschiedenen Layouts, aber hier ist ein Beispiel:
Die Datenextraktion aus PDFs ist nicht unbedingt eine triviale Lösung; Es ist jedoch ein guter Zeitpunkt, um dieses Problem zu haben, da es einige Optionen gibt, die darauf basieren, welcher "Typ" von Benutzer Sie sind. Das wahrscheinlich beste Gesamtsoftwarepaket (das ich zuvor mit großem Erfolg verwendet habe) ist Tabula:
http://tabula.technology/
... es ist Open Source und ich bin ein Full-Stack-Typ; Aus der Sicht eines Entwicklers ist es also großartig (und auch für Nicht-Entwickler leicht im Steuerhaus zu haben). Mit Tabula können Sie diese Daten mithilfe einer einfachen, benutzerfreundlichen Oberfläche in eine CSV- oder Microsoft Excel-Tabelle extrahieren. Von dort aus ist es trivial, es entweder mit Microsoft Office oder Libre Office ... (sowie mit einer Vielzahl von Online-Tools) in XML zu exportieren. Obwohl, da Sie erwähnt haben, dass es sich um eine Buchhaltungssoftware handelt; Alle Buchhaltungsprogramme, mit denen ich je gearbeitet habe, ermöglichen Ihnen den direkten Import aus einer CSV-Datei.
Manchmal möchten die Leute jedoch eine Lösung mit "Unterstützung", dh einer kommerziellen Anwendung ... Hier ist meine Empfehlung:
https://pdftables.com/
Schließlich, wenn Sie mehr "Kontrolle" über den Fluss wünschen; Sie können jederzeit versuchen, Ihre eigene "Lösung" zu erstellen, indem Sie ein paar verschiedene Open-Source-Elemente kombinieren:
http://www.unixuser.org/~euske/python/pdfminer/
https://poppler.freedesktop.org/
http://www.pdfparser.org/
http://www.foolabs.com/xpdf/portsntools.html
Es gibt eine Firma namens Conexiom, die einen Service anbietet , der das tut, was Sie verlangen. Sie können Rechnungen und Bestellungen in jede gewünschte Datei konvertieren. Siehe www.conexiom.com.
Wie in der Antwort von George ausgeführt, ist das Extrahieren von Daten aus PDF-Dateien keine triviale Lösung. Dies liegt daran, dass die PDF-Spezifikation kein syntaktisches Markup wie HTML bietet (z. B. , , ...). Dies macht es für Softwareprodukte schwierig, die Daten zu „verstehen“.
Die von George erwähnten Tools (Tabula.technology, pdftables.com, ...) sind sicherlich großartige Tools, um Tabellen aus einzelnen Dateien zu extrahieren. Sie werden Ihnen jedoch nicht helfen, falls Sie einen vollautomatischen Prozess wünschen, der PDF in UBL/XML konvertiert.
Ich bin der Gründer von Docparser und wir tun genau das, wonach Sie suchen. Außerdem haben wir gerade einen Artikel über UBL und automatisierte Rechnungsverarbeitung veröffentlicht . Ich hoffe, dies hilft, die zu unternehmenden Schritte zu verdeutlichen. Gerne führe ich Sie durch unsere kostenlose Testversion.
Nikolaus Raul
Akif
Nikolaus Raul
Akif
Steve Barnes
Akif