Konvertierungstool für PDF-Rechnungen in UBL/XML-Rechnungen

Ich habe viele PDF-Dateien, die ich in meine Buchhaltungssoftware importieren muss. Die Buchhaltungssoftware unterstützt UBL/XML - Rechnungen ( Muster ).

Ich suche ein Tool (Software, Skript etc.) oder einen Service, um meine Rechnungen in dieses Format zu konvertieren. Vorzugsweise ist es ein Software-Tool, das kostenlos oder einmalig zu kaufen ist.

Weitere Informationen zu UBL auf Wikipedia

Ich kenne Chimpkey bereits (sie scheinen inaktiv zu sein) . Und ich suche nach mehr, damit ich einen Vergleich machen kann.

Die Rechnungen sind alle unterschiedlich mit verschiedenen Layouts, aber hier ist ein Beispiel:Beispielrechnung

Würde es Ihnen etwas ausmachen, Ihrer Frage eine Beispiel-PDF-Rechnung (als Bild) beizufügen? (mit falschem Namen/Adresse/Betrag) Und idealerweise die resultierende UBL/XML, die Sie erwarten.
Die Rechnungen sind alle unterschiedlich, ist es relevant, eine zu buchen? Wenn ja, nehme ich eines von Google-Bildern. Was die Ausgabe betrifft, dachte ich, UBL sei ein Standard für den Austausch von Rechnungen. Es sollte also den Standards entsprechen. Ich habe keine Spezifikationen, außer dass es UBL erfüllen sollte.
Ja, eines von Google Images ist in Ordnung. Um Missverständnisse zu vermeiden.
Habe gerade eins hinzugefügt.
Das Problem ist, wie Sie sagen, dass jedes Unternehmen seine eigenen Layouts hat - das macht es problematisch.
Das ist ein Problem, das durch Software mit Vorlagen perfekt lösbar wäre, oder? Die Sache ist, dass ich mir sicher bin, dass ich nicht der einzige auf dem Planeten bin, der das will. Also denke ich, dass es Lösungen geben muss.

Antworten (3)

Die Datenextraktion aus PDFs ist nicht unbedingt eine triviale Lösung; Es ist jedoch ein guter Zeitpunkt, um dieses Problem zu haben, da es einige Optionen gibt, die darauf basieren, welcher "Typ" von Benutzer Sie sind. Das wahrscheinlich beste Gesamtsoftwarepaket (das ich zuvor mit großem Erfolg verwendet habe) ist Tabula:

http://tabula.technology/

... es ist Open Source und ich bin ein Full-Stack-Typ; Aus der Sicht eines Entwicklers ist es also großartig (und auch für Nicht-Entwickler leicht im Steuerhaus zu haben). Mit Tabula können Sie diese Daten mithilfe einer einfachen, benutzerfreundlichen Oberfläche in eine CSV- oder Microsoft Excel-Tabelle extrahieren. Von dort aus ist es trivial, es entweder mit Microsoft Office oder Libre Office ... (sowie mit einer Vielzahl von Online-Tools) in XML zu exportieren. Obwohl, da Sie erwähnt haben, dass es sich um eine Buchhaltungssoftware handelt; Alle Buchhaltungsprogramme, mit denen ich je gearbeitet habe, ermöglichen Ihnen den direkten Import aus einer CSV-Datei.

Manchmal möchten die Leute jedoch eine Lösung mit "Unterstützung", dh einer kommerziellen Anwendung ... Hier ist meine Empfehlung:

https://pdftables.com/

Schließlich, wenn Sie mehr "Kontrolle" über den Fluss wünschen; Sie können jederzeit versuchen, Ihre eigene "Lösung" zu erstellen, indem Sie ein paar verschiedene Open-Source-Elemente kombinieren:

http://www.unixuser.org/~euske/python/pdfminer/
https://poppler.freedesktop.org/
http://www.pdfparser.org/
http://www.foolabs.com/xpdf/portsntools.html
Ich komme gleich wieder und bereinige/erweitere diese Antwort, aber ich muss die Kinder abholen. :-)
Ich habe es nicht abgelehnt. Aber es scheint, dass sich Ihre Tools hauptsächlich auf OCR konzentrieren. Ich suche nach einer Lösung, die UBL/XML generiert, die direkt von meiner Buchhaltungssoftware gelesen werden können. Natürlich will ich nicht selber codieren.
@Akif Danke für das Feedback ... Ich bin mir nicht sicher, wer abgelehnt hat oder warum? ... (Vielleicht posten sie einen Kommentar?) Aber ich bin mir nicht sicher, warum Sie denken, dass sie sich auf OCR konzentrieren, wenn a viele von ihnen machen überhaupt keine OCR? Zum Beispiel kann meine erste Wahl, Tabula, keine Daten aus bildbasierten PDFs extrahieren. Würden Sie das näher erläutern?
@Akif Vielleicht hast du meinen letzten Kommentar verpasst?
Welche dieser Lösungen generiert tatsächlich eine UBL/XML-Ausgabe? Vielleicht mache ich etwas falsch oder es fehlen Details...?
@Akif Ich habe gerade meine Antwort aktualisiert ... die erste Wahl, Tabula, geht an CSV/Excel; Von dort aus ist es einfach, zu XML zu gelangen. Da Sie uns jedoch nicht mitgeteilt haben, welche Buchhaltungssoftware Sie verwenden, kann ich das nicht mit Sicherheit sagen. Ich wäre jedoch sehr überrascht, wenn Daten nicht direkt aus einer CSV-Datei eingegeben werden können. Wenn Sie kein Programmierer sind, würde ich Ihnen auf jeden Fall empfehlen, mit Tabula zu beginnen.

Es gibt eine Firma namens Conexiom, die einen Service anbietet , der das tut, was Sie verlangen. Sie können Rechnungen und Bestellungen in jede gewünschte Datei konvertieren. Siehe www.conexiom.com.

Vielleicht ja, aber diese Seite ist für Software-Empfehlungen gedacht, nicht für professionelle Dienstleistungen.
Die Person wusste von Chimpkey und wollte eine Alternative. Chimpkey ist auch ein Dienst.

Wie in der Antwort von George ausgeführt, ist das Extrahieren von Daten aus PDF-Dateien keine triviale Lösung. Dies liegt daran, dass die PDF-Spezifikation kein syntaktisches Markup wie HTML bietet (z. B. , , ...). Dies macht es für Softwareprodukte schwierig, die Daten zu „verstehen“.

Die von George erwähnten Tools (Tabula.technology, pdftables.com, ...) sind sicherlich großartige Tools, um Tabellen aus einzelnen Dateien zu extrahieren. Sie werden Ihnen jedoch nicht helfen, falls Sie einen vollautomatischen Prozess wünschen, der PDF in UBL/XML konvertiert.

Ich bin der Gründer von Docparser und wir tun genau das, wonach Sie suchen. Außerdem haben wir gerade einen Artikel über UBL und automatisierte Rechnungsverarbeitung veröffentlicht . Ich hoffe, dies hilft, die zu unternehmenden Schritte zu verdeutlichen. Gerne führe ich Sie durch unsere kostenlose Testversion.