Programm zum Generieren einer CSV-Datei aus einem Bild, das eine Tabelle enthält

Ich suche ein Programm, das eine CSV-Datei aus einem gescannten Bild oder PDF mit einer Tabelle generieren kann

ZB wenn der Eingang ist

eine Tabelle mit drei Spalten

Die Ausgabe wäre die entsprechende CSV-Datei:

AIDS Behav, 9712133, 2016
AIDS Care, 8915313, 2016
AIDS Educ Prev, 9002873, 2016 
...

Und wenn möglich:

  • frei
  • funktioniert unter Windows 7
  • nimmt verschiedene Bildformate sowie PDF als Eingabe
Frank, Sie haben einen hohen Ruf bei SO und Ihr Top-Tag ist Python. Codieren Sie ein Python-Skript, um es mit OCR zu versehen, teilen Sie jede Zeile in Wörter auf und die letzten beiden Wörter sind NimId & Jahr hinzugefügt; alles davor ist die Zeitschriftenabkürzung. Es erscheint mir trivial. Ich weiß, dass die Zeit knapp ist und Sie eine Lösung von der Stange bevorzugen würden, aber ich vermute, dass Sie Ihre eigene rollen müssen :-/

Antworten (3)

Ich habe etwas Erstaunliches gefunden http://tabula.technology/ das ist das beste Werkzeug, das wir haben! Es ist auch kostenlos. Es funktioniert wirklich gut mit PDF-Dateien, aber sogar ziemlich gut mit wohlgeformten Tabellen wie oben, die Bilder sind.

Fantastische Benutzeroberfläche und großartig zu bedienen.

Es ist Open Source (MIT-Lizenz) und der Quellcode ist unter https://github.com/tabulapdf/tabula verfügbar

@mysusuf3 Haben Sie irgendwelche Ergebnisse ihrer Genauigkeit?
@TedTaylorofLife, wenn die Daten und der Text in PDF mit superhoher Genauigkeit codiert sind.

ABBYY FineReader leistet sehr gute Arbeit, wenn es um die optische Erkennung geht. Wahrscheinlich das Beste auf dem Markt. Und es kann neben vielen anderen Formaten auch in *.csv exportieren. Der Nachteil ist, dass es nicht kostenlos ist und diese spezielle Version nur unter Windows funktioniert .

Eine andere Version für macOS existiert , aber ihr fehlen viele Funktionen und sie ist insgesamt (subjektiv) langsamer als eine Version für Windows. Es ist auch bekannt, dass frühere Versionen von FineReader über Wine unter Linux funktionieren , obwohl sie auch ziemlich instabil sind.

Hier ist ein Programm-Screenshot mit Ihren Daten:

Geben Sie hier die Bildbeschreibung ein

Das ist das Ergebnis:

Journal Abbreviation,NlmlD,Y ear Added to MTIFL   
AIDS Behav,9712133,2016                           
AIDS Care,8915313,2016                            
AIDS Educ Prev,9002873,2016                       
AIDS Patient Care STDS,9607225,2016               
AJNR Am J Neuroradiol,8003708,2015                
ASAIO J,9204109,2016                              
Acad Emerg Med,9418450,2014                       
Acad Radiol,9440159,2016                          
Accid Anal Prev,1254476,2015                      
Acta Chir Iugosl,0372631,2015                     
Acta Clin Croat,9425483,2015                      
Acta Diabetol,9200299,2016                        
Acta Med Croatica,9208249,2015                    
Acta Med Iran,14540050R,2015                      
Acta Neurochir (Wien),0151000,2014                
Acta Neurol Scand,0370336,2015                    
Acta Odontol Scand,0370344,2015                   
Acta Psychol (Amst),0370366,2013                  
Acta Trop,0370374,2015                            
Adv Ther,8611864,2015                             
Ageing Res Rev,101128963,2016                     
Aging Clin Exp Res,101132995,2015                 
Aliment Pharmacol Ther,8707234,2014               
Am J Addict,9208821,2015                          
Am J Sports Med,7609541,2014                      

OCR selbst dauerte auf einem alten Thinkpad-Laptop etwa 5 Sekunden.

@TedTaylorofLife Version für MacOS existiert, aber ihr fehlen viele Funktionen ihres Windows-Gegenstücks, einschließlich Musterlernen des Benutzers und Wörterbuchunterstützung. Es hat sich auch unter Sierra aufgehängt und eingefroren und zeigt unter macOS eine insgesamt schlechtere Leistung. Wenn Sie andere Erfahrungen mit macOS mit FR gemacht haben, freue ich mich sehr für Sie, aber solange es nicht mein Fall war, habe ich mich entschieden, nicht zu behaupten, dass es unter macOS voll funktionsfähig ist.
@TedTaylorofLife Ich habe Ihnen ausdrücklich gesagt, dass dies zwei verschiedene Produkte sind, und wie es aussieht, haben Sie keines von beiden verwendet (außer der einen veralteten Version Ihres Fujitsu-Scanners), um ein richtiges Urteil zu fällen. Außerdem glaube ich, dass Sie auf der falschen Website sind. Dies ist kein 4chan, bei dem sich Leute gegenseitig mit der Feststelltaste beleidigen. Ihre Kommentare wurden gerade markiert.
Wenn es eine Version gibt, die auf MacOS läuft, dann ist die Aussage, dass sie nur auf Windows läuft, falsch. Wenn Sie klarstellen möchten, dass die MacOS-Version weniger leistungsfähig ist, dann sagen Sie das. Sie haben jedoch eine falsche Aussage fett gedruckt. Sich auf die Kommentare zu verlassen, um Ihre Antwort zu korrigieren, ist nicht ausreichend.
Ich habe die relevanten Informationen zur Unterstützung von macOS und Linux für Sie beide, meine Herren, hinzugefügt. Und es gab keine falsche Aussage. Ich habe eine Version verwendet, die nur auf der Windows-Plattform existiert. Hoffentlich war dies für Sie beide lehrreich.

Methode

Ich habe Ihr Bild genommen, das Sie gepostet haben, und es mit meinem Scansnap ix500-Scanner ausgeführt. (Kaufen Sie ältere Scanner auf Craigslist für weniger als 200 Dollar und erhalten Sie Software-Updates von abyys)

Betriebssystem

Nicht Windows 10, sondern Windows 7

Software

Nicht kostenlos, aber es hat Abby Reader 5.0, der mit dem Scanner geliefert wurdeScansnap Abby Reader für Excel

Ergebnisse

Ich habe auf die Scan-Schaltfläche und dann auf Abby Scan to Excel geklickt, und es wurde eine .xls-Datei generiert, nicht wie angefordert eine CSV-Datei.Abby Fine Reader-Ergebnisse Journal Abbreviation NlmlD Year Added to MTIFL AIDS Behav 9712133 2016 AIDS Care 8915313 2016 AIDS Educ Prev 9002873 2016 AIDS Patient Care STDS 9607225 2016 AJNR Am J Neuroradiol 8003708 2015 ASAIOJ 9204109 2016 Acad Emerg Med 9418450 2014 Acad Radiol 9440159 2016 Accid Anal Prev 1254476 2015 Acta Chir Iugosl 0372631 2015 Acta Clin Croat 9425483 2015 Acta Diabetol 9200299 2016 Acta Med Croatica 9208249 2015 Acta Med Iran 14540050R 2015 Acta Neurochir (Wien) 0151000 2014 Acta Neurol Scand 0370336 2015 Acta Odontol Scand 0370344 2015 Acta Psychol (Amst) 0370366 2013 Acta Trop 0370374 2015 Adv Ther 8611864 2015 Ageing Res Rev 101128963 2016 Aging Clin Exp Res 101132995 2015 Aliment Pharmacol Ther 8707234 2014 Am J Addict 9208821 2015 Am J Sports Med 7609541 2014

Alternativen

ABBYY FineReader Engine für Windows

ABBYY FineReader Engine für Windows

Vorteile 1. Funktioniert unter Windows Nachteile 1. Nicht kostenlos 2. Setup, möglicherweise nicht trivial

ABBYY FineReader Engine für Windows

Alternative Nummer 2

Google Vision OCR-API

Nachteile akzeptiert keine PDFs

Methode

Speichern Sie Ihr Bild als .png und haben Sie es getestet und diese Ergebnisse erhalten

Betriebssystem

Funktioniert auf jedem Betriebssystem.

Benutzerfreundlichkeit

Nicht trivial, kann aber eine CSV-Ausgabe erhalten

Ergebnisse

OCR-API-Ergebnisse “ Journal Abbreviation [AIDS Behav [AIDS Care [AIDS Educ Prev [AIDS Patient Care STDS [AJNR Am J Neuroradiol [ASAIO J [Acad Emerg Med [Acad Radiol [Accid Prev [Acta Chir lugosl [Acta Clin Croat [Acta Diabetol [Acta Med Croatica [Acta Med Iran [Acta Neurochir (Wien) [Acta Neurol Scand [Acta Odontol Scand [Acta Psychol (Amst) [Acta Trop [Adv Ther [Ageing Res Rev i [Aging Clin Exp Res [Aliment Pharmacol Ther [Am J Addict [Am J Sports Med i i i NImlD 9712133 8915313 9002873 9607225 8003708 9204109 9418450 9440159 1254476 0372631 9425483 9200299 9208249 1454005OR 0151000 0370336 0370344 0370366 0370374 8611864 101128963 101132995 8707234 9208821 7609541 Year Added to MTIFL O 2016 O 2016 O 2016 O 2016 O 2015 O 2016 O 2014 2016 O 2015 O 2015 O 2015 O 2016 O 2015 O 2015 O 2014 2015 O 2015 O 2013 O 2015 O 2015 O 2016 O 2015 O 2014 2015 O 2014 O ”

Ich hoffe, Sie wissen, wofür CSV steht. Weil keine Ihrer Ausgaben CSV enthält. Und dass das Kopieren der Antworten anderer kein guter Schachzug ist.
Wenn Sie etwas verlinken, lesen Sie es unbedingt durch. Mir ist bewusst, dass das von mir gepostete Format keine standardisierten CSVs sind. Der Typ promoviert am MIT, ich bin mir ziemlich sicher, dass er es herausfinden kann. Außerdem gibt die Vision-API die Ausgabe in einer JSON-Datei oder CSV zurück. Das Posten von CSV auf SE ist nicht so einfach. Nur eine Info von dem Link, den Sie gepostet haben. „Das CSV-Dateiformat ist nicht standardisiert. Die Grundidee, Felder mit einem Komma zu trennen, ist klar, aber diese Idee wird kompliziert, wenn die Felddaten auch Kommas oder sogar eingebettete Zeilenumbrüche enthalten können.“