Hallo Community,
ich hoffe, dass der Thread-Titel schon deutlich macht, worum es mir geht.
Ich kämpfe nämlich des Öfteren mit PDFs, Fotos, Bildschirmanzeigen, Webseiten und würde gerne den dargestellten Inhalt 'vom Bildschirm kratzen' ("ScreenScraping"), z.B. aus einer dargestellten Tabelle eine Excel-Tabelle, von einem 'Prosa-Text' ein Word-Dokument machen, aus einem dargestellten Formular die relevanten Feldinhalte herauslesen
Gibt es einfach anzuwendende Tools, die das beherrschen ?
Ich habe den Eindruck, dass es immer kompliziert, fehleranfällig oder teuer wird, wenn OCR in's Spiel kommt
... ok, das ist nachvollziehbar, ...
... aber evtl. gibt es ja doch 'schlanke' Tools oder bereits vorhandene Funktionen in gängigen, vorhandenen Produkten (MS-Office, Acrobat Reader, PDF-XChange etc.
Das Tool "iLovePDF" macht einen guten Eindruck, erfordert aber leider ein Abo bei der OCR-Funktion (... und versteckt die Preisinformationen bis kurz vor dem Bezahlen-Button, was ich so gar nicht mag)
Ich erinnere mich an uuuralte Tools im vorherigen Jahrtausend, die schon damals das ScreenScraping beherrschten
Apropos,
ich gehe davon aus, dass "Grundsteuer-Digital" diese Funktion auch intensiv genutzt hat,
in Ermangelung von anderen Schnittstellen
Keine Ahnung ob mein Nitro was ich im Einsatz habe das kann.
Nitro kann in word / excel konvertieren. Nitro hat eine OCR Texterkennung, so das ähnlich wie bei Adobe pdf's bearbeitbar sind oder auch ausfüllbare pdf generiert werden können.
Nitro ist zur Abwechslung nicht im ABo Bereich sondern gegen Einmalzahlung erhältlich. Nach meiner Erfahrung hält eine Lizenz dann auch so 4-5 Jahre bis der update Service dann irgendwann eingestellt ist und man eine neue Lizenz erwerben muss.
Im WP-Bereich wird dafür Datasnipper als Excel-Addin eingesetzt: DataSnipper - Intelligent Automation Platform
Finde ich als Tool mit viel Potenzial. Kostet natürlich.
@merchantofdoubt schrieb:
[...] Kostet natürlich [...]
... und das 'nicht zu knapp'
... scheint aber Einiges an professionellen Funktionen zu bieten ...
... z.B. anscheinend auch Hyperlinks zu gematchten Dokumenten u.a. möglich
... die monatliche Gebühr ist mir allerdings zu hoch
... und meiner Meinung nach sollte es eine (meinetwegen eingeschränkte) Test- oder Demoversion geben, ohne dass man gleich Kreditkartendaten eingeben muss.
(das Werbevideo von der Website taugt leider nicht mehr als die Waschmittel-Werbung im TV)
Sowas riecht immer nach Ärger, falls man nach 14 Tagen Testzeit doch nicht verlängern möchte
"Nitro" werde ich mir auch mal anschauen ...
... klingt jedenfalls 'explosiv' und/oder 'giftig'
Das dürfte inzwischen ein Fall für die KI sein. Meine App ChatBox AI hat mir zumindest angeboten, dass sie mir ein PDF in Text überführt.
Und zum Preis: https://www.forbes.com/sites/marketshare/2012/03/05/if-youre-not-paying-for-it-you-become-the-product/
... hoppla, wird man dann zum Produkt oder erhält man das Produkt ?
... klingt gefäääährlich 😮
@rahagena schrieb:Das dürfte inzwischen ein Fall für die KI sein. Meine App ChatBox AI hat mir zumindest angeboten, dass sie mir ein PDF in Text überführt.
... PDFs zu konvertieren, scheint keine große Herausforderung zu sein.
Ich habe z.B. eine eigene Excel-Tabelle in ein PDF gedruckt, und das Tool "iLovePDF" hat aus dieser PDF wieder eine Excel-Datei gemacht, die identisch aussieht, inkl. Textformaten, farbigen Markierungen etc
Eine größere Herausforderung sind wahrscheinlich JPGs, PNGs, TIFFs etc
@vogtsburger schrieb:
... hoppla, wird man dann zum Produkt oder erhält man das Produkt ?
... klingt gefäääährlich 😮
Man wird das Produkt, denn alle Anbieter wollen am Ende Geld für ihren Aufwand haben.
Wenn es für den vermeintlichen Kunden (dauerhaft) "umsonst" ist, dann muss der Anbieter das Geld anders verdienen. Entweder kommt die Bepreisung nach Verbreitung des Tools oder es wird Geld mit dem gemacht, was da ist und das sind die Kundendaten.
Ich hatte da mal mit Tesseract ganz gute Erfahrungen gemacht.
... wirkt im Moment noch ziemlich 'experimentell' und 'sperrig'
... aber vielleicht finde ich noch den 'magischen Klick' 😉
.\tesseract.exe <LW>:\<Pfad>\<zum>\Testbild.jpg <LW>:\<Pfad>\<zum>\Testoutput -l deu txt pdf
Würde bspw. aus Testbild.jpg die Dateien Testoutput.txt und Testoutput.pdf erstellen.
unter windows 11 gibts OCR inzwischen wie auf dem iPhone. Screenshot (unter windows aka snipping tool) machen und Text markieren - kopieren etc. Tabellen wird aber schwer. Datevs toller Dokumentenkorb kann das angeblich auch, aber wenn man die "STRG" funktion nutzt kommt da meist Quatsch raus.
@janm ,
... habe ein paar Tests gemacht, mit Screenshots vom Bildschirm
Das Tool liest 'guten' ('scharfen') Text sehr schnell und anscheinend meist fehlerfrei aus einer JPG-Datei aus, kann aber offenbar mit Text in Spalten und mit tabellarischen Darstellungen (Text und/oder Zahlen) nicht umgehen
Das Ergebnis ist nämlich ein 'Kraut-und-Rüben-Salat' aus Text-Schnipseln, Zahlen und einzelnen Ziffern
... schade ...
Das Tool wäre vermutlich für 'Leseratten' geeignet, die einen dicken, alten Schinken digitalisieren wollen und z.B. tollkühn alle Seiten von Tollkiens "Herr Der Ringe" abfotografieren und sie per OCR digitalisieren wollen 😂
... zum Glück habe ich das nicht vor. Mich interessieren hauptsächlich Texte und Tabellen auf Bildschirmen und in Zeitschriften, die man sonst nirgends in digitalisierter Form findet
... aber das bringt mich auf eine neue Idee:
vielleicht kann ich das Tool dafür verwenden, um abfotografierte Zählerstände per Batchdatei aus einer längeren Liste von Fotos (JPGs) auszulesen.
... wenn die Anwendung eines Kommandozeilen-Tools schon so sperrig ist, muss man wenigstens auch mal dessen Vorteile nutzen (können), nämlich die Möglichkeiten der Batchverarbeitung und der Parameterübergabe
... witzigerweise liest das Tool einige Texte korrekt aus einem Foto eines Gaszählers aus, aber leider nicht den Wert, um den es eigentlich geht, nämlich den Zählerstand
... aber noch ist nicht aller Tage Abend ...
Ich probiere es mal mit anderen Zählern
... leider auch kein verwendbares Ergebnis mit einem Wärmeenergie-Zähler
... schade ...
... aber das Grundprinzip der Batchverarbeitung gefällt mir. Es fehlt nur noch das richtige Tool oder evtl. bloß die richtigen Parameter
evtl hilft es, wenn ich auf den Zählern alles Überflüssige abdecke