webentwicklung-frage-antwort-db.com.de

Wie kann man wissen, ob a PDF enthält nur Bilder oder wurde OCR für die Suche gescannt?

Ich habe eine Reihe von PDF Dateien, die von gescannten Dokumenten stammen. Die Dateien enthalten eine Mischung aus Bildern und Text. Einige wurden als Bilder ohne OCR gescannt, sodass jede PDF - Seite ein großes Bild ist, auch wenn die gesamte Seite aus Text besteht. Andere wurden mit OCR gescannt und enthalten Bilder und durchsuchbaren Text, wenn Text vorhanden ist. In vielen Fällen wurden sogar Wörter in den Bildern durchsuchbar gemacht.

Ich möchte mit Acrobat 8 ​​Pro einen automatisierten Prozess ausführen, um den Text in allen gescannten Dokumenten mithilfe von OCR zu erkennen, aber ich möchte die Dateien, die in der Vergangenheit bereits den OCR-Prozess durchlaufen haben, nicht erneut mit OCR kennzeichnen. Weiß jemand, ob es eine Möglichkeit gibt, festzustellen, welche nur Bilder enthalten und welche bereits durchsuchbaren Text enthalten?

Ich habe vor, dies in C # oder VB.NET zu tun, aber ich denke nicht, dass es sprachabhängig ist, die beiden Arten von Dateien auseinander zu halten.

21
Bratch

Gescannte Bilder, die nach der Textsuche in PDF konvertiert wurden, enthalten normalerweise die als "unsichtbar" wiedergegebenen Textteile. Was Sie also auf dem Bildschirm sehen (oder beim Drucken auf Papier), ist immer noch das Originalbild. Aber wenn SieSucheerfolgreich sind, werden die Treffer hervorgehoben, die sich auf dem unsichtbaren Text befinden.

Ich empfehle Ihnen, sich die von XPDF abgeleiteten Befehlszeilentools pdffonts(.exe), pdfinfo(.exe) und pdftotext(.exe) anzusehen. Downloads finden Sie hier: http://www.foolabs.com/xpdf/download.html

Beispiel für die Verwendung von pdffonts:

C:\downloads\> pdffonts Cisco-ip-phone-7911-guide6.1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique          Type 1C           yes yes no   13171  0
LGOKGM+Univers-Black                 Type 1C           yes yes no   13172  0
[....]

In diesem PDF werden Schriftarten verwendet (angezeigt durch die Spalte "Name"), eingebettet (angezeigt durch das "Ja" in der Spalte "Einbetten") und untergeordnete Schriftarten verwendet (angezeigt durch das "Ja" in der Spalte "Einbetten") untergeordnete Spalte).

C:\downloads\> pdffonts examle1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique                 Type 1C           yes no  no   14    0
Arial                                TrueType          no  no  no   15    0

Dieses PDF verwendet 2 Schriftarten (angegeben durch die Spalte 'Name'). Die Schrift 'Universe-BlackOblique' ist vollständig eingebettet (angezeigt durch 'yes' in der 'emb'-Spalte und' no 'in der' sub'-Spalte). Die Schriftart 'Arial' wird ebenfalls verwendet, ist jedoch nicht eingebettet.

C:\downloads\> pdffonts examle2.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------

Dieses PDF verwendet keine einzige Schriftart und enthält daher keinen eingebetteten Text (also auch keine OCR).

Beispiel für die Verwendung von pdftotext:

C:\downloads\> pdftotext ^
                   -layout ^
                   Cisco-ip-phone-7911-guide6.1.pdf ^
                   Cisco-ip-phone-7911-guide6.1.txt

Dadurch werden alle Textzeichenfolgen aus dem PDF extrahiert (wobei versucht wird, eine gewisse Ähnlichkeit mit dem ursprünglichen Layout beizubehalten). Wenn das PDF keinen Text enthält, wissen Sie, dass keine Texterkennung vorhanden ist ...

20
Kurt Pfeifle

Verschiedene PDF Tools können Ihnen mitteilen, ob Text vorhanden ist. Einige sind als COM-Steuerelemente und möglicherweise sogar als native .NET-Steuerelemente verfügbar.

3
Steven Sudit

Öffnen Sie das Dokument in Acrobat. Gehen Sie zu Datei -> Eigenschaften. Schauen Sie in den Abschnitt "Erweitert" und suchen Sie den PDF -Produzenten. Wenn es so etwas wie "Paper Capture ..." liest, wurde es mit OCR versehen.

Hoffe das hilft.

1
Bob

Apagos pdfspy extrahiert Informationen aus PDF in eine XML-Datei. Es enthält Informationen zum Dokument, einschließlich Bilder und Text. Zu den nützlichen Informationen für Ihr Projekt gehören die Anzahl und Größe der Bilder sowie die Position von OCR-Text (versteckt).

http://www.apagoinc.com/pdfspy

0
Dwight Kelly

Tut mir leid, alten Thread ausgraben zu müssen, aber wenn du dies gefunden hast, schau in meinen Thread

Stapel-OCR-Programm für PDFs

sie können zusätzliche Informationen über das PDF erhalten, indem Sie es in Unix/Linux/OSX catting oder als "rb" -Modus in Python öffnen. (Natürlich ist das Python und du wolltest das nicht benutzen, aber vielleicht hat es etwas Äquivalentes).

0