Navigation: Administrator-Handbuch (Scan2x-Konfiguration) > Definition eines Scan-Auftrags > Registerkarte „Metadaten“ > OCR-Zonen  >

Bewährte Methoden für die Definition der OCR-Zone

 

 

 

 

Bewährte Methoden für die Definition der OCR-Zone

 

 

 

-Beachten Sie, dass Papierdokumente beim normalen Scannen nie in genau derselben Position in den Scanner eingeführt werden wie beim Scannen der Dokumentvorlage. Aus diesem Grund ist die Zonen-OCR wesentlich zuverlässiger, wenn Sie beim Zeichnen des Felds einen leeren Rand um die zu lesende Zone einbeziehen, um eine gewisse Abweichung zuzulassen.

-Wenn Ihr Dokument vorgedruckte Felder enthält, sollten Sie versuchen, keine vertikalen Linien in die von OCR zu lesende Zone aufzunehmen, da diese als Buchstaben oder Zahlen interpretiert werden können.

-Die OCR-Standardfunktion von Scan2x arbeitet zuverlässiger, wenn ein größerer Textbereich erkannt werden soll und nicht nur ein paar Buchstaben. Beispiel: Um die Rechnungsnummer im rechts abgebildeten Dokument mit OCR zu erfassen, zeichnen Sie das Feld wie abgebildet. Damit erhält die OCR-Engine genügend Zeichen für die Erfassung. Gleichzeitig ist das Feld klein genug, sodass der Gesamtprozess nicht zu sehr verlangsamt wird. Genauere Informationen dazu, wie Sie die Rechnungsnummer innerhalb des Texts erfassen, finden Sie im folgenden Abschnitt.

 

 

 

Wenn Sie ein Metadatenfeld mit einer OCR-Zone verknüpft haben, können Sie die Ergebnisse, die Sie durch den OCR-Prozess erzielen wollen, genauer bestimmen, indem Sie eine der folgenden Optionen in der Dropdown-Liste (siehe Kreis oben) auswählen:

 

Option

Beschreibung

Generic (Default) [Allgemein (Standard)]

Bei der Einstellung „Generic“ (Allgemein) wird der gesamte vom OCR-Prozess generierte Text akzeptiert.

Text Only (Nur Text)

Diese Option legt fest, dass Text erwartet wird. Die Funktion ersetzt daher ggf. Ziffern durch Buchstaben, um Genauigkeit sicherzustellen. Diese Ersetzungen umfassen: „L“, wenn „1“ gelesen wird, „b“, wenn „6“ gelesen wird, „B“, wenn „8“ gelesen wird, und „P“, wenn „9“ gelesen wird.

Numbers Only (Nur Zahlen)

Diese Option legt fest, dass nur Ziffern erwartet werden. Die Funktion ersetzt daher ggf. Buchstaben durch Ziffern, um Genauigkeit sicherzustellen. Diese Ersetzungen umfassen: „1“, wenn „L“ gelesen wird, „6“, wenn „b“ gelesen wird, „8“, wenn „B“ gelesen wird, und „9“, wenn „P“ gelesen wird.

Decimals (Dezimalwerte)

Mit dieser Option weisen Sie Scan2x an, den Punkt („.“) und das Komma („,“) nicht aus dem erfassten Text zu entfernen.

Handwriting (Handschrift)

Wenn die iDRS OCR-Engine verwendet wird, können Sie diese Option wählen, um die Handschrift-Erkennung zu aktivieren. Bitte lesen Sie die folgenden zusätzlichen Leitlinien, bevor Sie diese Funktion zur Handschrift-Erkennung verwenden.

Handwriting (Boxed) [Handschrift (in Feldern)]

Wenn die iDRS OCR-Engine verwendet wird, können Sie mit dieser Option das Erkennen von Handschrift in Feldern aktivieren. Dies ist Text, der in Druckschrift in vorgedruckte Felder auf einem Formular eingegeben wurde. Bitte lesen Sie die folgenden zusätzlichen Leitlinien, bevor Sie diese Funktion zur Handschrift-Erkennung verwenden.

Barcode

Wenn eine Zone um einen Barcode gezeichnet wird, wird der betreffende Barcode ausgewertet.

QR-Code

Wenn eine Zone um einen QR-Code gezeichnet wird, wird der betreffende QR-Code ausgewertet.

Barcode or QR Code (Barcode oder QR-Code)

Verwenden Sie diese Funktion, wenn Dokumente einen Barcode oder einen QR-Code an einer bestimmten Position enthalten können. Diese Option kann zum Beispiel verwendet werden, wenn ältere Dokumente, auf denen Barcodes abgedruckt waren, gemeinsam mit neueren Dokumenten gescannt werden, auf denen QR-Codes verwendet werden.

Datenmatrix

Datenmatrix-Codes sind eine Art von 2D-Barcode.

PDF417

PDF417 ist eine Form von 2D-Barcode, der gewöhnlich von der Flugverkehrsbranche auf einigen Bordkarten-Formaten verwendet wird.

MRZ (Machine Readable Zone) [MRZ (Maschinenlesbare Zone)]

Mit der Option „MRZ“ können Sie Scan2x anweisen, eine gesamte Zone nach einer maschinenlesbaren Zone zu durchsuchen. Scan2x erkennt dieses Datenformat automatisch, isoliert die Zone vom restlichen Dokumentinhalt und verarbeitet sie in ihre einzelnen Komponenten.

Table (Tabelle)

Scan2x kann die auf einem Dokument vorhandenen tabellarischen Daten verarbeiten und in Zeilen und Spalten aufteilen. Diese Daten werden von Scan2x im XML-Format zur weiteren Verarbeitung durch nachgelagerte Systeme gespeichert. Ein Beispiel für die Verwendung dieser Funktion ist das Extrahieren von Postendaten aus einer Rechnung.

 

Tabellenzonen können so eingerichtet werden, dass ihre Position und Größe im Dokument dynamisch angepasst werden, um Inhalte zu umspannen, die gewöhnlich auf jedem übergebenen Dokument unterschiedlich sind. Beispiel: Ein Stapel von Rechnungen kann Rechnungen mit nur einem Posten sowie Rechnungen mit mehreren Posten auf mehreren Seiten enthalten. Mit der Verankerungsfunktion, mit deren Hilfe Scan2x automatisch den Start und das Ende der Tabelle jedes Dokuments erkennt, kann Scan2x alle Längen von Dokumenten automatisch genau erfassen.

 

Nachdem das erwartete Ergebnis des OCR-Prozesses definiert wurde, kann Scan2x auch angewiesen werden, das gesamte Ergebnis oder nur einen Teil davon aufzubewahren.  Mit der Option Nur erste Zeile in der Dropdown-Liste rechts wird Scan2x angewiesen, das Metadatenfeld nur mit der ersten vom OCR-Prozess zurückgegebenen Zeile zu füllen und den Rest zu verwerfen. Die Option Nur letzte Zeile hat die entgegengesetzte Funktion. Alles in 1 Zeile weist Scan2x an, den gesamten erfassten Text in eine große Zeichenfolge zu schreiben. Diese Option wird gewöhnlich verwendet, um Adressen aus Dokumenten zu erfassen.

 

 

Die Option Remove All Blank Spaces (Alle Leerzeichen entfernen) weist Scan2x an, alle <space>-Zeichen aus dem OCR-Ergebnis zu löschen. Beispiel: Das Ergebnis „INV 1234“ wird damit in „INV1234“ umgewandelt.

 

Die Option OCR Rotation (OCR-Drehung) ermöglicht es Scan2x, vertikal gedruckten Text einer Seite per OCR zu erfassen. Diese Option ist nur in der Vollversion von Scan2x verfügbar.

Mit der Option OCR the whole page (Die ganze Seite mit OCR erfassen) wird der gesamte auf einer Seite vorhandene Text in ein Metadatenfeld geschrieben. Diese Option ist deaktiviert, wenn für das gewählte Metadatenfeld ein Anker definiert wurde.

 

 

 

Copyright © 2022 Avantech Software