Navigation: Administrator-Handbuch (Scan2x-Konfiguration) > Definition eines Scan-Auftrags > Registerkarte „Metadaten“ >

Erfassen von Werten aus unstrukturiertem Text in einem Dokument

 

 

 

 

Erfassen von Werten aus unstrukturiertem Text in einem Dokument

 

Es gibt verschiedene Möglichkeiten, reguläre Ausdrücke in Scan2x zu verwenden. Es würde jedoch den Rahmen dieses Handbuchs sprengen, die Verwendung der Regex-Mustererkennung zu vermitteln. Weitere Informationen zur Verwendung von Regex finden Sie unter https://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck.

 

VISUAL BASIC-SKRIPTERSTELLUNG (VB-Skript)

Es ist möglich, mithilfe von VB-Skripterstellung komplexe Textverarbeitungsregeln und -funktionen direkt in einem Feld zu erstellen. Diese Regeln und Funktionen werden dann zur Laufzeit dynamisch ausgeführt.

 

Die Funktion GetRegexMatch der VBScript-Funktion bietet einen riesigen Funktionsumfang zum Extrahieren von Werten aus unstrukturierten Dokumenten. Es ist möglich, einen gesamten Textblock mithilfe einer OCR-Zone zu erfassen und an die Funktion GetRegexMatch zu übergeben, um nach bestimmten Mustern innerhalb des erfassten Texts zu suchen und ein Metadatenfeld dann mit dem Ergebnis zu füllen.

 

Folgendes Beispiel eines Wechsels ohne festes Layout veranschaulicht diese Funktion. Eine OCR-Zone wird so eingerichtet, dass der gesamte Text aller Wechsel in ein temporäres Metadatenfeld geschrieben wird. Damit wird folgender Text erfasst:

 

Payment No 71

Contract Date 12/21/2016 amounting to 463.78 Euro.

On the 11/28/2022 pay for this Bill of Exchange to the order of John Doe the sum of four hundred and sixty-three euro and seventy-eight euro cents. Value of good received which places to account as per advice.

To:           XYZ Co Ltd

          1, MAIN STREET

          LONDON SW1

 

I/We accept and sign jointly and severally

 

_______________                              _______________

XYZ Co Ltd                                        John Doe

 

Mithilfe der Regex-Mustererkennung kann Scan2x angewiesen werden, nach einem Muster zu suchen und unabhängig von der jeweiligen Position Werte zu extrahieren. Im folgenden Beispiel wird Scan2x angewiesen, die Zahlungsnummer „Payment No“ (in diesem Fall „71“) zu extrahieren. Hierzu muss der Text im temporären Metadatenfeld TextStream durchsucht werden. In Worten ausgedrückt, besagt die unten abgebildete Funktion Folgendes:

 

„Rufe die gefundenen Ziffern (\d*) zwischen dem Text ‚Payment No.‘ (Zahlungsnummer) links und ‚Contract‘ (Vertrag) rechts ab.“

 

 

 

 

Copyright © 2022 Avantech Software