Capture de valeurs de texte non structuré sur un document

 

Il existe deux manières d’utiliser les Expressions rationnelles dans Scan2x. Ce manuel ne donne pas d’information sur l’utilisation de la correspondance de modèles d’expressions rationnelles. Pour plus d’informations sur la manière d’utiliser les expressions rationnelles, veuillez consulter le site https://en.wikipedia.org/wiki/Regular_expression.

 

Création de scripts Visual Basic (VB Script)

 

Il est possible d’utiliser le « VB Scripting » pour créer des règles et des fonctions de traitement du texte complexe directement dans un champ, et ces dernières s’exécutent dynamiquement lors du traitement.

 

La fonction GetRegexMatch de la fonctionnalité VBScript propose une quantité considérable de fonctionnalités pour extraire des valeurs de documents non structurés. En utilisant une zone OCR pour capturer un bloc entier de texte et l’envoyer à la fonction GetRegexMatch, il est possible de rechercher des motifs spécifiques n’importe où dans le texte capturé et de remplir un champ de métadonnées avec le résultat.

 

À titre d’illustration, prenons l’exemple d’une Lettre de change générique sans mise en page fixe. Si nous avons défini une zone OCR afin de capturer tout le texte de chaque document dans un champ de métadonnées temporaires, nous obtenons le texte suivant :

 

Règlement n° 71

Date du contrat 21/12/2016, pour un montant de 463,78 euros.

Le 28/11/2022, le paiement de cette Lettre de change à l’ordre de John Doe s’élève à quatre cent soixante-trois euros et soixante-dix-huit cents. Valeur de la marchandise reçue, ce qui rend le compte conforme aux prescriptions.

Destinataire :           XYZ Co Ltd

          1, MAIN STREET

          LONDON SW1

 

Je/Nous accepte/acceptons et signe/signons conjointement et solidairement

 

_______________                              _______________

XYZ Co Ltd                                        John Doe

 

En utilisant la correspondance de modèle d’expression rationnelle, nous pouvons demander à Scan2x de rechercher un modèle et d’extraire des valeurs indépendamment de sa position dans le texte. Dans l’exemple ci-dessous, nous demandons à Scan2x d’extraire le numéro de paiement (dans ce cas, « 71 ») en recherchant dans le texte contenu dans le champ de métadonnées temporaires nommé TextStream. En français, la fonction ci-dessous explique :

 

« Extraire les chiffres (\d*) détectés entre le texte « N° de paiement » à gauche et « Contrat » à droite. »

 

 

 

 

 

 

Copyright © 2022 Avantech Software