Bonnes pratiques en matière d’OCR de zone

 

-N’oubliez pas que lors de la numérisation au quotidien, les documents papier ne seront jamais présentés au scanner dans la même position que lors de la numérisation du modèle de document. Par conséquent, vous constaterez que l’OCR de zone sera beaucoup plus fiable si vous permettez une erreur de positionnement lors du tracé de votre cadre de zone, en laissant un espace blanc autour de la référence que vous essayez de lire.

-Si votre document comporte des cases préimprimées, essayez d’exclure les lignes verticales de la zone à lire par OCR, car elles peuvent être assimilées à des lettres ou à des chiffres.

-La fonctionnalité OCR de Scan2x par défaut est plus fiable lorsqu’elle est présentée avec un fragment de texte à reconnaître, et pas seulement quelques lettres. Par exemple, pour lire le numéro de facture dans le document ci-contre par OCR, dessinez le cadre comme illustré ci-contre. Le moteur OCR disposera d’un nombre suffisant de caractères, tout en conservant une petite taille afin d’éviter un ralentissement de l’ensemble des opérations. Voir la section suivante pour plus de détails sur la manière d’isoler le numéro de facture du reste du texte.

 

 

 

 

Lorsqu’un champ de métadonnées a été associé à une zone OCR, il est possible d’obtenir les résultats escomptés de l’opération OCR en sélectionnant l’une des options suivantes dans la liste entourée ci-dessus :

 

En option

Description

Générique (par défaut)

Le paramètre Générique accepte l’intégralité du texte généré par le processus OCR.

Texte uniquement

Indique que du texte est attendu. La fonction remplace donc les chiffres par des lettres, le cas échéant, afin d’assurer la précision. Ces substitutions incluent le « L » minuscule pour lequel 1 est lu, le « b » pour lequel 6 est lu, le « B » pour lequel 8 est lu et le « P » pour lequel 9 est lu.

Nombres uniquement

Permet d’indiquer que seuls des chiffres sont attendus. La fonction remplace donc les chiffres par des lettres, le cas échéant, afin d’assurer la précision. Ces substitutions incluent le 1 pour lequel un « L » minuscule est lu, le 6 pour lequel « b » est lu, le 8 pour lequel « B » est lu et le 9 pour lequel « P » est lu.

Décimales

Cette option permet à Scan2x de ne pas éliminer le point (« . ») et la virgule du texte capturé.

Écriture manuscrite

Lors de l’utilisation du moteur OCR iDRS, vous pouvez sélectionner cette option pour activer la reconnaissance de l’écriture manuscrite. Il est important de lire les directives complémentaires ci-dessous avant de tenter une reconnaissance d’écriture manuscrite.

Écriture manuscrite (encadrée)

Lors de l’utilisation du moteur OCR iDRS, vous pouvez sélectionner cette option pour permettre la reconnaissance d’écriture manuscrite de caractères encadrés. Il s’agit de texte imprimé avec des lettres individuelles dans des cases préimprimées sur un formulaire. Il est important de lire les directives complémentaires ci-dessous avant de tenter une reconnaissance d’écriture manuscrite.

Code-barres

Traçage d’une zone autour d’un code-barres pour interpréter ce dernier.

Code QR

Traçage d’une zone autour d’un code QR pour interpréter ce dernier.

Code-barres ou code QR

Utilisez cette fonction lorsque les documents peuvent inclure un code-barres ou un code QR à la même position. Cette fonction a été utilisée lorsqu’un projet de numérisation de documents antérieurs (sur lesquels des codes-barres ont été imprimés) et de documents actuels sur lesquels sont désormais imprimés les codes QR.

Code-barres matriciel

Les codes-barres matriciels sont des code-barres 2D.

PDF417

PDF417 est une forme de code-barres 2D, couramment utilisée par les compagnies aériennes sur certains formats de cartes d’embarquement.

MRZ (zone lisible en machine)

Il est possible d’indiquer à Scan2x de rechercher la présence d’une MRZ sur une zone entière. Scan2x détecte automatiquement ce format de données, l’isole du reste du contenu du document et le traite au niveau de ses composantes.

Tableau

Scan2x peut traiter les données présentées sur un document sous forme de tableaux et les diviser en lignes et en colonnes. Ces données sont enregistrées par Scan2x au format XML pour traitement ultérieur par les systèmes en aval. L’extraction de lignes des données de factures est un exemple de l’utilisation de cette fonctionnalité.

 

Il est possible de définir des zones de tableau afin d’ajuster leur position et leur taille de façon dynamique sur le document afin de couvrir un contenu généralement différent pour chaque document soumis. Par exemple, un lot de factures peut varier entre celles contenant un poste unique et celles contenant plusieurs lignes, sur de nombreuses pages. Grâce à la fonctionnalité Ancrage qui permet à Scan2x de détecter automatiquement le début et la fin du tableau pour chaque document, il est possible de capturer automatiquement toutes les longueurs de document.

 

Une fois le résultat attendu du processus OCR défini, il est également possible d’indiquer à Scan2x de conserver l’intégralité du résultat ou seulement une partie de celui-ci.  Le choix de l’option Première ligne seulement dans la zone déroulante de droite, indique à Scan2x de remplir le champ de métadonnées avec la première ligne renvoyée par le processus OCR et d’éliminer le reste, tandis que l’option Dernière ligne seulement fait le contraire. Tout en 1 ligne, indique à Scan2x de placer l’intégralité du capturé dans une seule chaîne de grande taille, ce qui est couramment utilisé pour capturer les adresses sur les documents.

 

 

Enfin, la sélection de l’option Supprimer les espaces blancs indique à Scan2x de supprimer tous les caractères <espace> du résultat de l’OCR. Par exemple, le résultat « INV 1234 » sera converti en « INV1234 ».

 

L’option Rotation OCR permet la reconnaissance OCR de texte imprimé verticalement en haut ou en bas de la page. Cette option n’est disponible que dans la version complète de Scan2x.

L’option OCR toute la page place l’intégralité du texte de la page dans un champ de métadonnées. Cette option est désactivée si un ancrage a été défini pour le champ de métadonnées choisi.

 

 

 

Copyright © 2022 Avantech Software