Reconnaissance automatique des documents

 

Grâce à l’ADR, Scan2x peut examiner des échantillons d’un document (par exemple, une facture de Carrefour) et apprendre à reconnaître les futures factures Carrefour, même si les factures concernent différents produits et si le document global n’est pas identique à celui-ci. En acceptant les différentes factures Carrefour de couleurs et de qualité différentes, Scan2x continue d’apprendre et devient plus intelligent lors de la reconnaissance des documents à mesure que le temps passe.

 

Il est important de comprendre que seuls les documents structurés sont reconnaissables de cette manière – les documents qui ont toujours la même structure et la même mise en page de base, tels que les factures, les bons de commande, les formulaires, les tickets, etc. Les documents non structurés, tels que les courriers généraux et les e-mails, sont tous identiques pour le moteur d’analyse documentaire Scan2x car il recherche une structure, et non le contenu. 

Caractérisation des documents

Il s’agit d’une fonction dans laquelle le logiciel examine la structure d’un document plutôt que son contenu. Le système ne recherche pas de mots ou de motifs spécifiques dans le contenu du document, mais recherche plutôt des indicateurs de structure du document ; logos et leurs positions, tables, pieds de page et dégradés. La caractérisation des documents convient parfaitement aux documents structurés : formulaires, factures et autres documents d’un format relativement fixe ou prévisible.

 

Scan2x utilise la caractérisation de documents pour obtenir le premier niveau de reconnaissance des documents.

 

Analyse du contenu des documents

L’analyse du contenu implique l’extraction du texte dans une image du document, puis l’application de recherches dans le texte pour les motifs. Cette méthode se prête particulièrement bien aux documents non structurés tels que la correspondance aléatoire et l’e-mail, dans lesquels le format du document n’est pas utilisé pour l’identification du type de document. Toutefois, si l’analyse du contenu est utilisée conjointement avec la caractérisation des documents, le taux de réussite peut être très élevé pour l’identification et la classification des documents structurés.

 

Pour l’identification des documents structurés avec Scan2x, il est donc possible d’utiliser la technologie d’identification par empreinte afin de fournir un mécanisme d’identification documentaire de premier niveau. Cela permettra, par exemple, de différencier les documents d’un fournisseur ou d’un autre. Une fois qu’un fournisseur a été identifié, une combinaison de texte de zone OCR et d’expression VBScript peut ensuite être utilisée pour identifier le type de document spécifique de ce fournisseur.

 

Pour illustrer la reconnaissance automatique des documents à l’aide de Scan2x, nous utiliserons l’exemple de Comptabilité fournisseurs afin d’expliquer la fonctionnalité ADR et la procédure de configuration. Par Comptabilité, nous entendons la numérisation de plusieurs factures fournisseurs par lots séparés par des séparateurs de documents. Pour en savoir plus sur les séparateurs de documents, rendez-vous sur la page 191. Les utilisateurs inséreront un séparateur de documents entre une facture et une autre, et numériseront plusieurs documents de fournisseurs différents sous forme d’un lot. Chaque document aura une présentation différente et chacun peut être dissocié de différents types de documents. Par exemple, il est possible de numériser ensemble des factures du fournisseur, des bordereaux de livraison, des bordeaux de paiement et d’autres documents structurés. Scan2x utilisera la première page de chaque document pour effectuer la fonction de reconnaissance d’empreintes et acheminera chaque document vers son profil pour l’indexation et le traitement en fonction des paramètres de ce profil.

 

Pour configurer la reconnaissance des documents dans Scan2x, nous avons suivi quelques étapes simples :

1.Création d’un bouton de tâche pour chaque document à reconnaître.

2.Configuration d’un groupe ADR dans lequel sont insérés tous les profils créés à l’étape 1 ci-dessus.

3.Soumission des échantillons de documents au moteur de reconnaissance afin de lancer le processus d’apprentissage d’empreinte.

 

 

Modèles ADR

En envoyant des échantillons de documents pour chaque type de document, nous permettons à Scan2x « d’apprendre » les caractéristiques de chaque type de document – position du logo, le cas échéant, tables, le cas échéant, en-têtes et pieds de page, etc. Scan2x considère ces exemples de documents comme des modèles ADR. Il est possible (et recommandé) de soumettre plusieurs modèles à chaque type de document, car cela permet à Scan2x d’affiner ses définitions internes, ce qui améliore la reconnaissance des résultats lors de la numérisation de production.

 

L’onglet « Modèles ADR » ci-dessous affiche la liste de tous les profils du groupe ADR, et il est possible d’ajouter des modèles à partir de cet onglet.

 

 

Les modèles ADR ajoutés ici lors de la création du groupe ADR seront d’abord utilisés pour reconnaître les premiers lots de documents numérisés. Si un seul modèle est ajouté pour chaque profil de document, il est possible que les premières numérisations ne détectent pas une proportion de documents numérisés et il est donc possible d’affecter des types de documents lors de la numérisation. Ces affectations sont utilisées par Scan2x pour ajouter à la liste de modèles ci-dessus, ce qui augmente sa connaissance de chaque profil de document.

 

 

 

Copyright © 2022 Avantech Software