Séparation de documents

Navigation: Scan2x French Handbook > Utilisation de ce manuel > Concepts généraux > Numérisation de documents >

La numérisation de plusieurs documents en un seul lot nécessite que Scan2x puisse reconnaître la fin d’un document et le début du suivant. Quelques options sont disponibles et le choix dépend principalement du type de document que nous prévoyons de capturer.

Les documents structurés sont des documents dont l’aspect n’est pas aléatoire : factures, bons de commande, bons de réduction, chèques bancaires, bons de livraison ou presque n’importe quel type de document à base de formulaires. Le module de reconnaissance automatique de documents en option de Scan2x permet de numériser des documents de même type (par exemple, des factures reçues de plusieurs fournisseurs) et de les reconnaître et de les traiter automatiquement. Pour plus d’informations sur la reconnaissance automatique des documents de Scan2x, reportez-vous au Guide administrateurs à la page 192.

Les documents non structurés sont des documents de nature totalement aléatoire (par exemple, courriers électroniques, lettres, contrats, journaux ou articles de magazines). Dans ces documents, il n’existe pas de tableaux comportant des en-têtes et des colonnes, de pieds de page fixes ou d’en-têtes fixes. Ces types de documents peuvent être capturés par Scan2x en lots, et plusieurs méthodes peuvent être utilisées pour indiquer le début ou la fin d’un document.

Lorsqu’un lot de documents est numérisé et divisé, ceux-ci s’affichent sous forme d’une liste de vignettes distinctes que l’utilisateur peut ouvrir en pleine page, individuellement. Les métadonnées préconfigurées sont automatiquement complétées par Scan2x, tandis que d’autres index peuvent être à remplir par l’utilisateur. Les champs peuvent être définis comme champs obligatoires par les administrateurs. L’utilisateur a également la possibilité de renseigner les données relatives à plusieurs documents sous forme de métadonnées communes ou de données individuelles ne correspondant qu’au document affiché. La séparation de documents permet à l’utilisateur de fusionner et de séparer des documents, de les supprimer ou de les enregistrer individuellement ou par lots, ce qui les acheminera ensuite vers des destinations préconfigurées.

D’autres informations figurent dans le Guide administrateur sous l’onglet Séparation de documents à la page 189.

Après avoir sélectionné le Gestionnaire de tâches et sélectionné le nom de la tâche à modifier, l’administrateur affiche la fenêtre de configuration de tâche, qui affiche une liste des options à gauche. Une fois que l’option Séparation de documents est sélectionnée, l’utilisateur peut ajouter une ou plusieurs conditions de séparation et l’administrateur peut choisir précisément la méthode de séparation et de reconnaissance des documents. Les documents peuvent être séparés de plusieurs façons, comme illustré ci-dessous. L’administrateur peut également indiquer de définir les commandes comme le début d’un nouveau document ou la fin d’un document en cours.

Séparation par contenu texte sur le document

Texte capturé dans les champs de métadonnées

Il est possible de séparer les documents en fonction de la présence ou non de texte sur une page. Ce texte peut être imprimé (c’est-à-dire lisible par l’homme) ou sous forme d’un code-barres 1D ou 2D (par exemple, codes QR, codes matriciels).

Sélectionnez cette option si le texte permettant la séparation du document est dans une position constante ou prévisible sur la page. Dans l’onglet des métadonnées, créez un champ de métadonnées pour contenir le texte et une zone OCR qui remplira ce champ. Ensuite, sélectionnez-le dans la liste déroulante Champ de métadonnées OCR ci-dessous et utilisez une condition de séparation pour déclencher la séparation des documents.

Texte sur la page

Dans les cas où différents types de documents utilisent des règles de séparation pour différencier un document d’un autre, il est parfois nécessaire de procéder à une reconnaissance optique de caractères de l’ensemble de la page à la recherche de la condition de séparation. L’utilisation de la méthode « Champ de métadonnées OCR » ci-dessus entraîne la reconnaissance optique de caractères de la page par Scan2x à chaque vérification d’un nouveau type de document. Pour éviter ce problème, la sélection de l’option OCR pleine page forcera Scan2x à effectuer un OCR du document une seule fois et le résultat de ce processus sera conservé lors des tests de séparation des tâches suivantes pendant le processus de correspondance.

Pour plus d’informations sur la manière dont les conditions de séparation sont utilisées par l’automatisation des travaux pour reconnaître les types de documents, voir la section Automatisation de la tâche, à la page 192.

Séparation par code QR, Data Matrix ou code-barres

Cette option fonctionne sur le même principe que la séparation par OCR, de sorte que chaque fois que Scan2x détecte la présence d’un code QR, d’une Data Matrix ou d’un code-barres, il commence un nouveau document. Ces options peuvent être préconfigurées soit pour séparer le document sur un code QR ou un code-barres en général, soit pour reconnaître des données spécifiques dans ce code et pour le séparer uniquement dans ce cas.

Séparation par nombre de pages

Il s’agit d’une option simple lors de la numérisation de documents de plusieurs pages avec le même nombre de pages dans chaque document. La séparation par nombre de pages permet de supprimer les pages vierges ou inutiles une fois le document numérisé. L’administrateur peut également choisir entre la numérisation recto verso et la numérisation recto. Si la numérisation recto verso est sélectionnée, l’administrateur doit compter le recto et le verso de chaque feuille comme 2 pages distinctes.

Par ailleurs, il est possible de générer une page de séparation en appuyant sur le bouton Outil de séparation, et d’imprimer le document résultant pour l’insérer manuellement entre les documents à séparer ou l’envoyer par e-mail à l’utilisateur, pour le placer à une extrémité du document, en tant que page supplémentaire lors de l’importation de PDF. La page de séparation est reconnue à l’aide de la fonction de code-barres décrite ci-dessus et l’administrateur peut ensuite la supprimer automatiquement du résultat final.

Une dernière option, sélectionnable par l’administrateur, permet d’enregistrer automatiquement les documents séparés sans que l’utilisateur final ait à afficher l’écran de prévisualisation des numérisations. Cela garantit un contrôle total des documents numérisés par d’autres utilisateurs.