Reconocimiento automático de documentos

 

 

Con ADR, Scan2x puede examinar muestras de un documento, por ejemplo, una factura de Carrefour, y aprender a reconocer futuras facturas de Carrefour, incluso si las facturas son para diferentes productos y el documento general no es idéntico a otros similares. Al aceptar diferentes facturas de Carrefour de diferentes colores y calidad, Scan2x continúa aprendiendo y se vuelvemás inteligente en el reconocimiento de documentos a medida que pasa el tiempo.

 

Es importante comprender que solo los documentos estructurados son reconocibles de esta manera: documentos que siempre tienen la misma estructura y diseño básicos, como facturas, órdenes de compra, formularios, tickets, etc. Los documentos no estructurados, como la correspondencia general y los correos electrónicos, tienen el mismo aspecto para el motor de análisis de documentos Scan2x, ya que busca estructura, no contenido.

Toma de huellas dactilares de documentos

Esta es una función mediante la cual el software analiza laestructura  de un documento en lugar del contenido. El sistema no busca palabras o patrones específicos dentro del contenido del documento, sino que busca indicadores de la estructura del documento; logotipos y sus posiciones, tablas, pies de página y sombreado. La toma de huellas dactilares de documentos funciona mejor para documentosestructurados : formularios, facturas y otros documentos de un formato relativamente fijo o predecible. Scan2x utiliza huellas digitales de documentos para proporcionar el primer nivel de reconocimiento de documentos.

 

Análisis del contenido del documento

El análisis del contenido implica la extracción del texto dentro de la imagen de un documento y luego la aplicación de búsquedas dentro del texto de patrones. Este método es especialmente efectivo con documentos no estructurados como correspondencia aleatoria y correo electrónico, donde el formato de documento no se usa para la identificación del tipo de documento. Sin embargo, si el análisis de contenido se utiliza junto con la toma de huellas digitales de documentos, esto puede resultar en una tasa de éxito muy alta para la identificación y clasificación de documentos estructurados.

 

Por lo tanto, para la identificación estructurada de documentos con Scan2x, es posible utilizar la tecnología de huellas dactilares para proporcionar un mecanismo de identificación de documentos de primer nivel. Esto permitirá diferenciar los documentos de, por ejemplo, un proveedor y otro. Una vez que se ha identificado un proveedor, se puede utilizar una combinación de texto de zona de OCR y una expresión de VBScript para identificar el tipo de documento específico de ese proveedor.

 

Para ilustrar el reconocimiento automático de documentos usando Scan2x, usaremos el ejemplo deCuentas por pagar para explicar la funcionalidad ADR y cómo configurarla. Por cuentas por pagar, nos referimos al escaneo de múltiples facturas de proveedores en lotes separados por separadores de documentos.Más sobre los separadores de documentosenlaPestaña Agregar una regla de división de documentos de la Guía del administrador. Los usuarios insertarán un separador de documentos entre una factura y otra y escanearán varios documentos de diferentes proveedores como un solo lote. Cada documento tendrá un diseño diferente y es posible que cada uno sea de diferentes tipos de documentos; por ejemplo, se pueden escanear las facturas del proveedor, los albaranes de entrega, los avisos de pago y otra documentación estructurada en conjunto. Scan2x utilizará la primera página de cada documento para realizar la función de reconocimiento de huellas dactilares y enrutará cada documento a su perfil respectivo para su indexación y procesamiento de acuerdo con la configuración de ese perfil.

 

Para configurar el reconocimiento de documentos en Scan2x, seguimos unos sencillos pasos:

1.Cree un botón de trabajo para que todos los documentos sean reconocidos.

2.A continuación, se configura un grupo ADR y todos los perfiles creados en el paso 1 anterior se trasladan a él.

3.Envíe muestras de documentos al motor de reconocimiento para que comience el proceso de aprendizaje de huellas dactilares.

 

 

 

Plantillas ADR

Al enviar muestras de documentos para cada tipo de documento, permitimos que Scan2x "conozca" las características de cada tipo de documento: posición del logotipo, si corresponde; tablas, encabezados y pies de página, etc. Scan2x se refiere a estos ejemplos de documentos como Plantillas ADR. Es posible (y recomendable) enviar más de una plantilla para cada tipo de documento, ya que esto permite a Scan2x ajustar sus definiciones internas, lo que da como resultado mejores resultados de reconocimiento durante el escaneo de producción.

La pestaña Plantillas ADR a continuación muestra una lista de todos los perfiles para el Grupo ADR, y es posible agregar Plantillas ADR desde esta pestaña.

 

 

 

Las Plantillas ADR agregadas aquí durante la creación del Grupo ADR se utilizarán inicialmente para reconocer los primeros lotes de documentos escaneados. Si solo se agrega una plantilla para cada perfil de documento, es posible que las primeras ejecuciones de escaneo no reconozcan una proporción de los documentos escaneados, por lo que es posible asignar tipos de documentos en el momento del escaneo.

Scan2x utiliza estas asignaciones para agregarlas a la lista de plantillas anterior, aumentando así su conocimiento de cada perfil de documento.

 

 

 

Copyright © 2023 Avantech Software