Mejores prácticas de zonas de OCR

Navigation: Guía del administrador de Scan2x > Configuración del trabajo de escaneo > Pestaña Metadatos > Zonas de OCR >

-Recuerde que durante el escaneo diario, los documentos en papel nunca se presentarán al escáner en la misma posición que cuando escaneó la plantilla del documento. Como resultado, encontrará que la zonificación de OCR será mucho más confiable si permite el error de posicionamiento al dibujar su cuadro de zona, dejando un espacio en blanco alrededor de la referencia que está tratando de leer.

-Si su documento tiene recuadros preimpresos, intente excluir las líneas verticales de la zona para ser leídas por OCR, ya que pueden interpretarse como letras o números.

-La funcionalidad predeterminada de Scan2x OCR se vuelve más confiable cuando se presenta con un fragmento de texto para reconocer, y no solo un puñado de letras. Por ejemplo, para OCR el número de factura en el documento de la derecha, dibuje el cuadro como se muestra; esto le dará al motor de OCR suficientes caracteres para trabajar, mientras mantiene el cuadro lo suficientemente pequeño como para evitar la ralentización de toda la operación. Consulte la siguiente sección para obtener detalles sobre cómo aislar el número de factura del resto del texto.

Una vez que un campo de metadatos se ha vinculado a una zona para OCR, es posible calificar los resultados que espera de la operación de OCR seleccionando una de las siguientes opciones en el menú desplegableresaltado en el cuadro rojo en la captura de pantalla anterior:

Opción	Descripción
Genérica (predeterminado)	La configuración Genérica acepta todo el texto generado por el proceso de OCR.
Solo texto	Especifica que se espera texto. Por lo tanto, la función sustituye letras por dígitos cuando corresponda, para garantizar la precisión. Estas sustituciones incluyen "L" minúscula donde se lee 1, "b" donde se lee 6, "B" donde se lee 8 y "P" donde se lee 9.
Solo números	Especifica que solo se esperan dígitos. Por lo tanto, la función sustituye dígitos por letras cuando corresponda, para garantizar la precisión. Estas sustituciones incluyen 1 donde se lee "L" minúscula, 6 donde se lee "b", 8 donde se lee "B" y 9 donde se lee "P".
Decimales	Especificar esta opción le indicará a Scan2x que no elimine el punto (".") Y los caracteres de coma del texto capturado.
Fecha (predeterminado)	Indica a Scan2x que espere texto en forma de fecha. El sistema intentará cambiar la fecha que encuentre a un formato estandarizado.
Fecha (formato de EE. UU.)	Como indicado anteriormente, pero especifica el formato MM-DD-AA
Fecha (formato del Reino Unido)	Como indicado anteriormente, pero especifica el formato DD-MM-AA
Escritura a mano	Cuando utilice iDRS OCR Engine, puede seleccionar esta opción para habilitar el reconocimiento de escritura a mano. Lea las pautas adicionales a continuación antes de intentar reconocer la escritura a mano.
Escritura a mano (en caja)	Cuando utilice el motor de OCR de iDRS, puede seleccionar esta opción para habilitar el reconocimiento de escritura a mano de las letras encuadradas. Se trata de texto que se ha impreso con letras individuales en recuadros preimpresos en un formulario. Lea las pautas adicionales a continuación antes de intentar reconocer la escritura a mano.
Código de barras	Dibujar una zona alrededor de un código de barras interpretará ese código de barras.
Código QR	Dibujar una zona alrededor de un código QR interpretará ese código QR.
Código de barras o código QR	Utilice esta función cuando los documentos puedan incluir un código de barras o un código QR en la misma posición. Esto se ha utilizado en un proyecto para escanear documentos pasados (en los que se imprimieron códigos de barras) junto con documentos actuales en los que ahora se imprimen códigos QR.
Matriz de datos	Los códigos de matrices de datos son una forma de código de barras 2D.
PDF417	Los PDF417 son una forma de código de barras 2D, comúnmente utilizado por la industria de las aerolíneas en algunos formatos de tarjetas de embarque.
Tarjeta de identificación MRZ	Indica a Scan2x que intente localizar datos estructurados dentro de una zona legible por máquina, realizando todos los controles de suma de comprobación estándar.
ZLM (Zona legible por máquina)	Usando la selección de ZLM, es posible indicar a Scan2x que busque una zona completa para detectar la presencia de una ZLM. Scan2x detectará automáticamente este formato de datos, lo aislará del resto del contenido del documento y lo procesará en sus partes componentes.
Tabla	Scan2x puede procesar datos presentados en un documento en forma tabular y dividirlos en filas y columnas. Scan2x guarda estos datos en formato XML para su posterior procesamiento por sistemas posteriores. Un ejemplo del uso de esta funcionalidad es la extracción de datos de facturas por partidas individuales. Las zonas de tabla se pueden configurar para ajustar su posición y tamaño de forma dinámica en el documento para abarcar contenido que normalmente es diferente en cada documento enviado. Por ejemplo, un lote de facturas puede variar entre las que contienen un artículo de una sola línea y las que contienen varios artículos de línea que abarcan muchas páginas. Al utilizar la función Anclaje para permitir que Scan2x detecte automáticamente el inicio y el final de la tabla para cada documento, Scan2x puede capturar con precisión todas las longitudes de documentos de forma automática.
Tabla (con encabezados)	Como arriba, pero al seleccionar esta opción le indica a Scan2x que espere que la primera fila de la tabla de OCR sea un encabezado
Tabla (volteada)	Scan2x procesará una tabla como en el ejemplo siguiente y a partir de lo anterior creará una tabla convencional como la mostrada a continuación.
Tabla (con encabezados, volteada)	Scan2x procesará una tabla como en el ejemplo siguiente y a partir de lo anterior creará una tabla convencional como la mostrada a continuación.
Datos de OCR sin procesar	Esta opción genera los datos del motor de OCR sin procesar para el texto analizado en esta zona de OCR. Los datos sobre cada carácter reconocido junto con su posición encontrada en la zona se incluyen en la salida. Normalmente se utiliza en proyectos de integración avanzada. Cuando seleccione esta opción, el campo que seleccione no devolverá el valor de cadena de la zona de OCR que especifique, sino una estructura de datos XML de cada letra encontrada por OCR junto con su información de posición en la página en píxeles.

Una vez que se ha definido el resultado esperado del proceso de OCR, también es posible indicar a Scan2x que conserve el resultado completo o solo una parte del mismo.

Al seleccionarSolo la primera línea en el cuadro desplegable que se muestraa la derecha en la captura de pantalla a continuación , Scan2x debe completar el campo de metadatos con la primera línea devuelta solo por el proceso de OCR y descartar el resto, mientras queSolo la última línea hace lo contrario.

Todo en 1 línea le dice a Scan2x que coloque todo el texto capturado en una cadena grande; esto se usa comúnmente para capturar direcciones de documentos.

Finalmente, marcarEliminar todos los espacios en blanco indica a Scan2x que elimine todos los <space> caracteres del resultado de OCR. Por ejemplo, el resultado "INV 1234" se convertirá en "INV1234".

La opción Rotación de OCR permite Scan2x a texto OCR que se imprime verticalmente hacia arriba o hacia abajo en la página.Esta opción solo está disponible en la versión completa de Scan2x.

OCR de toda la página coloca todo el texto de la página en un campo de metadatos. Esta opción está deshabilitada si se ha definido un ancla para el campo de metadatos elegido.