Automatische Dokumentenerkennung

 

Mithilfe von ADR kann Scan2x Beispiele eines Dokuments untersuchen – z. B. eine Rechnung von Carrefour – und lernen, zukünftige Carrefour-Rechnungen zu erkennen, selbst wenn die Rechnungen für unterschiedliche Produkte sind und das Gesamtdokument nicht mit anderen identisch ist. Durch das Akzeptieren verschiedener Carrefour-Rechnungen mit unterschiedlichen Farben und unterschiedlicher Qualität lernt Scan2x weiter und verbessert so seine Dokumentenerkennungsfunktion im Laufe der Zeit.

 

Es ist zu beachten, dass nur strukturierte Dokumente auf diese Weise erkannt werden können, also Dokumente, die immer dieselbe grundlegende Struktur und dasselbe Layout haben, wie Rechnungen, Bestellungen, Formulare, Fahrkarten usw. Unstrukturierte Dokumente wie allgemeiner Schriftverkehr und E-Mails sehen für die Scan2x-Dokumentanalyse-Engine alle gleich aus, da sie nach Struktur sucht und nicht nach Inhalt. 

Dokument-Fingerabdruck

Bei dieser Funktion untersucht die Anwendung die Struktur eines Dokuments und nicht den Inhalt. Das System sucht nicht nach bestimmten Wörtern oder Mustern innerhalb des Dokumentinhalts, sondern nach Indikatoren für die Dokumentstruktur, Logos und ihre Position, Tabellen, Fußzeilen und Kopfzeilen. Der Dokument-Fingerabdruck funktioniert am besten bei strukturierten Dokumenten, also Formularen, Rechnungen und anderen Dokumenten mit einem relativ festen oder vorhersagbaren Format.

 

Scan2x verwendet den Dokument-Fingerabdruck als eine erste Stufe der Dokumentenerkennung.

 

Dokumentinhaltanalyse

Bei der Inhaltanalyse wird der Text innerhalb eines Dokumentenbilds extrahiert. Danach sucht die Anwendung innerhalb des Texts nach Mustern. Diese Methode eignet sich insbesondere für unstrukturierte Dokumente wie etwa normalen Schriftverkehr und E-Mails, wo das Dokumentformat nicht zur Erkennung des Dokumenttyps verwendet wird. In Verbindung mit dem Dokument-Fingerabdruck kann die Inhaltsanalyse jedoch zu einer sehr hohen Erfolgsrate bei der Erkennung und Klassifikation von strukturierten Dokumenten führen.

 

Zur Erkennung strukturierter Dokumente mit Scan2x kann daher die Fingerabdruck-Technologie als Mechanismus für eine erste Stufe der Dokumentenerkennung verwendet werden. Dies ermöglicht zum Beispiel die Unterscheidung zwischen verschiedenen Lieferanten. Wenn ein Lieferant erkannt wurde, kann eine Kombination von OCR-Zone und VBScript-Ausdruck verwendet werden, um den spezifischen Dokumenttyp des Lieferanten zu erkennen.

 

Die automatische Dokumentenerkennung mit Scan2x kann mit dem Beispiel der Kreditorenbuchhaltung veranschaulicht werden. Es wird erklärt, wie die ADR-Funktion funktioniert und wie sie eingerichtet wird. Bei der Kreditorenbuchhaltung werden mehrere Lieferantenrechnungen in Stapeln gescannt, die durch Dokumentenseparatoren getrennt werden. Weitere Informationen zu Dokumentenseparatoren finden Sie auf Seite 196. Benutzer fügen zwischen den einzelnen Rechnungen einen Dokumentenseparator ein und scannen mehrere Dokumente unterschiedlicher Lieferanten in einem einzigen Stapel. Jedes Dokument hat ein unterschiedliches Layout und kann auch von einem unterschiedlichen Dokumenttyp sein. Es können zum Beispiel Lieferantenrechnungen, Lieferscheine, Zahlungsavis oder andere strukturierte Dokument gemeinsam gescannt werden. Scan2x verwendet die erste Seite jedes Dokuments, um die Fingerabdruckerkennung durchzuführen, und leitet jedes Dokument an das betreffende Profil weiter, wo es entsprechend den Profileinstellungen indexiert und verarbeitet wird.

 

Die Dokumentenerkennung kann in Scan2x in ein paar einfachen Schritten eingerichtet werden:

1.Für jedes zu erkennende Dokument wird ein Auftrags-Button erstellt.

2.Danach wird eine ADR-Gruppe eingerichtet und alle in Schritt 1 erstellten Profile werden in sie verschoben.

3.Der Erkennungs-Engine werden Dokumentbeispiele bereitgestellt, anhand derer der Fingerabdruck-Lernprozess beginnt.

 

 

ADR-Vorlagen

Die Bereitstellung von Beispieldokumenten für die einzelnen Dokumenttypen ermöglicht es Scan2x, die Merkmale der einzelnen Dokumenttypen zu „lernen“ – Logo-Position, falls vorhanden, Tabellen, Kopf- und Fußzeilen usw. In Scan2x werden diese Dokumente als ADR-Vorlagen bezeichnet. Es ist möglich (und ratsam), für die verschiedenen Dokumenttypen jeweils mehrere Vorlagen bereitzustellen, sodass Scan2x seine internen Definitionen genau abstimmen und somit beim tatsächlichen Scanvorgang dann bessere Erkennungsergebnisse liefern kann.

 

Auf der folgenden „ADR-Vorlagen“-Registerkarte ist eine Liste aller Profile für die ADR-Gruppe zu sehen und es ist möglich, auf dieser Registerkarte weitere ADR-Vorlagen hinzuzufügen.

 

 

Zunächst werden die hier bei der Erstellung der ADR-Gruppe hinzugefügten ADR-Vorlagen verwendet, um die ersten Stapel von gescannten Dokumenten zu erkennen. Wenn für jedes Dokumentenprofil nur eine Vorlage hinzugefügt wird, ist es möglich, dass ein Teil der gescannten Dokumente bei den ersten Scandurchläufen nicht erkannt wird. Daher ist es möglich, zum Zeitpunkt des Scans Dokumenttypen zuzuweisen. Diese Zuweisungen werden von Scan2x genutzt, um die Vorlagenliste oben zu erweitern, wodurch die Informationen über die einzelnen Dokumentenprofile ergänzt werden.

 

 

 

Copyright © 2022 Avantech Software