Geschiedenis en toekomst van ABBYY FlexiCapture

ABBYY Document Capture geschiedenis

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ABBYY Document Capture geschiedenis

Het ontstaan van ABBYY FlexiCapture

ABBYY FlexiCapture is het aansprekende product geweest voor andere fabrikanten om de volgende generatie Data Capture software te gaan ontwikkelen. ABBYY FlexiCapture was de eerste Data Capture oplossing die in het bijzonder gebruik maakt van een compleet nieuwe architectuur. Deze oplossing paste in de tijdsgeest waar steeds opnieuw betere Data Capture resultaten van onze technische inspanningen werd verwacht. Laten we als aansprekend voorbeeld de data extractie van ‘ongestructureerde data’ nader uitdiepen. Wat is dan precies ‘ongestructureerde data’ en waar zit nu precies die innovatie in?

Voordat we verder in de innovatieve wereld van de ongestructureerde document herkenning duiken is een korte terugblik op de van voor 1990 geldende innovatieve Data Capture softwareoplossingen op zijn plaats.

Laten we als voorbeeld Data Capture toepassingen in kantoor automatiseringsomgevingen factuur herkenning eens nader bekijken. Dat was in de jaren 90 al een belangrijke Data Capture software toepassing. In tijd werd voor de extractie van factuurgegevens gebruik gemaakt van ‘Regular Expressions’ (Regex).

Regular Expressions uitgelegd

Zo’n Regular Expression is een korte definitie (de expressie).  Een term die vaak afgekort wordt als “RegEx”. Om deze afkorting kort en goed te omschrijven kan je deze “RegEx” het beste voorstellen als mix tussen computer programmeercode en een wiskundige formule zoals je die vroeger op school hebt geleerd. Het is dus het best samengevat als een korte tekst met variabelen die aangeven waar je naar op zoek bent. Met andere woorden: aan welke voorwaarde moet worden voldaan om een bepaald resultaat te accepteren.

In de basis werkt dat best wel simpel, je trekt met de muis een zone rond het te herkennen veld, ter illustratie, het datumveld op je te herkennen factuur. Vervolgens beschrijf je in een bij het programma behorende scriptbox de door jouw gewenste Regex definitie die op dat specifieke datum veld van toepassing is. Op deze manier kan je gegevens uit ieder document zoals in dit voorbeeld een factuur, extraheren. Dat was Data Capture in de jaren 90, data extractie vooral mogelijk gemaakt door het Regular Expressions gebruik.

ABBYY FormReader en Regular Expressions

In die roerige jaren 90 waar kantoorautomatisering en alle initiatieven daaromheen zich een weg zochten naar aantoonbare efficiëntie ligt de oorsprong en het ontstaan van EasyData.

Zo waren EasyData Engineers al vroeg betrokken bij de implementatie van Data Capture softwareproducten.  ABBYY was toen al een toonaangevende fabrikant die zich vooral profileerde met de beste OCR (Tekstherkenning) producten op de markt verkrijgbaar.  In eerste instantie koppelde ABBYY hun OCR Technologie aan FormReader.
Een pakket waarop je op basis van Regular Expressions (daar heb je ze weer) specifieke veld extracties kon realiseren. Dit was ook een periode waar Data Capture een weg naar nieuwe mogelijkheden vond en klanten al blij waren als we in staat waren basis gegevens van documenten te halen en deze vervolgens correct te kunnen archiveren. Als je deze functionaliteit verder doortrekt kan je stellen dat met FormReader document classificatie al gerealiseerd werd!

Ongestructureerde data

Samengevat kan je stellen dat ABBYY FormReader een product was waarmee Data Capture engineers uitstekend uit de voeten kunnen. Het pakket geeft mogelijkheid voor Engineers om afzonderlijke zones te definiëren. Met Regular Expressions als aanvullende techniek.

De juiste waarde uit de gescande documenten extraheren, dat is het doel. EasyData onderscheidde zich toen al met slimme data extracties op de basis van ABBYY FormReader en de daarbij toegepaste RegEx formules. Ongestructureerde data werd door ons op basis van allereerst veld herkenning gestructureerd. Met de analyse van wat we op documenten aantroffen konden we toen al automatisch vaststellen of het een vrachtbrief, factuur, contract of andersoortig document betrof.

Deze aanpak veranderde volledig met de komst van ABBYY FlexiCapture!

ABBYY FlexiCapture architectuur

Als logisch gevolg van ICT-vooruitgang transformeerde ABBYY FormReader zich rond 2005 tot het baanbrekende ABBYY FlexiCapture. Opnieuw een vooruitstrevende ontwikkeling voor Engineers die zich bezighouden met Data Capture vraagstukken. Bedenk dat die engineers zich constant ontwikkelen om de ambitieuze doelstellingen van dagelijks binnenkomende aanvragen op intelligente wijze in te vullen. Deze nieuwe ABBYY FlexiCapture technologie geeft extra functionaliteit in projecten waar voorheen geen geautomatiseerde oplossing voor denkbaar was.  Grip op ongestructureerde data binnen handbereik van capabele Data Capture engineers.

ABBYY Technologie maakt het verschil

Het verschil met FormReader was dat allereerst dat de afhankelijkheid van zone OCR-herkenning verdween.  Met ABBYY FlexiCapture wordt allereerst het hele document met de superieure ABBYY FineReader OCR technologie herkend. Pas daarna komt de herkenning van ongestructureerde data in beeld. Nadat allereerst het volledige document via OCR-tekstherkenning herkend is kan ABBYY FlexiCapture zich meteen al aan een voorzichtige document classificatie gaan wagen. Voor een Data Capture Engineer die zich over je document vraagstuk gaat buigen een tijdbesparende functionaliteit. Zeker als met de daar achter liggende document profielen reeds de afzonderlijke document typen beschreven zijn. FlexiCapture kenmerkt zich vanaf de introductie als een accuraat Data Capture product.

We gaan op zoek naar factuurnummers!

Stel dat er bijvoorbeeld een woord zoals ‘Factuurnummer’ voor wat gevonden moet worden. Deze vraag komt voort uit een opdracht voor factuurherkenning. Dan wordt de omliggende omgeving van dat woord door FlexiCapture direct actief naar het woord “factuurnummer” gezocht. Die aanpak geeft grote voordelen voor de Engineer die zijn FlexiCapture project foutloos gaat opleveren. Door deze document definitie techniek houdt factuurherkenning in stand. Zelfs als de lay-out veranderd heeft dat dit effect op het eindresultaat. Herken de factuur ongeacht welke lay-out deze heeft.  Veranderd de lay-out van je factuur? Dan zal nog steeds het factuurnummer foutloos gevonden worden! Nu maakt het niet meer uit dat het woord op een totaal andere factuur lay-out plaats voorkomt.

Lay-out van FineReader
Het nieuwe ABBYY FineReader logo

Krijg grip op je ongestructureerde data

ABBYY FlexiCapture kenmerkt zich als een accuraat Data Capture product. Schaalbaar voor ieder gewenste documentimaging en gegevensextractie toepassing. Vanaf de introductie zet ABBYY met FlexiCapture de toon in softwareoplossingen die data structureren. EasyData kiest ook meteen voor ABBYY FlexiCapture SDK en bouwt deze technologie in EasySeparate. Tot 2020 heeft EasyData ABBYY FlexiCapture ondersteunt in EasySeparate. Na 2020 is EasySeparate overgeschakeld op Machine Learning technologie, opnieuw een technologische verbetering!

ABBYY FineReader OCR voor FlexiCapture

De OCR-Engine binnen ABBYY FlexiCapture is FineReader.  Met deze herkenningstechnologie  worden documenten automatisch herkend met superieure OCR kwaliteit. Documenten van elke structuur, met ieder taal of inhoud, de tekst wordt omzet in bruikbare en toegankelijke gegevens. Herkende gegevens worden ontsloten voor iedere vervolg applicatie. ABBYY FlexiCapture heeft veelzijdige exportmogelijkheden.
En waar eventueel exportbeperkingen optreden bewijst zich de toegevoegde waarde van EasyData.

EasyData is gecertificeerd ABBYY Partner
meer dan 20 jaar ABBYY FineReader

Zelflerende classificatie met FlexiForms

Een aantal ABBYY Partners benoemt deze technologie ‘Zelflerend’. Dat zelflerende aspect bestaat eruit dat de ABBYY FlexiCapture technologie buiten vast gedefinieerde OCR zones om naar data zoekt. EasyData blijft weg bij de term ‘zelflerend’. Onze indruk is dat deze technologie een enorme verbetering is en nog steeds menselijke vaardigheden in het proces nodig heeft.

Met de komst van Machine Learning is de opinie wat betreft ‘zelflerend’ bij EasyData gekanteld, we zien in de praktijk dat zelflerende technologie nu wel haarbaal is geworden.

ABBYY FlexiCapture versus Machine Learning

Machine Learning algoritmen zijn niet altijd geschikt om tot resultaten te komen. Om Machine Learning algoritmen goed toe te kunnen passen heb je voorbeelden nodig. Het machine Learning proces moet immers iest te leren hebben. Zonder voldoende document voorbeelden FlexiCapture technologie een goede keuze.

OCR, Het begin van document herkenning

Ongestructureerde data rubriceren

FlexiCapture geeft ontwikkelaars de ruimte. Het pallet mogelijkheden is ineens veel ruimer dan alleen Zone herkenning met behulp van Regular Expressions. Deze geavanceerde herkenningstechnologie is de afgelopen jaren verder ontwikkeld met afzonderlijke Flexi Template modules. De beschikbaar gestelde Flexi Template modules stellen de gebruiker in staat om foutgevoelige handmatige processen te vervangen door automatische documentclassificatie en -verwerking.

Met ABBYY FlexiCapture wordt een flexibel en aanpasbaar systeem bereikbaar voor vrijwel alle document verwerkingsscenario’s. FlexiCapture trainingen bieden de benodigde technische kennis om jezelf nader in deze technologie te bekwamen.  EasyData geeft nog steeds regelmatig ABBYY FlexiCature trainingen. Die trainingen kenmerken zich met meer complexe document definities (FlexiForms). EasyData heeft de kennis om FlexiTemplates te maken en daar onderricht in te geven.

Document invoer

ABBYY FlexiCapture Scanstation

FlexiCapture Scanning Station maakt eenvoudig scannen mogelijk via elk TWAIN-, ISIS- of WIA-compatibel apparaat. De Scanning Station module is verkrijgbaar in thick en thin client-versies.

Het Scanning Station beschikt over individuele scanprofielen, waarmee vooraf gedefinieerde instellingen voor toepassingen kunnen worden toegepast op specifieke te scannen documenten.

Bij het scannen van een nieuwe set documenten hoeft de gebruiker alleen het juiste profiel te kiezen uit een vervolgkeuzemenu.

Ongestructureerde documenten met FlexiForms

ABBYY FlexiCapture Scanstation

FlexiCapture Scanning Station maakt eenvoudig scannen mogelijk. Je kan FlexiCapture via elk TWAIN-, ISIS- of WIA-compatibel apparaat aansturen. De FlexiCapture Scanning Station module is verkrijgbaar in verschillende versies, altijd passend bij jouw organisatie en toepassing. Het Scanning Station beschikt over instellingen voor individuele scanprofielen. Hiermee kan je vooraf gedefinieerde instellingen voor specifieke document verwerkingsprofielen opgeven. Bij het scannen van een nieuwe set documenten hoeft de gebruiker dan alleen maar het juiste profiel te kiezen uit een vervolgkeuzemenu.

Web Scanning Station

FlexiCapture beschikt ook over de mogelijkheid om via de browser documenten te scannen!
Daar is echt wat veranderd. Waar vroeger alleen lokaal gescand kon worden, de scanner was meteen verbonden aan de computer, is met de huidige stand van techniek online scanning goed mogelijk.

Zo scan je met je scanner naar het Internet op een veilige manier. Bijkomend voordeel is dat je alle vervolg applicaties niet meer op je eigen computer hoeft te hebben werken. Daar bij heeft EasyData voor een aantal klanten hier eigen invoer scan toevoegingen ontwikkeld. In het geval je Met Webscan functionaliteit nodig hebt kunnen we je over de verschillende opties adviseren. Sterker, met EasyData licentie beleid wordt online document scannen technisch haalbaar en kosten effectief.

Beeldverbetering

Vooraf geladen of in-gescande afbeeldingen kunnen tegenwoordig vóór de verdere document verwerking makkelijk verbeterd worden.  Scan verbetering is een techniek die in samenwerking met de modernste Machine Learning technieken niet stil staat. EasyData is steeds bezig scan voorbereiding en dus de beeldverbetering te verbeteren. Je kan meer lezen over intelligente beeldverbetering en hoe EasyData
hier oplossingen voor verzorgt via deze link.

FlexiCapture verificatie

Ongestructureerde data, herkenning naar structuur

De herkenningsfase start met de classificatie, wat voor soort document zou herkend moeten gaan worden?  Die document classificatie verloopt allereerst via ABBYY FlexiCapture technologie. Als dat niet werkt helpen we een handje, bijvoorbeeld met praktische Regular Expressions.

Na de document classificatie volgt de herkenning stap van de documenten met OCR. Vervolgens wordt op basis van de FlexiCapture document definitie, de afzonderlijk documenten en bijbehorende pagina’s herkend. Nadat de document classificatie klaar is weten we immers ook waar welke velden zich bevinden. Voor document herkenvelden die we niet direct kunnen herleiden helpt de FlexiCapture technologie ons een handje.

Samengevat: Tekst- en gegevensextractie vormt de basis voor document classificatie. Document classificatie helpt mee om tot automatische validatie te komen. Documenten die voldoen aan gestelde eisen in de FlexiForm worden nooit zichtbaar voor de operator van FlexiCapture.  Al deze stadia worden gelijktijdig uitgevoerd in een automatisch proces.

Document classificatie

ABBYY FlexiCapture kan automatisch documenten van meerdere pagina’s samenstellen uit een mix van afzonderlijk gescande pagina’s. Document scheiding kan bij het scannen worden aangegeven door gebruik te maken van scheidingstekens. Die document scheidingstekens kunnen tot stand komen door paginatelling, speciale document scheiding pagina’s of via geavanceerde ABBYY-classificatie algoritmen die automatische detectie van pagina’s die bij verschillende documenten horen mogelijk maken.

Document export in al zijn facetten

Ongestructureerde data terminologie

We gebruiken hier de term FlexiForms en Document definitie door elkaar heen. Beide betreffen in dit geval dezelfde “FlexiTemplate”. Zo’n FlexiTemplate beschrijft de te zoeken tekst op de gescande pagina en de daarbij te extraheren ongestructureerde data. Klinkt misschien een beetje complex, het maken van een FlexiTemplate kan dat ook zijn.

Gescande documenten verificatie

FlexiCapture heeft verschillende manieren om efficiënt documenten te verifiëren. Alle opties in een
informatief artikel behandelen gaat ten koste van de leesbaarheid. Natuurlijk onderschatten we niet het belang van de lezer om inzage van deze verificatie functionaliteit te krijgen. Dat is ook het doel van dit
artikel,de begrijpelijke uiteenzetting van de wijze waarop binnen ABBYY FlexiCapture wordt nagedacht
over document verificatie.

Online inzicht voor je proces

Gescande documenten verificatie

FlexiCapture heeft verschillende manieren om efficiënt documenten te verifiëren. Alle opties in een informatief artikel behandelen gaat ten koste van de leesbaarheid.

Natuurlijk onderschatten we niet het belang van de lezer om inzage van deze verificatie functionaliteit te krijgen. Dat is ook het doel van dit artikel. Een begrijpelijke uiteenzetting van de wijze waarop binnen ABBYY FlexiCapture wordt nagedacht over document verificatie.

Document groepsverificatie

Groepsverificatie is geschikt voor vinkjes (Checkmarks) en cijfers die op alle te verifiëren documenten worden aangetroffen. Identieke karakter uit de een hele document batch worden samen weergegeven.

Document veldverificatie

Veldverificatie controleert de afzonderlijk definieerde gegevensvelden één voor één. Hier kan bijvoorbeeld veld specifiek een database gekoppeld worden. Dit maakt het voor de operator eenvoudiger de juiste waarde te selecteren.  Op basis van de gevonden data kan in relatie tot de geprogrammeerde velden de juiste waarde automatisch geselecteerd worden, of de operator van een invuladvies voorzien worden.

Verificatie in documentvenster

Herkenningsresultaten van alle vereiste gegevensvelden worden tegelijkertijd bekeken en vergeleken met het originele beeld. Informatie die niet correct wordt herkend, zoals handgeschreven tekst of notities, kan handmatig in de velden worden gecorrigeerd.

Gescande documenten verificatie

Je kan FlexiCapture zo instellen dat documenten automatisch worden geëxporteerd. Klik in het eigenschappendialoogvenster van uw documentdefinitie op Exportinstellingen en selecteer Automatische export inschakelen. Nu worden verwerkte documenten automatisch geëxporteerd, zonder dat een operator op knoppen voor het initialiseren van de export hoeft te klikken.

FlexiCapture kan verschillende exportmogelijkheden standaard verzorgen. De Export opties blijven echter niet beperkt tot deze keuzes. Gebaseerd op het ABBYY Export component kan EasyData iedere gewenste export realiseren. EasyData maakt daarvoor gebruik van onze Business connector. Anderzijds kan ook gebruik worden gemaakt van de export scripting opties die ABBYY FlexiCapture te bieden heeft.

Web gebaseerde beheer- en bewakingsconsole

FlexiCapture heeft een web gebaseerde beheer- en bewakingsconsole die 24/7 toezicht vanaf elke locatie mogelijk maakt. Een beheerder kan eenvoudig gebruikersrechten beheren, gebeurtenislogboeken bekijken, standaardrapporten bekijken of aangepaste prestatierapporten genereren.

ABBYY FlexiCapture Email waarschuwingen

Beheerders kunnen ervoor kiezen om e-mailwaarschuwingen te ontvangen voor belangrijke gebeurtenissen, zoals fouten, het verlopen van licenties of limieten voor het aantal pagina’s. Beheerders kunnen ook worden geïnformeerd over dreigende database-overflow, krapte
van schijfruimte, verzoeken om toegangsrechten of mislukte inlogpogingen.

Use-case van ABBYY FlexiCapture

ABBYY FlexiCapture is in de eerste plaats een softwaretoepassing voor gegevensextractie (Data Capture) voor organisaties. ABBYY FlexiCapture geeft de engineer vrijheid functies voor optische tekenherkenning (OCR) slimmer toe te passen. Tegelijkertijd heeft de gebruiker profijt van de prettige wijze waarop de technlogie zich aan de operator ontvouwd. FlexiCapture haalt automatisch informatie uit de aangeboden documenten. Door ongestructureerde data te extraheren op basis van het opstellen van de al eerder benoemde Regular Expressions (RegEx). Die regels zijn een mooie eerste stap op weg naar slimme veld herkenning en een succesvol Data Capture project!

Maak gebruik van een trefwoorden register

Een vervolgstap voor verdere optimalisatie is bijvoorbeeld een bij het project passend trefwoorden register. Zo’n trefwoorden register moet natuurlijk wel aansluiten bij de Data Capture opdracht. Met dit trefwoorden register kan vervolgens actief naar de locatie van gegevens op een pagina gezocht worden.

Voor ABBYY FlexiCapture zijn kant-en-klare module oplossingspakketten beschikbaar zoals FlexiCapture for Invoices en FlexiCapture for Mailrooms.

Functies ABBYY FlexiCapture

De kernfuncties voor deze technologie zijn samen te vatten onder de volgende kernbegrippen: Classificatie van documenten, die bepalen door middel van hun classificatie hun te herkennen velden. Om deze documentklassen af te stemmen op de overeenkomstige regels voor gegevensextractie is de uitdaging die we graag aangaan. Nadat we de gevonden en herkend hebben moet deze gegevens ergens naartoe geëxporteerd worden. Export naar een database, XML-bestand of Microsoft Excel zijn voor de hand liggende opties. De document classificatie mogelijkheden van ABBYY FlexiCapture kunnen worden gebruikt om veldwaarden uit documenten sets te extraheren en vervolgens te vergelijken.

Flexi project voorbeeld

De aanvraag voor een lening zal afzonderlijke documenten bevatten. Er kunnen aparte regels worden geconfigureerd die van elk document de relevante waarde voor precies dat veld extraheren en vervolgens vergelijken. Om dan eventuele fouten aan de operator te presenteren tijdens de document verificatie fase. In onderstaande afbeelding staan de componenten van de FlexiCapture Server grafisch weergegeven.

ABBYY FlexiCapure overzicht
Specialisten op afroep beschikbaar!

Aanpassings- en integratiemogelijkheden

EasyData past ABBYY FlexiCapture aan voor iedere werkstroom. We maken onder andere gebruik van ABBYY technologie. Als je het artikel gelezen hebt weet je nu dat EasyData daarnaast een uitgebreid palet aan mogelijkheden heeft om gescande documenten te herkennen.

Ook in de technische beeldverbeteringstechniek staat EasyData bekend als technisch toonaangevend.

Beeldverbetering en herkenning van documenten kan worden aangepast aan de individuele workflows en verwerkingsscenario’s. Scripts die uitgevoerd worden tussen de verwerkingsfasen stellen FlexiCapture
in staat documentverwerking aan te passen aan vrijwel elke wens die een opdrachtgever kan stellen.
Scripting maakt het mogelijk om de standaard workflow uit te breiden door het volgende in te schakelen.

ABBYY FlexiCapture Engineers op afroep

EasyData heeft de expertise in huis om ABBYY Partners afzonderlijk te assisteren in hun markt propositie. Stel dat je een project onderhanden hebt en specifieke ABBYY kennis nodig hebt. EasyData voorziet hierin. EasyData ABBYY specialisten werken wereldwijd samen met andere ABBYY Partners om tot succesvolle implementaties te komen.

Heb je vragen over de mogelijkheden op dit punt? We informeren je graag nader!
Jouw succesvolle implementaties dragen zo bij aan het resultaat van ons allemaal!