28

Abbyy & ocr technieken

Embed Size (px)

DESCRIPTION

About OCR with Abbyy software

Citation preview

Page 1: Abbyy & ocr technieken
Page 2: Abbyy & ocr technieken

Over Elveo b.v.Uw partner bij het in de praktijk brengen van document

automatisering;Meer dan 20 jaar ervaring in scanning en herkenning;Gespecialiseerd in optimaliseren van werkprocessen met

behulp van digitalisering.

Page 3: Abbyy & ocr technieken

Al vanaf 1989 een van de grootste producenten op OCR gebied

Over Abbyy

1. Abbyy Finereader2. Flexicapture3. Recognition Server

Page 4: Abbyy & ocr technieken

OCR (Optical Character Recognition)ICR (handprint recognition)OMR (checkmark recognition)Barcodes recognitionDocument conversion with accurate layout retrievalPDF conversion (in and out) with advanced security &

accessibility supportFixed and semi-structured forms and documents captureDocuments classification

4

ABBYY FineReader Engine: een breed scala aan toepassingseigenschappen

Page 5: Abbyy & ocr technieken

Stap 1. Scanning, Image Laden, Pre-Processing en aanpassenCompenseren van imagefouten en het beter leesbaar maken van het

document geschikt voor automatische OCRStap 2. Document Layout Analysis

Detectie van documentsecties, analyze layout en het vinden van barcodes

Stap 3. Character RecognitionAutomatische herkenning van karakters, toepassen van geselecteerde

taalherkenning , bibliotheken en andere settingsStap 4. Verificatie door Operators (optioneel)

Handmatige validatie van mogelijk fout herkende karakters en woordenStap 5. Document Synthese en Export

Generen van het output document in gewenst formaat

5

ABBYY OCR Processing

Page 6: Abbyy & ocr technieken

Stap 1. Image Laden, Pre-Processing en aanpassen

Intelligente filtering van de achtergrond

‘Adaptive’ Binarisatie

6

OCR Processing Steps

Algemene binarisatie op image niveau leidt niet tot een optimaal OCR resultaat

Page 7: Abbyy & ocr technieken

Stap 1. Image Laden, Pre-Processing en aanpassen Compensatie van scanfouten

Automatisch rechtzetten naar correcte positionering

Corrigeren teksregels Gecontroleerde “de-speckle”

(wegpoetsen vervuilende pixels)

7

ABBYY OCR Processing Steps

Page 8: Abbyy & ocr technieken

Stap 2. Document Layout Analyse

8

Document Layout Analyse

Page 9: Abbyy & ocr technieken

Stap 3. Karakter herkenningNa de lijn detectie volgt de herkenning van karakters met verschillende

`classifiers´

9

OCR Processing Steps

Raster classifier Contour classifier

Page 10: Abbyy & ocr technieken

10

Document Analyse (DA) maakt het verschilABBYY FlexiCapture Engine

DA met behoud van de Layout (FineReader)

“Eigen factuur DA Logic” (FlexiLayout)

Page 11: Abbyy & ocr technieken
Page 12: Abbyy & ocr technieken

12

ABBYY Terminologie & Document Types

Vaste structuren:Vragenlijsten, enquetes, multiple choice testen, vaak handgeschreven Identieke layout

Semi-gestructureerd:Facturen, prijslijsten, paspoorten,vrachtbrieven, inkoop orders Gelijke data maar andere layouts

Ongestructureerd:Contracten, brieven, artikelenOngestrucureerde inhoud en verschillende layouts

Page 13: Abbyy & ocr technieken

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

Page 14: Abbyy & ocr technieken

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

Page 15: Abbyy & ocr technieken

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

Page 16: Abbyy & ocr technieken

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

Page 17: Abbyy & ocr technieken

OCR TechniekenOCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

OCR – Optical Character RecognitionICR – Intelligent Character RecognitionOMR – Optical Mark RecognitionBarcodeHandschrift

Page 18: Abbyy & ocr technieken

De standaard mogelijkhedenVolledige tekst herkenningVolledige tekst herkenningClassificerenClassificerenIndex velden en/of vaste data gegevens uitlichten, Index velden en/of vaste data gegevens uitlichten, Redactioneel (b.v. anonimiseren van correspondentie)Redactioneel (b.v. anonimiseren van correspondentie)Routeren van poststukkenRouteren van poststukkenAutomatisch archiverenAutomatisch archiverenHergebruik van tekstenHergebruik van tekstenImage RotatieImage Rotatie

Page 19: Abbyy & ocr technieken

Volledige tekst herkenningALLE text op de paginaInclusief:

Image Pre-processingDocument Analyse/Zone herkenningData extractieExport naar PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel,

PowerPoint and DBF

Page 20: Abbyy & ocr technieken

ClassificerenDe Software herkent de dokument soortenScan batches van gemengde documenten

Page 21: Abbyy & ocr technieken

Ondersteuning Image processingGebruik van OCR techniek om archiefstructuren vast te

leggenBijvoorbeeld door barcodes, zone herkenning of combinatie

van factoren.

Page 22: Abbyy & ocr technieken

Vaste Formulier Verwerking

Page 23: Abbyy & ocr technieken

Semi gestructureerde formulieren

Page 24: Abbyy & ocr technieken

Ongestructureerde documenten

Vastleggen:•Datum•Afzender•Contactpersoon

Page 25: Abbyy & ocr technieken

Techniek: Hoe accuraatOf liever, hoe bepaal je de accuratesse

Dokumentsoort accuratesseVeld/Zone locatie accuratesseDatasoort accuratesseWoord accuratesseKarakter/cijfer accuratesse

Bedenk dat fouten niet altijd zichtbaar zijn en bepaal daarom van tevoren de invloed van mogelijke herkenningsfouten.

Page 26: Abbyy & ocr technieken

26

OCRModerne OCR technologie behaalt:

98-99% accuratesse bij machinefonts

90-95% accuratesse bij handschriften

Nut van OCR wordt bepaald door het percentage herkende karakters alsmede het percentage fouten daarin

Controleren en corrigeren van OCR-fouten kost 10 keer zo veel tijd als data entry van niet herkende karakters.

Page 27: Abbyy & ocr technieken

27

Waarderingsformule OCRDe waardebepaling van OCR op een schaal van 1 – 100.

Volgens de formule: P-(10*fout) = waarderingscijfer

Bijvoorbeeld: het cijfer voor een systeem dat 90% van de karakters herkend maar daarvan 4% foutief komt neer op 90-(10*4) = 50.

Het verhogen van de herkenningsgraad met 5% tot 95% leidt tot een cijfer van 55. (95-(10*4)=55.

Het verlagen van het foutpercentage met 2% echter leidt tot een waardering van 70. (90-(10*2)=70.

Page 28: Abbyy & ocr technieken

Pas op, bespreek het totaalScanner / InputIndex gegevensOpslagZorg van tevoren voor een lijst met prioriteiten.