Upload
gaurav
View
40
Download
0
Embed Size (px)
DESCRIPTION
Kézzel írt szöveg normalizálása. Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08. A karakter felismerés két fő módja. Online-felismerés:. kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség - PowerPoint PPT Presentation
Citation preview
KÉZZEL ÍRT SZÖVEG
NORMALIZÁLÁSAKészítette:
Nagy LeventeKonzulens:
Dr. Vámossy Zoltán egyetemi docens
2012.01.08.
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A karakter felismerés két fő módja
Offline-felismerés:
Online-felismerés:
2
• kisebb erőforrás igény• processzor idő• memória
• több adat az inputról• sebesség• sorrendiség• toll nyomásának erőssége
• valós időben kell feldolgozni
• csak a szöveg képe áll rendelkezésre• több idő áll rendelkezésre a feldolgozáshoz
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írott szöveg típusaiIzolált karakterek:
Nyomtatott írás:
Folyóírás:
3
http://www.iform.hu/download/iform_keziras_felismeres_2oo4.pdf
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A felismerési technológiák fejlődése:
http://www.parascript.com/company2/tech_overview.cfm
4
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Alkalmazási területek
5
Input képek
6
http://www.iam.unibe.ch/fki/databases/iam-handwriting-database
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Az input képek tulajdonságai
7
• angol nyelv• folyóírás• 1539 beolvasott oldal• 657 különböző ember által• több féle különböző tollal• 15 különböző téma• 115 320 szó, és „megoldásaik”Felépítése:• Sentence Database felirat és az űrlap sorszáma• a leírandó szöveg nyomtatva• a kézzel írt szöveg helye• az aláírás helye
Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva.
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A felismerés lépései
8
• a dokumentum binarizálása• a dokumentum elforgatása• a kézzel írt rész behatárolása• a sorok kinyerése• a sorok normalizálása• a jellemzők kinyerése• a jellemzők feldolgozása
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Binarizálás
9
Otsu Isodata
Eredeti• a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Otsu binarizálás
10
X: intenzitás mértéke
Y: előfordulások darabszáma
- hisztogam alapú binarizálás
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A dokumentum elforgatása
11
• például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót)
• az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak
[1]
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A dokumentum elforgatása
12
Fourier transzformációval:• Fourier transzformáció• Gamma korrekció és kontraszt növelés• Binarizálás magas küszöbbel• A középső és a legalsó pont x koordinátabeli különbségének meghatározása
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
13
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
14
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
15
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
16
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
17
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írt rész behatárolása
18
Megvizsgált módszerek:• Hough transzformáció (vonalkeresés)• Vízszintes projekció• Kontúrkeresés majd behatároló téglalap számítás
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A kézzel írt rész behatárolása
19
Hough transzformációval:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
20
Vízszintes projekcióval: Fekete-fehér váltások száma:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
21
Szürkeskálás kép projekciója: Binarizált kép projekciója:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
22
Binarizált kép projekciója: Simított:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vonalak megtalálása kontúrkereséssel
23
A befoglaló téglalapok meghatározása:
Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes.
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Vonalak megtalálása kontúrkereséssel
24
Az aláírás rálóg a vonalra:
Az utolsó sor rá van írva a vonalra:
• Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor• Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése
25
• szintén vízszintes hisztogram
• a völgyeknél lesz az elválasztó vonal
• átlógó vonások problémája
[2]
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése
26
A simított vizszintes projekción meghatározott csúcsok által:
A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok.
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok kinyerése
27
Kontúrkeresés és befoglaló téglalapok:
28
Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján
A sorok kinyerése
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
29
A sorok kinyeréseEgybelógó sorok problémája:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A sorok elforgatása
30
• oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa)• ezen helyek felhasználása a lineáris regresszióban• megkapjuk az írás alapvonalát• ennek ferdesége alapján forgatjuk el a sort
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
31
A sorok elforgatása
Egyszerű lineáris regresszió Kendall-Theil
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Az írás dőltségének megszüntetése
32
• itt függőleges hisztogramot készítünk a sorokról• fokonként nyíró transzformációval forgatunk• ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok
[3]
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
33
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
34
Globális dőlésszög meghatározással:
Az írás dőltségének megszüntetése
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Sorok régióinak meghatározása és normalizálása
35
• ki kell számolni a horizontális projekció deriváltját• venni kell az értékek közül a legnagyobb 20%-ba tartozókat• ezeknek a súlypontját ki kell számolni• az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél
[4]
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
36
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A betűk szélességének normalizálása
37
• az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes)
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
38
A betűk szélességének normalizálása
• a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása• ez a darabszám jó becslést ad arra mennyi betű lehet a sorban• ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
39
A kép intenzitásértékeinek normalizálása
• A kép intenzitásértékeinek széthúzása 0-255 tartományba:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A jellemvektor
40
• offline-felismerés esetén 9 jellemző• a számtani közepe a pixelek szürkeárnyalatos intenzitásainak,• a pixelek súlypontja,• a pixelek másodrendű súlypontja,• a legfelső és legalsó pixelek helye,• ezen helyek változásának mértéke a környező ablakokhoz képest,• az előtér és háttér váltások száma a legfelső és legalsó pixelek között,• az előtér pixelek eloszlása a legfelső és legalsó pixelek között.
• online-felismerés esetén 25 jellemző• a fenti jellemzők mellett még pl.:
• a toll nyomásának mértéke• a tollvonás sebessége• az előző és következő időkeretben lévő pontokkal bezárt szög• az előző és következő időkeretben lévő pontok közti távolság• stb.
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
A jellemvektorok időkeretenként
41
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Kitekintés
42
A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően:• Rejtett Markov Modellek (Hidden Markov Models - HMMs)• Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs)
• A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés• Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is
A jellemvektorok felhasználása:
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Irodalomjegyzék
43
[1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp. 813-824[2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for Automatically Segmenting Word from Historical Handwritten Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no. 8, 2005, pp. 1212-1225[3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp. 183-190[4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea
Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány
Kérdések
44
Köszönöm a figyelmet