44
KÉZZEL ÍRT SZÖVEG NORMALIZÁLÁSA Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08.

Kézzel írt szöveg normalizálása

  • Upload
    gaurav

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

Kézzel írt szöveg normalizálása. Készítette: Nagy Levente Konzulens: Dr. Vámossy Zoltán egyetemi docens 2012.01.08. A karakter felismerés két fő módja. Online-felismerés:. kisebb erőforrás igény processzor idő memória több adat az inputról sebesség sorrendiség - PowerPoint PPT Presentation

Citation preview

Page 1: Kézzel írt szöveg normalizálása

KÉZZEL ÍRT SZÖVEG

NORMALIZÁLÁSAKészítette:

Nagy LeventeKonzulens:

Dr. Vámossy Zoltán egyetemi docens

2012.01.08.

Page 2: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A karakter felismerés két fő módja

Offline-felismerés:

Online-felismerés:

2

• kisebb erőforrás igény• processzor idő• memória

• több adat az inputról• sebesség• sorrendiség• toll nyomásának erőssége

• valós időben kell feldolgozni

• csak a szöveg képe áll rendelkezésre• több idő áll rendelkezésre a feldolgozáshoz

Page 3: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A kézzel írott szöveg típusaiIzolált karakterek:

Nyomtatott írás:

Folyóírás:

3

http://www.iform.hu/download/iform_keziras_felismeres_2oo4.pdf

Page 4: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A felismerési technológiák fejlődése:

http://www.parascript.com/company2/tech_overview.cfm

4

Page 5: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Alkalmazási területek

5

Page 6: Kézzel írt szöveg normalizálása

Input képek

6

http://www.iam.unibe.ch/fki/databases/iam-handwriting-database

Page 7: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Az input képek tulajdonságai

7

• angol nyelv• folyóírás• 1539 beolvasott oldal• 657 különböző ember által• több féle különböző tollal• 15 különböző téma• 115 320 szó, és „megoldásaik”Felépítése:• Sentence Database felirat és az űrlap sorszáma• a leírandó szöveg nyomtatva• a kézzel írt szöveg helye• az aláírás helye

Az egyes régiók egy vékony vízszintes vonallal vannak elválasztva.

Page 8: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A felismerés lépései

8

• a dokumentum binarizálása• a dokumentum elforgatása• a kézzel írt rész behatárolása• a sorok kinyerése• a sorok normalizálása• a jellemzők kinyerése• a jellemzők feldolgozása

Page 9: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Binarizálás

9

Otsu Isodata

Eredeti• a globális küszöbölések szkennelt képek esetén megfelelőek lehetnek, a homogén háttér miatt

Page 10: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Otsu binarizálás

10

X: intenzitás mértéke

Y: előfordulások darabszáma

- hisztogam alapú binarizálás

Page 11: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A dokumentum elforgatása

11

• például 2 fokonként forgatjuk a képet, és minden állapotban készítünk a képről egy vízszintes hisztogrammot (projekciót)

• az lesz a helyes elforgatási szög, ahol a legnagyobb csúcsok vannak

[1]

Page 12: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A dokumentum elforgatása

12

Fourier transzformációval:• Fourier transzformáció• Gamma korrekció és kontraszt növelés• Binarizálás magas küszöbbel• A középső és a legalsó pont x koordinátabeli különbségének meghatározása

Page 13: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

13

Page 14: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

14

Page 15: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

15

Page 16: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

16

Page 17: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

17

Page 18: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A kézzel írt rész behatárolása

18

Megvizsgált módszerek:• Hough transzformáció (vonalkeresés)• Vízszintes projekció• Kontúrkeresés majd behatároló téglalap számítás

Page 19: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A kézzel írt rész behatárolása

19

Hough transzformációval:

Page 20: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

20

Vízszintes projekcióval: Fekete-fehér váltások száma:

Page 21: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

21

Szürkeskálás kép projekciója: Binarizált kép projekciója:

Page 22: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

22

Binarizált kép projekciója: Simított:

Page 23: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Vonalak megtalálása kontúrkereséssel

23

A befoglaló téglalapok meghatározása:

Az a téglalap aminek szélessége legalább a 75%-a a dokumentum szélességének, az lesz elválasztó egyenes.

Page 24: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Vonalak megtalálása kontúrkereséssel

24

Az aláírás rálóg a vonalra:

Az utolsó sor rá van írva a vonalra:

• Ha a befoglaló téglalap tetejétől vágunk, nem marad bent a felesleges aláírás, viszont elvész az utolsó sor• Ha az aljától vágunk, akkor a sor meglesz, viszont az aláírás is

Page 25: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok kinyerése

25

• szintén vízszintes hisztogram

• a völgyeknél lesz az elválasztó vonal

• átlógó vonások problémája

[2]

Page 26: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok kinyerése

26

A simított vizszintes projekción meghatározott csúcsok által:

A simítás miatt a sorok alja és teteje levágódik, simítás nélkül viszont a zaj miatt túl sok hamis csúcs keletkezne, és ez által hamis sorok.

Page 27: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok kinyerése

27

Kontúrkeresés és befoglaló téglalapok:

Page 28: Kézzel írt szöveg normalizálása

28

Kontúrok + befoglaló téglalapok + kontúrok súlypontjai + sorok projekció alapján

A sorok kinyerése

Page 29: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

29

A sorok kinyeréseEgybelógó sorok problémája:

Page 30: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A sorok elforgatása

30

• oszloponként a legalsó fekete pixel helyének megkeresése (betűk talpa)• ezen helyek felhasználása a lineáris regresszióban• megkapjuk az írás alapvonalát• ennek ferdesége alapján forgatjuk el a sort

Page 31: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

31

A sorok elforgatása

Egyszerű lineáris regresszió Kendall-Theil

Page 32: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Az írás dőltségének megszüntetése

32

• itt függőleges hisztogramot készítünk a sorokról• fokonként nyíró transzformációval forgatunk• ahol a legmagasabbak a csúcsok a hisztogramban az a helyes forgatási fok

[3]

Page 33: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

33

Page 34: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

34

Globális dőlésszög meghatározással:

Az írás dőltségének megszüntetése

Page 35: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Sorok régióinak meghatározása és normalizálása

35

• ki kell számolni a horizontális projekció deriváltját• venni kell az értékek közül a legnagyobb 20%-ba tartozókat• ezeknek a súlypontját ki kell számolni• az alsó és felső alapvonal a legalsó és legfelső helyen lesz, ahol a távolság még kisebb a középvonaltól való távolságok szórásának a felénél

[4]

Page 36: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

36

Page 37: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A betűk szélességének normalizálása

37

• az alsó- és felső alapvonal közt középen elhelyezkedő vonal meghatározása (zöld egyenes)

Page 38: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

38

A betűk szélességének normalizálása

• a középvonal mentén előforduló fehér-fekete pixel átmenetek megszámolása• ez a darabszám jó becslést ad arra mennyi betű lehet a sorban• ennek függvényében nyújtjuk vagy zsugorítjuk széltében a sort, hogy a betűk szélessége normalizálva legyen

Page 39: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

39

A kép intenzitásértékeinek normalizálása

• A kép intenzitásértékeinek széthúzása 0-255 tartományba:

Page 40: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A jellemvektor

40

• offline-felismerés esetén 9 jellemző• a számtani közepe a pixelek szürkeárnyalatos intenzitásainak,• a pixelek súlypontja,• a pixelek másodrendű súlypontja,• a legfelső és legalsó pixelek helye,• ezen helyek változásának mértéke a környező ablakokhoz képest,• az előtér és háttér váltások száma a legfelső és legalsó pixelek között,• az előtér pixelek eloszlása a legfelső és legalsó pixelek között.

• online-felismerés esetén 25 jellemző• a fenti jellemzők mellett még pl.:

• a toll nyomásának mértéke• a tollvonás sebessége• az előző és következő időkeretben lévő pontokkal bezárt szög• az előző és következő időkeretben lévő pontok közti távolság• stb.

Page 41: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

A jellemvektorok időkeretenként

41

Page 42: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Kitekintés

42

A jellemvektorok valamilyen tanítóalgoritmus inputjaként szolgálhatnak, ezek jellemzően:• Rejtett Markov Modellek (Hidden Markov Models - HMMs)• Mesterséges Neuronhálózatok (Artificial Neural Networks – ANNs)

• A Rejtett Markov Modellek már bizonyítottak számos szekvencia osztályozási problémában, pl.: beszédfelismerés• Neuronhálózatok esetében pedig azok a topológiák alkalmazhatóak ahol a hálózat figyelembe veszi az időben megelőző (és esetleg rákövetkező) inputokat is

A jellemvektorok felhasználása:

Page 43: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Irodalomjegyzék

43

[1] E. Kavallieratou, N. Fakotakis és G. Kokkinakis, „Skew angle estimation for printed and handwritten documents using the Wigner-Ville distribution”, Image and Vision Computing 20, 2002, pp. 813-824[2] R. Manmatha és J. L. Rothfeder, „A Scale Space Approach for Automatically Segmenting Word from Historical Handwritten Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 27, no. 8, 2005, pp. 1212-1225[3] M. Pastor, A. Toselli és E. Vidal, „Projection Profile Based Algorithm for Slant Removal”, Image analysis and recognition: internaional conference, ICIAR 2004, part 2, 2004, pp. 183-190[4] M. Schüßler és H. Niemann „A HMM-based System for Recognition of Handwritten Address Words”, In Proceedings of Sixth Int. Workshop on Frontiers in Handwriting Recognition 98, Taejon, South Korea

Page 44: Kézzel írt szöveg normalizálása

Óbudai Egyetem - Neumann János Informatikai Kar Informatikai és Automalizált Rendszerek Szakirány

Kérdések

44

Köszönöm a figyelmet