О дешифровке рукописных исторических документов

Preview:

DESCRIPTION

О дешифровке рукописных исторических документов. А.А. Рогов, А.В. Скабин, И.А. Штеркель. Петрозаводский Государственный Университет. - PowerPoint PPT Presentation

Citation preview

А.А. Рогов, А.В. Скабин, И.А. Штеркель

Петрозаводский Государственный Университет

На сегодняшний день в архивах России накопился большой объем нерасшифрованных стенографических документов. В XIX и начале XX веков стенография в России находилась в процессе становления, поэтому существующие документы записаны в разных системах.

Бинаризация документов; создание БД графики стенографических

символов; кластеризация изображений

стенографических символов; создание базы данных стенографических

символов; выделение строк; разработка математической модели

распознавания символа; поиск символа в базе данных;

Гистограммы RGB и HSB

оригинальное изображение имеет низкое качество;

при бинаризации происходят разрывы символов;

при сегментации возникает необходимость разбиения символов

Отношение высоты к ширине; Подсчет количества сегментов; Поиск по шаблону; Сравнение проекций; Граф на основе точек сопряжения; Сравнение длин отрезков; Моменты Ху; Метод «Shape context».

Отношение высоты к ширине

Подсчет количества сегментов

Поиск по шаблону

h

w

𝑅= ℎ𝑤

Сравнение проекций

Граф на основе точек сопряжения;

Сравнение длин отрезков

138,6 112 205 201 206

16,8 45 70 79 79

Моменты Ху

1 2 3 4 5

Hu1 0,2147 0,2094 0,2176 0,2117 0,1938

Hu2 0,0139 0,0109 0,0136 0,0053 0,0034

Hu3 1,5925E-05 1,8696E-05 5,6078 3,0727E-05 5,6286E-06

Hu4 1,2413E-05 1,7896E-05 4,3674E-05 9,3077E-06 4,7169E-06

Hu5 1,7090E-10 3,1893E-10 2,1551E-09 1,5224E-10 2,4304E-11

Hu6 8,5411E-07 1,2221E-06 3,6388E-06 1,6644E-07 7,9079E-08

Hu7 3,5408E-11 -7,3859E-11 -1,6609E-10 3,9974E-11 1,5291E-13

Метод «Shape context»

Определение номера корзины для точки:

Сравнение гистограмм:

K – множество корзинокhi(k), hj(k) – значения гистограмм

pi, qj – точки изображений

π(i) – i-й вариант назначений

nl = 12 nc = 5 nl = 12 nc = 5 nl = 12 nc = 5 nl = 8 nc = 5 nl = 8 nc = 5 nl = 8 nc = 5

3304 1789 2888 2978 1411 2677

898 350 1064 825 246 862

Методы, основанные на проекции изображения на вертикальную ось (центров символов, количества символов, черных пикселей символов);

Метод поиска символа, ближайшего к уже найденному символу в строке;

Комбинированный алгоритм

Искривление строк при письме:

Подстрочные и надстрочные символы:

Исправления в тексте:

- последовательность стенографических символов

- множество его возможных распознаваний для символа

- возможные трактовки распознанного символа

- распознанный текст

nxx ,,1

kl

k

kxx ,,1

kxkim

ki

kiyy ,,1

kix

n

n

ni

j

i

jyy ,,1

1

1

Ставится задача найти такой набор индексов, чтобы вероятность правильного распознавания была максимальной.

, где

На основании формулы Байеса равна

Оценка k-го (k>3) имеет вид

max*1

*

*1*1

1 i

n

ni

j

i

jyyP n1

1

1 ni

j

i

j nyyP ,1 11 li ,,1

111 imj ,1 nn li .1nnin mj

n1

1

1 ni

j

i

j nyyP

1-n1

1

11

1

n1

1

n1

1

11

in

nj

i

j

nn yy

ni

j

i

j

ni

j

i

jyPyPyyP

1-k1

1

33

3

k11

331-k1

1

11

1

k 1ik

kj

kik

kjk

kki

kki

kik

kj

i

jk yy

ki

jxx

ki

yy

ki

jyPaxaPyP

Ac – точность вычисления

- расстояние между символом и его возможным эталонным значением

- частота появления комбинации символов

kki

li

kkik

ki

li

xxR

xxRxxR

bAc

k

k

k

,

,,

max

max

1

1 1

113

3

13

3

ki

ki

ki

ki

kk

kk

xxN

xxNb

kki xxRk,

kiki kk

xxN 3

3

, где

частота появления фрагмента текста

Данная оценка производится на основании

анализа текстов автора, в данном случаеФ.М. Достоевского.

11-k

1

3

3

k3

3

13

3

ik

j

ik

j

ki

j

ik

j

k

k

k

k

k

k

yyN

yyNPc

k3

3

3 ki

j

ik

j k

k

kyyN

k3

3

3 ki

j

ik

j k

k

kyy

Recommended