24
А.А. Рогов, А.В. Скабин, И.А. Штеркель Петрозаводский Государственный Университет

О дешифровке рукописных исторических документов

Embed Size (px)

DESCRIPTION

О дешифровке рукописных исторических документов. А.А. Рогов, А.В. Скабин, И.А. Штеркель. Петрозаводский Государственный Университет. - PowerPoint PPT Presentation

Citation preview

Page 1: О дешифровке рукописных исторических документов

А.А. Рогов, А.В. Скабин, И.А. Штеркель

Петрозаводский Государственный Университет

Page 2: О дешифровке рукописных исторических документов

На сегодняшний день в архивах России накопился большой объем нерасшифрованных стенографических документов. В XIX и начале XX веков стенография в России находилась в процессе становления, поэтому существующие документы записаны в разных системах.

Page 3: О дешифровке рукописных исторических документов
Page 4: О дешифровке рукописных исторических документов

Бинаризация документов; создание БД графики стенографических

символов; кластеризация изображений

стенографических символов; создание базы данных стенографических

символов; выделение строк; разработка математической модели

распознавания символа; поиск символа в базе данных;

Page 5: О дешифровке рукописных исторических документов

Гистограммы RGB и HSB

Page 6: О дешифровке рукописных исторических документов
Page 7: О дешифровке рукописных исторических документов

оригинальное изображение имеет низкое качество;

при бинаризации происходят разрывы символов;

при сегментации возникает необходимость разбиения символов

Page 8: О дешифровке рукописных исторических документов

Отношение высоты к ширине; Подсчет количества сегментов; Поиск по шаблону; Сравнение проекций; Граф на основе точек сопряжения; Сравнение длин отрезков; Моменты Ху; Метод «Shape context».

Page 9: О дешифровке рукописных исторических документов

Отношение высоты к ширине

Подсчет количества сегментов

Поиск по шаблону

h

w

𝑅= ℎ𝑤

Page 10: О дешифровке рукописных исторических документов

Сравнение проекций

Граф на основе точек сопряжения;

Page 11: О дешифровке рукописных исторических документов

Сравнение длин отрезков

138,6 112 205 201 206

16,8 45 70 79 79

Page 12: О дешифровке рукописных исторических документов

Моменты Ху

1 2 3 4 5

Hu1 0,2147 0,2094 0,2176 0,2117 0,1938

Hu2 0,0139 0,0109 0,0136 0,0053 0,0034

Hu3 1,5925E-05 1,8696E-05 5,6078 3,0727E-05 5,6286E-06

Hu4 1,2413E-05 1,7896E-05 4,3674E-05 9,3077E-06 4,7169E-06

Hu5 1,7090E-10 3,1893E-10 2,1551E-09 1,5224E-10 2,4304E-11

Hu6 8,5411E-07 1,2221E-06 3,6388E-06 1,6644E-07 7,9079E-08

Hu7 3,5408E-11 -7,3859E-11 -1,6609E-10 3,9974E-11 1,5291E-13

Page 13: О дешифровке рукописных исторических документов

Метод «Shape context»

Определение номера корзины для точки:

Page 14: О дешифровке рукописных исторических документов

Сравнение гистограмм:

K – множество корзинокhi(k), hj(k) – значения гистограмм

pi, qj – точки изображений

π(i) – i-й вариант назначений

Page 15: О дешифровке рукописных исторических документов

nl = 12 nc = 5 nl = 12 nc = 5 nl = 12 nc = 5 nl = 8 nc = 5 nl = 8 nc = 5 nl = 8 nc = 5

3304 1789 2888 2978 1411 2677

898 350 1064 825 246 862

Page 16: О дешифровке рукописных исторических документов

Методы, основанные на проекции изображения на вертикальную ось (центров символов, количества символов, черных пикселей символов);

Метод поиска символа, ближайшего к уже найденному символу в строке;

Комбинированный алгоритм

Page 17: О дешифровке рукописных исторических документов
Page 18: О дешифровке рукописных исторических документов

Искривление строк при письме:

Подстрочные и надстрочные символы:

Исправления в тексте:

Page 19: О дешифровке рукописных исторических документов

- последовательность стенографических символов

- множество его возможных распознаваний для символа

- возможные трактовки распознанного символа

- распознанный текст

nxx ,,1

kl

k

kxx ,,1

kxkim

ki

kiyy ,,1

kix

n

n

ni

j

i

jyy ,,1

1

1

Page 20: О дешифровке рукописных исторических документов

Ставится задача найти такой набор индексов, чтобы вероятность правильного распознавания была максимальной.

, где

На основании формулы Байеса равна

Оценка k-го (k>3) имеет вид

max*1

*

*1*1

1 i

n

ni

j

i

jyyP n1

1

1 ni

j

i

j nyyP ,1 11 li ,,1

111 imj ,1 nn li .1nnin mj

n1

1

1 ni

j

i

j nyyP

1-n1

1

11

1

n1

1

n1

1

11

in

nj

i

j

nn yy

ni

j

i

j

ni

j

i

jyPyPyyP

1-k1

1

33

3

k11

331-k1

1

11

1

k 1ik

kj

kik

kjk

kki

kki

kik

kj

i

jk yy

ki

jxx

ki

yy

ki

jyPaxaPyP

Page 21: О дешифровке рукописных исторических документов

Ac – точность вычисления

- расстояние между символом и его возможным эталонным значением

- частота появления комбинации символов

kki

li

kkik

ki

li

xxR

xxRxxR

bAc

k

k

k

,

,,

max

max

1

1 1

113

3

13

3

ki

ki

ki

ki

kk

kk

xxN

xxNb

kki xxRk,

kiki kk

xxN 3

3

Page 22: О дешифровке рукописных исторических документов

, где

частота появления фрагмента текста

Данная оценка производится на основании

анализа текстов автора, в данном случаеФ.М. Достоевского.

11-k

1

3

3

k3

3

13

3

ik

j

ik

j

ki

j

ik

j

k

k

k

k

k

k

yyN

yyNPc

k3

3

3 ki

j

ik

j k

k

kyyN

k3

3

3 ki

j

ik

j k

k

kyy

Page 23: О дешифровке рукописных исторических документов
Page 24: О дешифровке рукописных исторических документов