Upload
reuben-monroe
View
47
Download
5
Embed Size (px)
DESCRIPTION
О дешифровке рукописных исторических документов. А.А. Рогов, А.В. Скабин, И.А. Штеркель. Петрозаводский Государственный Университет. - PowerPoint PPT Presentation
Citation preview
А.А. Рогов, А.В. Скабин, И.А. Штеркель
Петрозаводский Государственный Университет
На сегодняшний день в архивах России накопился большой объем нерасшифрованных стенографических документов. В XIX и начале XX веков стенография в России находилась в процессе становления, поэтому существующие документы записаны в разных системах.
Бинаризация документов; создание БД графики стенографических
символов; кластеризация изображений
стенографических символов; создание базы данных стенографических
символов; выделение строк; разработка математической модели
распознавания символа; поиск символа в базе данных;
Гистограммы RGB и HSB
оригинальное изображение имеет низкое качество;
при бинаризации происходят разрывы символов;
при сегментации возникает необходимость разбиения символов
Отношение высоты к ширине; Подсчет количества сегментов; Поиск по шаблону; Сравнение проекций; Граф на основе точек сопряжения; Сравнение длин отрезков; Моменты Ху; Метод «Shape context».
Отношение высоты к ширине
Подсчет количества сегментов
Поиск по шаблону
h
w
𝑅= ℎ𝑤
Сравнение проекций
Граф на основе точек сопряжения;
Сравнение длин отрезков
138,6 112 205 201 206
16,8 45 70 79 79
Моменты Ху
1 2 3 4 5
Hu1 0,2147 0,2094 0,2176 0,2117 0,1938
Hu2 0,0139 0,0109 0,0136 0,0053 0,0034
Hu3 1,5925E-05 1,8696E-05 5,6078 3,0727E-05 5,6286E-06
Hu4 1,2413E-05 1,7896E-05 4,3674E-05 9,3077E-06 4,7169E-06
Hu5 1,7090E-10 3,1893E-10 2,1551E-09 1,5224E-10 2,4304E-11
Hu6 8,5411E-07 1,2221E-06 3,6388E-06 1,6644E-07 7,9079E-08
Hu7 3,5408E-11 -7,3859E-11 -1,6609E-10 3,9974E-11 1,5291E-13
Метод «Shape context»
Определение номера корзины для точки:
Сравнение гистограмм:
K – множество корзинокhi(k), hj(k) – значения гистограмм
pi, qj – точки изображений
π(i) – i-й вариант назначений
nl = 12 nc = 5 nl = 12 nc = 5 nl = 12 nc = 5 nl = 8 nc = 5 nl = 8 nc = 5 nl = 8 nc = 5
3304 1789 2888 2978 1411 2677
898 350 1064 825 246 862
Методы, основанные на проекции изображения на вертикальную ось (центров символов, количества символов, черных пикселей символов);
Метод поиска символа, ближайшего к уже найденному символу в строке;
Комбинированный алгоритм
Искривление строк при письме:
Подстрочные и надстрочные символы:
Исправления в тексте:
- последовательность стенографических символов
- множество его возможных распознаваний для символа
- возможные трактовки распознанного символа
- распознанный текст
nxx ,,1
kl
k
kxx ,,1
kxkim
ki
kiyy ,,1
kix
n
n
ni
j
i
jyy ,,1
1
1
Ставится задача найти такой набор индексов, чтобы вероятность правильного распознавания была максимальной.
, где
На основании формулы Байеса равна
Оценка k-го (k>3) имеет вид
max*1
*
*1*1
1 i
n
ni
j
i
jyyP n1
1
1 ni
j
i
j nyyP ,1 11 li ,,1
111 imj ,1 nn li .1nnin mj
n1
1
1 ni
j
i
j nyyP
1-n1
1
11
1
n1
1
n1
1
11
in
nj
i
j
nn yy
ni
j
i
j
ni
j
i
jyPyPyyP
1-k1
1
33
3
k11
331-k1
1
11
1
k 1ik
kj
kik
kjk
kki
kki
kik
kj
i
jk yy
ki
jxx
ki
yy
ki
jyPaxaPyP
Ac – точность вычисления
- расстояние между символом и его возможным эталонным значением
- частота появления комбинации символов
kki
li
kkik
ki
li
xxR
xxRxxR
bAc
k
k
k
,
,,
max
max
1
1 1
113
3
13
3
ki
ki
ki
ki
kk
kk
xxN
xxNb
kki xxRk,
kiki kk
xxN 3
3
, где
частота появления фрагмента текста
Данная оценка производится на основании
анализа текстов автора, в данном случаеФ.М. Достоевского.
11-k
1
3
3
k3
3
13
3
ik
j
ik
j
ki
j
ik
j
k
k
k
k
k
k
yyN
yyNPc
k3
3
3 ki
j
ik
j k
k
kyyN
k3
3
3 ki
j
ik
j k
k
kyy