Upload
-
View
2.596
Download
3
Embed Size (px)
Citation preview
Электронные словарипаронимов
Белова Татьяна 525гр.
Научный руководитель:Большакова Е.И.
2
Содержание
1. Паронимы2. Электронные словари паронимов
• Исследование вариативности слов• Эффект кластеризации искажений
3. Морфемные модели4. Морфемные паронимы5. Звуковые паронимы
3
Паронимы• не существует единого понимания термина
«пароним»Паронимы – слова со схожим звучанием приих семантическом различии (полном иличастичном).
Паронимы – однокоренные слова, принадлежащие к одной части речи.
время – бремяскрытый – скрытныйнервный – неровный
4
Виды паронимов
• звуковые (квазиомонимы)исламский – исландский,
• буквенныекалинка – калитка,
• морфемные (однокоренные)одеть – надеть,
• морфемныеналичность – комичность.
5
Электронные словари паронимов
Авторы: В.Д. Гусев, Н.В. СаломатинаИсходный словарь:
D. Worth, A. Kozak, D. JonsonRussian Derivation Dictionary
100 960 словДля создания словарей потребовалось:• формальное определение паронимов• эффективный алгоритм построения
6
Основные понятия
• Каноническая словоформа (лексема) –единица языка, рассматриваемая во всейсовокупности своих форм и значений.
• Редакционные операции: замена, вставка, удаление символа
• Редакционное расстояние (d) –минимальное число ред. операций, переводящих одно слово в другое
лень – тень (d=1), роса – проза (d=2)
7
Формализация понятия паронима
Слова a и b являются паронимами, если
где d(a,b) – редакционное расстояние,q – некоторый порог (обычно q≤1/3),|a| – длина слова
( ) ,),min(
, qba
bad≤
8
Словарь паронимов: версия 1
редакционное расстояние d = 1Процедура построения:• подмножества слов одинаковой длины• итеративный процесс по номерупозиции, в которой производитсязамена (или вставка) символа
• представление в виде дерева, вкотором склеены одинаковыепрефиксные части
9
Вариативность слов
• доля слов, имеющих паронимы - 43%• среди редакционных операцийпреобладают замены
• вариативность и число паронимовзависят от длины слова (убывают сувеличением длины слова)
• число паронимов зависит от номерапозиции
10
Количественные характеристики• слова с рекордным числом паронимов
– операция замены бок (20), полить (17), – операция вставки есть (11), поить (11)
• зависимость вариативности от длины слова:Вариативность – отношение числа слов длины j, имеющих паронимы, к общему числу слов длины j.
Длина слова Среднее числопаронимов
Максимальноечисло паронимов
Вариативность
2 4,2 16
31
18
100%
4 1,86 88%
10 1,3 40%
11
Словарь паронимов: версия 2
• увеличение степени искажения (d=2)Отличия:• комбинирование операций• появление новых операций
(перестановка символов, переноссимвола)
• эффект позиционной кластеризацииискажений
• рост рекордных показателей
12
Количественные характеристикипаронимов
• Мощность редакционных операцийSS>SD>SI>DD>II>DI
(S>D>I для d=1),S - замена
D - удалениеI - вставка
• доля слов, имеющих паронимы - 82%(43% для d=1)
13
Наиболее и наименееизменчивые слова
Наиболее изменчивые слова• длина ≥ 6• преимущественно глаголыРекорды:
рака - 277 паронимовполить - 225 паронимов
Наименее изменчивые слова• низкочастотные• преимущественно: существительные, словаиностранного происхождения, составные слова
взгляд, хнычущий, кенгуру, чудо-юдо
14
Эффект кластеризацииискажений
• Новый параметр – расстояние междуискажениями
• Кластеризованные искажения –искажения, затрагивающие соседниепозицииЭффект кластеризации искаженийЧисло кластеризованных искаженийсущественно выше, чем в модели снезависимым распределением
15
Свойства кластеризованныхискажений
• обе позиции принадлежат одному итому же слогу/морфемесиневатый – сизоватый,скрываться – скрыться
• наблюдается в основном для операцийII, DD и SS
• высокочастотные искажения жесткопривязаны к морфемной структуре слов
16
Векторы искажений
• Наиболее высокочастотные:за 1813по 1632ся 1590на 1342вы – за 1290с – за 1087
• наиболее вариативная часть слова –префикс
17
Дальнейшее увеличение степениискажения (d=3)
• качественно новых эффектов не появляется• отмеченные ранее свойства проявляются болееярко:– рекорды
j=10: макс. число паронимов для SSS – 178(при d=2 рекордное число для SS – 53)
– наиболее вариативны приставки– кластеризация четко фиксирует морфемнуюструктуру словподход - расходантичность – лиричность
18
Морфемные паронимыМорфемными паронимами называются слова,• относящиеся к одной части речи• имеющие одинаковый корень (возможно, свнутрикоренными чередованиями) илиомонимичные корни
• различающиеся вспомогательнымиморфемами, т.е. суффиксами, суффиксоидами, префиксами, префиксоидамиосудить – обсудить, песочный - песчаный
19
Морфемные модели
- представление слов в виде цепочкиморфем с унифицированным корнем
под-R-к-а (подборка, подножка, подземка)• на 100 тыс. слов – ~30 тыс. моделей• исследовались модели, встретившиеся всловаре не менее 10 раз(покрывают более 80% всех слов)
• Редакционные операции: замена/удалениеодного морфа
20
Вариативность морфемныхмоделей
• Доля слов, имеющих паронимы:– 32% (операция замены)– 39% (операция вставки)
• Наиболее частая– вставка: не – 479 раз– замена: а – и – 205 раз
• Наиболее вариативные части слова: перваяприставка и первый суффикс.
• Варьируются чаще многосимвольныеморфемы
21
Фонетическое сходство
Снижается:• с ростом редакционного расстояния• при изменении ударения• при сильном разнесении по позициям
карточка - картошкакрыса – рысакшило - мыло
22
Словарь звуковых паронимов
• Словарь звуковых паронимов –фонетический аналог словарябуквенных паронимов
• схожесть звуков определяется поартикуляционно-акустическимпризнакам (твердость/глухость, ударность/безударность)
• наблюдаются те же закономерности, что и в буквенной версии словаря
23
Постановка задачи
• построение компьютерного словарябуквенных и морфемных паронимов
• основа: текстовые файлы, содержащиесловарные данныеИспользование:
• поиск паронимов• исправление ошибок, связанных снеправильным употреблением слов-паронимов
24
Схема базы данныхСлова
РасстоянияМорфемный состав
Морфы
25
Реализация
• Язык реализации – JavaИспользуемая СУБД:• HSQLDB – реляционная СУБД
– небольшого размера (~600Кб)– можно использовать как библиотеку
На данный момент реализованочастичное заполнение базы данных.
Спасибо за внимание!
Вопросы?