26
Электронные словари паронимов Белова Татьяна 525гр. Научный руководитель: Большакова Е.И.

Электронные словари паронимов

  • Upload
    -

  • View
    2.596

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Электронные словари паронимов

Электронные словарипаронимов

Белова Татьяна 525гр.

Научный руководитель:Большакова Е.И.

Page 2: Электронные словари паронимов

2

Содержание

1. Паронимы2. Электронные словари паронимов

• Исследование вариативности слов• Эффект кластеризации искажений

3. Морфемные модели4. Морфемные паронимы5. Звуковые паронимы

Page 3: Электронные словари паронимов

3

Паронимы• не существует единого понимания термина

«пароним»Паронимы – слова со схожим звучанием приих семантическом различии (полном иличастичном).

Паронимы – однокоренные слова, принадлежащие к одной части речи.

время – бремяскрытый – скрытныйнервный – неровный

Page 4: Электронные словари паронимов

4

Виды паронимов

• звуковые (квазиомонимы)исламский – исландский,

• буквенныекалинка – калитка,

• морфемные (однокоренные)одеть – надеть,

• морфемныеналичность – комичность.

Page 5: Электронные словари паронимов

5

Электронные словари паронимов

Авторы: В.Д. Гусев, Н.В. СаломатинаИсходный словарь:

D. Worth, A. Kozak, D. JonsonRussian Derivation Dictionary

100 960 словДля создания словарей потребовалось:• формальное определение паронимов• эффективный алгоритм построения

Page 6: Электронные словари паронимов

6

Основные понятия

• Каноническая словоформа (лексема) –единица языка, рассматриваемая во всейсовокупности своих форм и значений.

• Редакционные операции: замена, вставка, удаление символа

• Редакционное расстояние (d) –минимальное число ред. операций, переводящих одно слово в другое

лень – тень (d=1), роса – проза (d=2)

Page 7: Электронные словари паронимов

7

Формализация понятия паронима

Слова a и b являются паронимами, если

где d(a,b) – редакционное расстояние,q – некоторый порог (обычно q≤1/3),|a| – длина слова

( ) ,),min(

, qba

bad≤

Page 8: Электронные словари паронимов

8

Словарь паронимов: версия 1

редакционное расстояние d = 1Процедура построения:• подмножества слов одинаковой длины• итеративный процесс по номерупозиции, в которой производитсязамена (или вставка) символа

• представление в виде дерева, вкотором склеены одинаковыепрефиксные части

Page 9: Электронные словари паронимов

9

Вариативность слов

• доля слов, имеющих паронимы - 43%• среди редакционных операцийпреобладают замены

• вариативность и число паронимовзависят от длины слова (убывают сувеличением длины слова)

• число паронимов зависит от номерапозиции

Page 10: Электронные словари паронимов

10

Количественные характеристики• слова с рекордным числом паронимов

– операция замены бок (20), полить (17), – операция вставки есть (11), поить (11)

• зависимость вариативности от длины слова:Вариативность – отношение числа слов длины j, имеющих паронимы, к общему числу слов длины j.

Длина слова Среднее числопаронимов

Максимальноечисло паронимов

Вариативность

2 4,2 16

31

18

100%

4 1,86 88%

10 1,3 40%

Page 11: Электронные словари паронимов

11

Словарь паронимов: версия 2

• увеличение степени искажения (d=2)Отличия:• комбинирование операций• появление новых операций

(перестановка символов, переноссимвола)

• эффект позиционной кластеризацииискажений

• рост рекордных показателей

Page 12: Электронные словари паронимов

12

Количественные характеристикипаронимов

• Мощность редакционных операцийSS>SD>SI>DD>II>DI

(S>D>I для d=1),S - замена

D - удалениеI - вставка

• доля слов, имеющих паронимы - 82%(43% для d=1)

Page 13: Электронные словари паронимов

13

Наиболее и наименееизменчивые слова

Наиболее изменчивые слова• длина ≥ 6• преимущественно глаголыРекорды:

рака - 277 паронимовполить - 225 паронимов

Наименее изменчивые слова• низкочастотные• преимущественно: существительные, словаиностранного происхождения, составные слова

взгляд, хнычущий, кенгуру, чудо-юдо

Page 14: Электронные словари паронимов

14

Эффект кластеризацииискажений

• Новый параметр – расстояние междуискажениями

• Кластеризованные искажения –искажения, затрагивающие соседниепозицииЭффект кластеризации искаженийЧисло кластеризованных искаженийсущественно выше, чем в модели снезависимым распределением

Page 15: Электронные словари паронимов

15

Свойства кластеризованныхискажений

• обе позиции принадлежат одному итому же слогу/морфемесиневатый – сизоватый,скрываться – скрыться

• наблюдается в основном для операцийII, DD и SS

• высокочастотные искажения жесткопривязаны к морфемной структуре слов

Page 16: Электронные словари паронимов

16

Векторы искажений

• Наиболее высокочастотные:за 1813по 1632ся 1590на 1342вы – за 1290с – за 1087

• наиболее вариативная часть слова –префикс

Page 17: Электронные словари паронимов

17

Дальнейшее увеличение степениискажения (d=3)

• качественно новых эффектов не появляется• отмеченные ранее свойства проявляются болееярко:– рекорды

j=10: макс. число паронимов для SSS – 178(при d=2 рекордное число для SS – 53)

– наиболее вариативны приставки– кластеризация четко фиксирует морфемнуюструктуру словподход - расходантичность – лиричность

Page 18: Электронные словари паронимов

18

Морфемные паронимыМорфемными паронимами называются слова,• относящиеся к одной части речи• имеющие одинаковый корень (возможно, свнутрикоренными чередованиями) илиомонимичные корни

• различающиеся вспомогательнымиморфемами, т.е. суффиксами, суффиксоидами, префиксами, префиксоидамиосудить – обсудить, песочный - песчаный

Page 19: Электронные словари паронимов

19

Морфемные модели

- представление слов в виде цепочкиморфем с унифицированным корнем

под-R-к-а (подборка, подножка, подземка)• на 100 тыс. слов – ~30 тыс. моделей• исследовались модели, встретившиеся всловаре не менее 10 раз(покрывают более 80% всех слов)

• Редакционные операции: замена/удалениеодного морфа

Page 20: Электронные словари паронимов

20

Вариативность морфемныхмоделей

• Доля слов, имеющих паронимы:– 32% (операция замены)– 39% (операция вставки)

• Наиболее частая– вставка: не – 479 раз– замена: а – и – 205 раз

• Наиболее вариативные части слова: перваяприставка и первый суффикс.

• Варьируются чаще многосимвольныеморфемы

Page 21: Электронные словари паронимов

21

Фонетическое сходство

Снижается:• с ростом редакционного расстояния• при изменении ударения• при сильном разнесении по позициям

карточка - картошкакрыса – рысакшило - мыло

Page 22: Электронные словари паронимов

22

Словарь звуковых паронимов

• Словарь звуковых паронимов –фонетический аналог словарябуквенных паронимов

• схожесть звуков определяется поартикуляционно-акустическимпризнакам (твердость/глухость, ударность/безударность)

• наблюдаются те же закономерности, что и в буквенной версии словаря

Page 23: Электронные словари паронимов

23

Постановка задачи

• построение компьютерного словарябуквенных и морфемных паронимов

• основа: текстовые файлы, содержащиесловарные данныеИспользование:

• поиск паронимов• исправление ошибок, связанных снеправильным употреблением слов-паронимов

Page 24: Электронные словари паронимов

24

Схема базы данныхСлова

РасстоянияМорфемный состав

Морфы

Page 25: Электронные словари паронимов

25

Реализация

• Язык реализации – JavaИспользуемая СУБД:• HSQLDB – реляционная СУБД

– небольшого размера (~600Кб)– можно использовать как библиотеку

На данный момент реализованочастичное заполнение базы данных.

Page 26: Электронные словари паронимов

Спасибо за внимание!

Вопросы?