38
Поиск близких по смыслу языковых выражений Кулагин Илья, 525

кулагин поиск близких по смыслу языковых выражений

  • Upload
    -

  • View
    169

  • Download
    3

Embed Size (px)

DESCRIPTION

2013 осень

Citation preview

Page 1: кулагин поиск близких по смыслу языковых выражений

Поиск близких по смыслу языковых выражений

Кулагин Илья, 525

Page 2: кулагин поиск близких по смыслу языковых выражений

Синонимы

Синонимы – слова, тождественные или очень близкие по своему значению («Большой толковый словарь» В.И.Даль)

2

Page 3: кулагин поиск близких по смыслу языковых выражений

«Академический» поиск синонимов

3

Page 4: кулагин поиск близких по смыслу языковых выражений

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

3

Page 5: кулагин поиск близких по смыслу языковых выражений

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

2) Больше число примеров => ближе значения;

3

Page 6: кулагин поиск близких по смыслу языковых выражений

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

2) Больше число примеров => ближе значения;

3) Обобщение

3

Page 7: кулагин поиск близких по смыслу языковых выражений

«Академический» поиск синонимов

1) Замена слов друг на друга в разных примерах;

2) Больше число примеров => ближе значения;

3) Обобщение

Недостаток: небольшой набор примеров

3

Page 8: кулагин поиск близких по смыслу языковых выражений

Метод «Яндекса» поиска синонимов

Время – до 2012 года

Цель – получить базу «синонимов», по которой можно будет расширять поисковые запросы

(«Майнинг близких по смыслу языковых выражений для поисковой системы Яндекс» Алексей Сокирко)

4

Page 9: кулагин поиск близких по смыслу языковых выражений

«Синонимы»

Синонимы – слова, тождественные или очень близкие по своему значению («Большой толковый словарь» В.И.Даль)

+

Словоформы, аббревиатуры и тд

5

Page 10: кулагин поиск близких по смыслу языковых выражений

Классы близких по смыслу языковых выражений

Можно выделить два больших класса близких по смыслу языковых выражений:

6

Page 11: кулагин поиск близких по смыслу языковых выражений

Классы близких по смыслу языковых выражений

Можно выделить два больших класса близких по смыслу языковых выражений:

• С соответствиями между внутренними элементами (буквами, слогами, любыми морфологическими элементами);

6

Page 12: кулагин поиск близких по смыслу языковых выражений

Класс с соответствиями между внутренними элементами

• Морфологическое словоизменение:

мама – мамой – мамами

• Морфологическое словообразование:

Москва – московский

Компиляция - компилирование

• Аббревиатуры

МГУ - Московский государственный университет

7

Page 13: кулагин поиск близких по смыслу языковых выражений

Класс с соответствиями между внутренними элементами

• Транслиты

Гугл - Google

• Слитно - раздельно

ватер-поло – ватерполо

• Орфоварианты

colour – color

бильярд - биллиард

8

Page 14: кулагин поиск близких по смыслу языковых выражений

Классы близких по смыслу языковых выражений

Можно выделить два больших класса близких по смыслу языковых выражений:

• С соответствиями между внутренними элементами (буквами, слогами, любыми морфологическими элементами);

• Без поддержки внутренних элементов.

9

Page 15: кулагин поиск близких по смыслу языковых выражений

Класс без поддержки внутренних элементов

• Переводы

стол - table

• Чистые синонимы

бегемот – гиппопотам

10

Page 16: кулагин поиск близких по смыслу языковых выражений

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

11

Page 17: кулагин поиск близких по смыслу языковых выражений

Построение списка гипотез

В рамках рассматриваемой нами задачи гипотезой будем считать пару слов (выражений) - синонимов

Пример:

кавалерия – конница

реферат – доклад

12

Page 18: кулагин поиск близких по смыслу языковых выражений

Построение списка гипотез

• Выравнивненные параллельные тексты;

• База гиперссылок («Линковая база»);

• Скобочные написания;

• Открытые словари (Википедия и др);

• Переформулировки запросов.

13

Page 19: кулагин поиск близких по смыслу языковых выражений

Выравненные параллельные тексты

Русское словосочетание Английский аналог Частота

киотский протокол kyoto protocol 20

киотские соглашения kyoto treaty 10

киотские соглашения kyoto protocol 11

киотский протокол kyoto treaty 40

киотский протокол kyoto agreement 1

Два русских выражения можно объявить гипотезами синонимов, когда они переводятся в одно и то же английское выражение. Общих английских выражений может быть много, чем больше, тем лучше. 14

Page 20: кулагин поиск близких по смыслу языковых выражений

База гиперссылок («Линковая база»)

<a href=1.html> кавалерия </a> <a href=1.html> конница </a>

База гиперссылок («Линковая база») – это набор приссылочных текстов на гиперлинках, которые ведут на один сайт

15

Page 21: кулагин поиск близких по смыслу языковых выражений

База гиперссылок («Линковая база»)

База гиперссылок («Линковая база») – это набор приссылочных текстов на гиперлинках, которые ведут на один сайт

<a href=1.html> кавалерия </a> <a href=1.html> конница </a>

<a href=>смотри подробнее здесь</a>

15

Page 22: кулагин поиск близких по смыслу языковых выражений

Скобочное написание

Скобочное написание – это набор n-gram, которые встречаются с текстах рунета в контексте скобок:

Московский государственный университет (МГУ)

Владимир Путин (Vladimir Putin)

16

Page 23: кулагин поиск близких по смыслу языковых выражений

Открытые словари

Русская Википедия содержит около миллиона строгих соответствий, типа:

Абрикос сибирский --- Даурсат

Авачинская бухта --- Авачинская губа

17

Page 24: кулагин поиск близких по смыслу языковых выражений

Переформулировки запросов

1) Переформулировки запросов - это пары запросов, которые часто возникают внутри поисковых сессий

[Апокалипсис смотреть] –> [Апокалипсис фильм]

2) Кликовые данные - это пары разных запросов, с которых пользователи кликнули по одному и тому же сайту на поисковой выдаче

18

Page 25: кулагин поиск близких по смыслу языковых выражений

Нормализация

Нормализация – это приведение гипотез к нормальной (словарной) форме (как они должны быть в любом бумажном словаре)

Государственной Думы

-> Государственная Дума

Государственную Думу

20

Page 26: кулагин поиск близких по смыслу языковых выражений

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

21

Page 27: кулагин поиск близких по смыслу языковых выражений

Машинное обучение

Результаты работы всех методов объединяются в одну таблицу (примерно 200 млн. гипотез)

Обучающая выборка: 40 000 вручную размеченных пар

22

Page 28: кулагин поиск близких по смыслу языковых выражений

Машинное обучение

Признаки:

• FactorAnd – встречаемость двух выражений рядом в тексте;

• FactorCtxt – встречаемость выражений в похожих контектсах;

• ExtTypes - тип поискового расширения (транслит, аббревиатура и т.д.) ;

• Leven, Translit – близость по Левенштейну, транслитности;

Результат:

В соответсвие любой гипотезе ставим число – степень синонимичности

23

Page 29: кулагин поиск близких по смыслу языковых выражений

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

24

Page 30: кулагин поиск близких по смыслу языковых выражений

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

~ 200 миллионов гипотез

25

Page 31: кулагин поиск близких по смыслу языковых выражений

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов

~ 200 миллионов гипотез

~ 150 миллионов гипотез

25

Page 32: кулагин поиск близких по смыслу языковых выражений

Алгоритм составления базы

• Построение списка гипотез по данным сети Интернет

• Машинное обучение

• Выделение лучших результатов – выделяем несколько миллионов и объявляем словарем

~ 200 миллионов гипотез

~ 150 миллионов гипотез

25

Page 33: кулагин поиск близких по смыслу языковых выражений

Результаты

26

Hum ML

яник yanik 1 1

топограф землемер 0 1

москва moskwa 1 0

племена роды 0 1

характерный отличительный 1 1

Page 34: кулагин поиск близких по смыслу языковых выражений

Ошибки

• Ошибки первого рода – ложное применение синонимов:

<кормящая, содержать> - разные значения

<освещение, света> - омонимия

<топограф, землемер> - искусственные синонимы

27

Page 35: кулагин поиск близких по смыслу языковых выражений

Ошибки

• Ошибки второго рода – ложное неприменение синонимов:

<москва, moskwa>

<гоголь, гоголевский>

<сайт, веб страница>

<забеременеть, беременность>

<шины, шинный>

<шины, резина>

<курсовые, реферат>

28

Page 36: кулагин поиск близких по смыслу языковых выражений

Заключение

• Система успешно существовала в компании «Яндекс» до 2012 года;

• Размеры обучающих выборок сопоставимы с размерами небольших опубликованных словарей синонимов;

• «Ручные» факторы очень важны для машинного обучения

29

Page 37: кулагин поиск близких по смыслу языковых выражений

Спасибо за внимание!

30

Page 38: кулагин поиск близких по смыслу языковых выражений

Список литературы

• «Майнинг близких по смыслу языковых выражений для поисковой системы Яндекс (до 2012 года)» Алексей Сокирко

• Wikipedia

• «Большой толковый словарь русского языка» В.И.Даль

31