25
Автоматизация построения предметных указателей Иванов К. М. Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.

Иванов. Автоматизация построения предметных указателей

  • Upload
    -

  • View
    188

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Иванов. Автоматизация построения предметных указателей

Автоматизация построения

предметных указателей

Иванов К. М.Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.

Page 2: Иванов. Автоматизация построения предметных указателей

1.Предметные указатели: структура и состав2.Задачи построения предметного указателя3.Извлечение и фильтрация термов: подходы и методы4.Структурирование извлеченной информации5.Оценка корректности построенного предметного указателя

2/25

Содержание

Page 3: Иванов. Автоматизация построения предметных указателей

•Алфавитно-предметный указатель (back-of-the-book index) – ПУподробный перечень обсуждаемых в документе терминов, понятий и объектов предметной области (ПО) текста, с указанием страниц, на которых они встречаются в тексте.

•Структура предметного указателя: Сегменты, соответствующие буквам алфавита

(идентификаторам) Строки сегмента, содержащие терм: термин или

название объекта ПО•Виды строк:

Строка с родовым понятием Строка с видовым понятием

A— ASCII 205… …Ббинарный файл 67-69блок символов 110— линейный 112— прямоугольный 121, 167 — строчный 130блок-схема 20-25, 170… …Ппонятие — абстракции 45— алгоритма 50, 80 — анализа 145— атрибута объекта 156, 179 … …

Предметный указатель

3/25

Page 4: Иванов. Автоматизация построения предметных указателей

Особенности строк предметных указателей:• Диапазоны номеров страниц для

отдельных понятий• Инверсии• Персоналии• Перекрестные ссылки

Нет стандартов на структуру предметного указателя

4/25

Предметный указатель: особенности H

height— of a binomial tree, 527-530 pr.— black-, 309 … …Fflow, 709–714 — augmentation of, 716 — net, across a cut, 720 — value of, 710 flow conservation, 709–710LLester Randolph Ford, Jr., 432Nnetwork — admissible, 749–750 — flow, see flow network … …

Page 5: Иванов. Автоматизация построения предметных указателей

•ПУ, как правило, строят для:• Книг: монографий, научных пособий, энциклопедий и т.п.• Объемных научно-технических текстов: отчетов, статей • Сайтов

•Трудоемкость построения ПУ. Основная сложность:• Выявление терминов, понятий и названий объектов ПО• Определение наиболее важных мест их употребления в тексте• Определение связей выявленных терминов и понятий

•Близость к задаче построения онтологии ПО:• Не для коллекции текстов, а для одного текста• Этот текст – объемный

5/25

Задача построения предметного указателя

Page 6: Иванов. Автоматизация построения предметных указателей

Автоматизация построения предметного указателя

I.Извлечение из текста термов(терминов и названий объектов ПО)

II.Формирование иерархической структуры предметного указателя и построение ссылок

III.Редактирование полученного результата

6/25

Автоматически

Вручную

• Современные коммерческие редакторы, например, Microsoft Word, частично автоматизируют только этап II.

• Научные исследования: автоматизации первого и второго этапов.

Этапы построения:

Page 7: Иванов. Автоматизация построения предметных указателей

1. Извлечение из текста термов-кандидатов, которые могут войти в предметный указатель, например:бинарный файл, линейный блок символов, ASCII

2. Фильтрация термов-кандидатов: отбор релевантных

3. Выявление связей термов: семантических, родо-видовых4. Определение наиболее важных мест употребления

термов в документе

5. Формирование иерархической структуры предметного указателя

Подзадачи автоматизации

7/25

Этап I

Этап II

Page 8: Иванов. Автоматизация построения предметных указателей

•Методы извлечения термов-кандидатов базируются на:• Лингвистической информации, в виде шаблонов и правил• Статистической информации • Их комбинации, в том числе используется машинное обучение

•Простой метод – Метод Сэлтона (Salton G. Syntactic approaches to automatic book indexing //Proceedings of the 26th annual meeting on Association for Computational Linguistics. – Association for Computational Linguistics, 1988. – С. 204-210.):

• Определение частей речи слов исходного текста• Термы – биграммы слов, например, low-frequency terms• Мера TF.IDF для отбора термов-кандидатов

8/25

Задача извлечения термов: подходы

Page 9: Иванов. Автоматизация построения предметных указателей

Мера TF.IDF•TF (term frequency — частота слова) — отношение числа вхождения некоторого терма t к общему количеству термов в документе d.

𝑡𝑓 (𝑡 ,𝑑 )=𝑛𝑡

𝑁𝑑

• В некоторых работах TF считается в абсолютном смысле, т.е.

• IDF (inverse document frequency) — инверсия частоты, с которой некоторый терм t встречается в документах коллекции D.

𝑖𝑑𝑓 (𝑡 ,𝐷 )=𝑙𝑜𝑔 ( 𝑁𝐷

𝑑 𝑓 𝑡 )

• – число вхождений терма в документе• – общее число термов в документе

• – число документов в коллекции D• – число документов коллекции D, в которые входит

терм t• TF.IDF — вес некоторого терма t в документе d коллекции D. 

𝒕𝒇 . 𝒊𝒅𝒇 (𝒕 ,𝒅 )=𝒕𝒇 (𝒕 ,𝒅 )∗ 𝒊𝒅𝒇 (𝒕 ,𝑫)Величина TF.IDF возрастает • с увеличением числа вхождений термина в документ; • со снижением частоты термина во всей коллекции.  

9/25

𝑡𝑓 (𝑡 ,𝑑)=𝑛𝑡

Page 10: Иванов. Автоматизация построения предметных указателей

•Работает для текстов на английском и французском языках•Для извлечения термов-кандидатов используется:

• Пакет YaTeA3, извлекающий из размеченного корпуса терминологические словосочетания(http://search.cpan.org/~thhamon/Lingua-YaTeA/lib/Lingua/YaTeA.pm)

• Дополнительные условия, определяемые пользователем•Для ранжирования используются:

• Общая частота появления терма-кандидата в тексте (TF)• Частота появления терма-кандидата в определенных частях документа,

например заголовках• Другие параметры

10/25

Методы извлечения термов для предметного указателя: InDoc, 2006

Zargayouna H. Nazarenko A. et al. IndDoc: an aid for the back-of-the-book indexer //The Indexer. – 2006. – Т. 25. – №. 2. – С. 122-125.

Page 11: Иванов. Автоматизация построения предметных указателей

•Для ранжирования выявленных термов-кандидатов используются показатели информативности и сочетаемостиCsomai A., Mihalcea R. Investigations in Unsupervised Back-of-the-Book Indexing //FLAIRS Conference. – 2007. – С. 211-216. 11/25

Методы извлечения термов: Mihalcea R., 2007

• Задача извлечения термов рассматривается как задача извлечения ключевых слов.•Исследованы методы извлечения:• Метод N-грамм (N=1,…,4)• Метод поиска именных словосочетаний

(noun phrase chunks)• Машинный классификатор для выявления

именованных сущностей(supervised named entity recognition)

• Эвристический метод извлечения именованных сущностей

Метод P R F

N-грамм 0.01 84.20 0.02NP-chunks 4.40 28.99 7.64NE 15.79 39.10 22.49NEheur 11.43 43.34 18.08

Page 12: Иванов. Автоматизация построения предметных указателей

12/25

Методы извлечения термов: Mihalcea R., 2007Ранжирование термов-кандидатов Информ. Соч. P R F

TF.IDF, 16.85

17.51

17.18

, 20.65

21.25

20.95

LM.Инф., LM.Соч. 12.82

13.09

12.96

TF.IDF, NE 25.95

25.27

25.60

, , NE 26.70

26.37

26.53

LM.Инф., LM.Соч., NE 22.63

22.36

22.49

TF.IDF, NEheur 21.12

20.68

20.89

, , NEheur 23.17

23.14

23.15

LM.Инф., LM.Соч., NEheur

20.98

20.72

20.84

TF.IDF 10.33 11.12 10.7

1

• Информативность – мера репрезентативности терма-кандидата в тексте, для её расчёта используются:

• Мера TF.IDF• Языковая модель информативности

(language model informativeness)

• Независимое тестирование распределением Хи-квадрат ( independence test)

• Сочетаемость – мера лексической связности терма-кандидата, для её расчёта используются:

• Языковая модель сочетаемости

• Независимое тестирование распределением Хи-квадрат

h𝑝 𝑟𝑎𝑠𝑒𝑙𝑎𝑛𝑔 (𝑎 ,𝑏 )=𝑝 𝑓𝑔 (𝑎 ,𝑏) log ( 𝑝 𝑓𝑔 (𝑎 ,𝑏)𝑝𝑏𝑔 (𝑎)𝑝𝑏𝑔 (𝑏 ) )

𝑖𝑛 𝑓 𝑙𝑎𝑛𝑔 ( h𝑝 𝑟𝑎𝑠𝑒 )=𝑝 𝑓𝑔 ( h𝑝 𝑟𝑎𝑠𝑒 ) log ( 𝑝 𝑓𝑔 ( h𝑝 𝑟𝑎𝑠𝑒 )𝑝𝑏𝑔 ( h𝑝 𝑟𝑎𝑠𝑒 ) )

Page 13: Иванов. Автоматизация построения предметных указателей

13/25

Методы извлечения термов: Mihalcea R., 2007Оценка методов

Дополнительная фильтрация:• Выявление перефразирования и

синонимов• Выявление общенаучной лексики• Выявление общих слов: вводные

слова, местоимения и т.п.

Фильтрация P R FБез фильтрации 10.33 11.12 10.71Перефразирование 12.70 13.15 12.93Общенаучная лексика 14.25 15.08 14.66

Общие слова 15.25 16.30 15.76Комбинация 15.77 16.48 16.11

Методранжи-

рования

Метод извлеченияN-граммы NP-chunks

Без фильтрации Вся фильтрация Без фильтрации Вся фильтрация

P R F P R F P R F P R F

TF.IDF 10.33 11.12 10.71 15.76 16.48 16.11 10.86 11.02 10.94 16.13 16.24 16.1911.00 11.85 11.41 16.28 17.34 16.79 09.24 09.01 09.12 11.81 11.92 11.87

LM 07.54 07.83 07.68 12.50 12.39 12.45 06.67 06.89 06.78 12.09 11.68 11.88

Page 14: Иванов. Автоматизация построения предметных указателей

•Для извлечения термов-кандидатов используется метод N-грамм (N=1,..,4) с предварительным отсечением N-грамм содержащих запятые и общие слова (вводные слова, местоимения и т.п.)•Корпус для обучения – 289 книг

• 259 книг в обучающей коллекции, 30 книг в тестовой коллекции• Положительные примеры – термы из предметных указателей этих книг

14/25

Методы извлечения термов: Машинное обучение Mihalcea R., 2008

Csomai A., Mihalcea R. Linguistically Motivated Features for Enhanced Back-of-the-Book Indexing //ACL. – 2008. – С. 932-940

Обучающая коллекция Тестовая коллекцияПоложительные

примерыОтрицательные

примерыСоотношение Положительные

примерыОтрицательные

примерыСоотношение

66349(71853)

1148532(48499870)

1:17.31(1:674.98)

7225(7764)

1480045(6164798)

1:793.02(1:203.85)

Page 15: Иванов. Автоматизация построения предметных указателей

Для обучения используются следующие признаки N-грамм:

• Информативность • Сочетаемость• Синтаксическая информация,

например, части речи слов• Цитируемость в Wikipedia• Мера TF.IDF• Контекстная информация

(discourse based)15/25

Методы извлечения термов: Mihalcea R., 2008Ранжирование термов-кандидатов Признак Весомость

признакаЧасть речи 0.2335Цитируемость в Wiki

0.2251

Информативность 0.1722DF 0.1031TF.IDF 0.0870Сочетаемость 0.0660Длина N-граммы 0.0416Контекст 0.0279Внешняя DF 0.0227TF 0.0209

Page 16: Иванов. Автоматизация построения предметных указателей

Применялись методы обучения:• SVM• Деревья принятия решений (DT – decision tree)• MP (multilayer perceptron)

16/25

Методы извлечения термов: Mihalcea R., 2008Оценка методов машинного обучения

МетодРанжирование с

отсечением по порогуБинарный классификатор

P R F P R FMP 27.98 27.77 27.87 23.93 31.98 27.38DT 27.06 27.13 27.09 22.75 34.12 27.30SVM 20.94 20.35 20.64 21.76 30.27 25.32

Page 17: Иванов. Автоматизация построения предметных указателей

•Текст представляется как набор N-грамм слов (до N=7)•Отдельно оцениваются заголовки и подзаголовки•Текст разбивается на сегменты: абзацы, разделы текста•Каждая N-грамма, заголовок или подзаголовок оценивается мерой TF.IDF в рамках одного сегмента•Максимально информативными в сегменте считаются N-граммы с наибольшим значением TF.IDF

17/25

Методы извлечения термов: Sylva L., 2013

Da Sylva L.Integrating knowledge from different sources for automatic back-of-the-book indexing //Proceedings of the Annual Conference of CAIS/Actes du congrès annuel de l'ACSI. – 2013.

Исходный текст

Оценивание

Автоматическая сегментация

Сегментированный текст

Заголовки и подзаголовкиN-граммы

Предметный указатель

Отбор N-Грамм, заголовков и подзаголовков

Оценивание

В рамках сегмента

Page 18: Иванов. Автоматизация построения предметных указателей

•Текст представляется как последовательность контекстов: предложений или абзацев•Каждый контекст состоит из термов – N-грамм слов•Задача выявления и фильтрации термов-кандидатов сводится к задаче максимизации введенной меры индексируемости (indexability)•Индексируемость зависит от контекстной информативности и цитируемости:

• Контекстная информативность определяет информативность N-граммы в рамках нескольких ближайших контекстов

18/25

Методы извлечения термов: Wu Z., 2013

Wu Z. et al. Can back-of-the-book indexes be automatically created? //Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. – ACM, 2013. – С. 1745-1750.

• Цитируемость измеряется по используемости N-граммы в Wikipedia

Page 19: Иванов. Автоматизация построения предметных указателей

Задача построения иерархической структуры предметного указателя

19/25

Почти не описывается в рассмотренных работах. Основные проблемы:

• Использовать или нет перекрестные ссылки и в какой мере?

• Использовать или нет инверсии при формировании структуры?

• Распознавание родового и видового понятия:блок символов – линейный блок символов

граф – планарный граф

Page 20: Иванов. Автоматизация построения предметных указателей

•Для определения текстовых вариантов термов кандидатов, а также их синонимов применяются:

• Алгоритм Портера (Porter 1980) – алгоритм стемминга, т.е. определения псевдооснов слов

• Поиска синонимов в WordNet

•Для определения страниц документа, на которых встречаются термы используют:

• Стандартный поиск всех вхождений терма-кандидата в тексте• Сегментацию исходного текста (например на абзацы), для определения

максимально информативных термов-кандидатов в рамках сегмента

Выявление связей термов, определение ссылок

20/25

Csomai A., Mihalcea R. Investigations in Unsupervised Back-of-the-Book Indexing //FLAIRS Conference. – 2007. – С. 211-216.

Page 21: Иванов. Автоматизация построения предметных указателей

Оценка построенных предметных указателей

21/25

• В большинстве работ производится оценка только извлеченного списка термов-кандидатов

• Способы проверки построенного ПУ:• Ручная, экспертом:

Zargayouna H. Nazarenko A. 2006• Автоматическая:

• по текстовому массиву, построенному из реального предметного указателя

• в специальной оценочной системе, например, Testbet

Page 22: Иванов. Автоматизация построения предметных указателей

Testbet: “золотой стандарт” для оценки ПУ

Csomai A., Mihalcea R. F. Creating a Testbed for the Evaluation of Automatically Generated Back-of-the-book Indexes //Computational Linguistics and Intelligent Text Processing. – Springer Berlin Heidelberg, 2006. – С. 429-440. 22/25

•Для построения тестовой коллекции использовано 56 книг на английском языке из коллекции проекта Гунтенберг•Выбранные книги охватывают 13 различных научных областей

– содержат предметные указатели•Для каждого предметного указателя из книг было построено два списка термов:• Короткий, включающий только родовые понятия• Длинный, включающий полный список понятийПри этом восстанавливались инверсии и полные понятия из родовых и видовых (для длинного)

Page 23: Иванов. Автоматизация построения предметных указателей

Параметры оценки предметного указателя:

• Общая длина предметного указателя по отношению к размеру текста (3% - 15% в словах)

• Дина в словах строк предметного указателя

• Оценка возможности поиска строк предметного указателя в тексте

23/25

Testbet: “золотой стандарт” для оценки ПУ: параметры

Вероятность поиска

Длина строки

ПУ

Тип списка термов

Короткий Длинный

1 92.95% 92.20%2 72.89% 48.80%3 48.68% 23.75%

4 28.36% 10.16%5 16.73% 4.15%6 9.93% 1.99%

7 8.66% 0.85%8 12.77% 0.79%9 3.33% 0.32%10 8.33% 0.55%

Итого 81.29% 30.34%

Распределение по длине

Длина строки

ПУ

Тип списка термов

Короткий Длинный

1 31312 8250

2 9068 93523 2232 76274 1268 70575 642 5787

6 311 45007 162 31888 56 1906

9 36 124110 13 727

>10 8 862

Page 24: Иванов. Автоматизация построения предметных указателей

Заключение•Научные работы направлены, в основном, на:

• извлечение термов (терминов и названий объектов ПО) из текста и их фильтрацию

• Работу с текстом на английском языке•Реализованные методы не работают с русским языком•Необходимо исследовать следующие подзадачи:

• Определение связей термов (синонимических, родо-видовых)• Определение мест употребления термов-кандидатов в тексте• Формирование иерархической структуры предметного указателя• Оценка построенного предметного указателя• Реализация системы построения ПУ с удобным пользовательским

интерфейсом24/25

Page 25: Иванов. Автоматизация построения предметных указателей

Благодарю за внимание!