16
Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области Исполнитель: Тарасенко Ю.В., группа 524 Научные руководители: Ефремова Н.Э., Большакова Е.И. ДИПЛОМНАЯ РАБОТА

Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

  • Upload
    -

  • View
    727

  • Download
    4

Embed Size (px)

DESCRIPTION

Тарасенко Ю.В.

Citation preview

Page 1: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Автоматическое построение лексико-синтаксических шаблонов

по текстам предметной области

Исполнитель: Тарасенко Ю.В., группа 524

Научные руководители: Ефремова Н.Э., Большакова Е.И.

ДИПЛОМНАЯ РАБОТА

Page 2: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Шаблоны в компьютерной лингвистике

Извлечение информации из текстов:

1. Распознавание сущностей: имён людей, названий организаций, дат и т.д.

2. Выявление связей между сущностями: «Род-Вид», «Часть-Целое» и т.д.

3. Выделение фактов: о проведении сделок, деловых визитов и т.д.

Page 3: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Определение шаблона

Шаблон - формальная запись языковой конструкции, включающая:

фиксированные лексемы

заполняемые места (слоты)

синтаксические ограничения

Пример:

N1 V<СОСТОЯТЬ> Pr<ИЗ> N2

N – существительное

V – глагол

Pr – предлог

Каждая хромосома состоит из хроматина - сложного комплекса из ДНК , белков и некоторых других компонентов (в частности, РНК).

Page 4: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Актуальность

Как правило, для русскоязычных текстов шаблоны строятся вручную:

трудоемкий процесс

множество построенных шаблонов – неполное

возможны ошибки

Поэтому задача автоматического построения шаблонов для русскоязычных текстов является актуальной.

Page 5: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Постановка задачи

Требуется разработать программный комплекс для автоматического построения лексико-синтаксических шаблонов по русскоязычным текстам предметной области.

Подзадачи: 1. Составить обзор существующих методов автоматического

построения шаблонов.

2. По результатам обзора выбрать метод и адаптировать его для применения к русскоязычным текстам.

3. Реализовать программный комплекс автоматического построения шаблонов.

4. Провести тестирование функциональности программного комплекса.

Page 6: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Методы автоматического построения шаблонов

1. AutoSlog

Работает с размеченной коллекцией текстов. Для составления

шаблонов используются эвристические правила.

2. AutoSlog-Ts

Вместо размеченной коллекции используются тексты, помеченные

как содержащие или не содержащие извлекаемое событие.

3. DIPRE

Для составления шаблонов применяется кластеризация. Шаблоны

представляются в виде строк со слотами.

4. Snowball

Основан на методе DIPRE. Шаблоны представляются в виде

векторов контекстов.

Page 7: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Алгоритм построения шаблонов

Вход: исследуемое отношение + пары терминов

1. В тексте ищутся предложения, содержащие пары терминов, их окружение (контекст) фиксируется.

2. Найденные контексты анализируются и формируются новые шаблоны.

3. Новые шаблоны проверяются.

4. С помощью шаблонов строятся новые пары терминов.

Выход: новые пары терминов + новые шаблоны

Page 8: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Адаптация метода

1. Используется коллекция научно-технических текстов на русском языке.

2. Коллекция размечается автоматически с помощью библиотеки Alchemy.

3. В качестве языка записи шаблонов используется LSPL (Lexico-Syntactic Pattern Language).

Page 9: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Схема алгоритма

Шаг 1: Получение контекстов Пары

терминов

Шаг 2: Анализ контекстов и построение шаблонов

Контексты

Шаг 3: Проверка новых шаблонов

Новые шаблоны

Новые шаблоны

Шаг 4: Получение новых пар терминов Пары

терминов

Релевантные

шаблоны

Page 10: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Пример

Вход: отношение «Часть-Целое» + пара терминов <тело человека, вода>

Текст:

«Тело человека примерно на 60 процентов состоит из воды, некоторые же ткани такие, как серое вещество мозга, состоят на 85 процентов из воды.»

Новый шаблон:

NG1 Av<ПРИМЕРНО> Pr<НА> UPercent V<СОСТОЯТЬ> Pr<ИЗ> NG2

Контекст для шаблона

Page 11: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Реализация

Языки программирования: С++, PHP

Библиотеки: LSPL, AOT, boost

Платформа: Drupal CMS

Основные компоненты проргаммного комплекса:

• Компонент автоматического построения шаблонов.

• Компонент наложения шаблонов (на базе библиотеки LSPL).

• Компонент выделения терминов и ключевых слов (на базе библиотеки Alchemy).

Page 12: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Архитектура программного комплекса

Тексты

Словари

LSPL

Alchemy

Компонент автоматического

построения шаблонов

Компонент наложения шаблонов

Компонент выделения терминов и ключевых

слов

Шаблоны

Словари

Page 13: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Пользовательский интерфейс

Page 14: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Тестирование

На научно-технических текстах по биологии (анатомия человека, генетика и др.) объёмом более 1Мб для отношения «Часть-Целое».

Построено шаблонов: 50

Выделено корректных пар терминов: 452

Точность выделения пар: 87%

Page 15: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Результаты работы

1. Составлен обзор существующих методов автоматического построения шаблонов.

2. Выбран метод автоматического построения шаблонов Snowball и адаптирован для применения к русскоязычным текстам.

3. Реализован программный комплекс автоматического построения шаблонов с веб-интерфейсом.

4. Проведено тестирование функциональности программного комплекса.

Page 16: Автоматическое построение лексико-синтаксических шаблонов по текстам предметной области

Спасибо за внимание!