12
АВТОМАТИЧЕСКОЕ ОБНОВЛЕНИЕ АННОТАЦИИ НОВОСТНОГО КЛАСТЕРА Автор: Алексеев Алексей (группа 524) Научный руководитель: к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В. ДИПЛОМНАЯ РАБОТА

Автоматическое обновление аннотации новостного кластера

  • Upload
    -

  • View
    589

  • Download
    6

Embed Size (px)

DESCRIPTION

Алексеев Алексей

Citation preview

Page 1: Автоматическое обновление аннотации новостного кластера

АВТОМАТИЧЕСКОЕ ОБНОВЛЕНИЕ АННОТАЦИИ НОВОСТНОГО КЛАСТЕРА

Автор: Алексеев Алексей (группа 524)

Научный руководитель: к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.

ДИПЛОМНАЯ РАБОТА

Page 2: Автоматическое обновление аннотации новостного кластера

Постановка задачи - 1

Новостной кластер – набор новостных сообщений (документов) по поводу некоторого события.

Аннотация – краткое описание события, составленное из предложений документов кластера.

2 февраля 2007 года в 16.00 – начало теннисного матча.

Две части новостного кластера – до и после 16.00.

Первая часть - только анонс игры, вторая часть – как анонс (запоздавшие сообщения), так и результаты.

Обновлённая аннотация: победитель, счёт (результаты).

23.05.2010

2

Page 3: Автоматическое обновление аннотации новостного кластера

Постановка задачи - 2

Обновлённая аннотация строится независимо от начальной аннотации (с нуля).

Цели и задачи дипломной работы:

I. Предложить метод создания обновлённой аннотации новостного кластера.

II. Оценить качество предложенного метода путем реализации метода для сравнения.

III. Создать программную систему для автоматического создания обновлённой аннотации новостного кластера.

23.05.2010

3

Page 4: Автоматическое обновление аннотации новостного кластера

Предложенный подход

Предложен метод создания обновлённой аннотации в два этапа:

1. Выявление предложений, содержащих новую информацию.

2. Аннотирование, используя только новые предложения.

Определение новизны – комбинация двух принципиально различных методов выявления новой информации.

Комплексное аннотирование - на основе тематического представления текста.

23.05.2010

4

Page 5: Автоматическое обновление аннотации новостного кластера

Определение новизны

Первый метод: сравнение предложений на «не похожесть» по косинусной мере:

Если предложение «не похоже» на остальные – новое.

Второй метод: новые слова = новая информация.

Разные слова – разный вклад в новизну:

Итоговый вес предложения – сумма весов всех новых слов. Вес больше порога - новое.

23.05.2010

5

21

21)cos(

vv

vv

)log(

1_

setdfсловаВес

Page 6: Автоматическое обновление аннотации новостного кластера

Аннотирование на основе тематического представления - 1

Построение тематического представления - разбиение всех понятий, упомянутых в документе на группы близких по смыслу понятий –тематических узлов (ТУ).

Используются описания понятий в Тезаурусе русского языка РуТез.

Оперируем не отдельными словами, а набором близких по смыслу слов, используемых именно в этом тексте.

Позволяет моделировать лексическую связность текста, устранять повторы.

23.05.2010

6

ЮЖНЫЙ, МИХАИЛ

РОССИЯНЕ

РОССИЙСКАЯ ФЕДЕРАЦИЯ

ТЕННИСИСТ

23

12

10

6

СПОРТИВНЫЙ ФИНАЛ

СПОРТИВНОЕ СОРЕВНОВАНИЕ

СПОРТ

СПОРТСМЕН

ФИНАЛИСТ

36

54

8

2

1

ТЕННИСНЫЙ КОРТ

ТЕННИС

14

12

ЗАГРЕБ

ХОРВАТИЯ

70

36

Page 7: Автоматическое обновление аннотации новостного кластера

Аннотирование на основе тематического представления - 2

Тезауруса не всегда достаточно. Необходим учёт именованных сущностей, неописанных в Тезаурусе.

Вводится общая оценка – вес предложения, складывающийся из компонентов:

1. Весов упомянутых концептов Тезауруса.

2. Весов слов с большой буквы (кроме первого слова предложения).

Вес самой частотной именованной сущности:

Вес остальных именованных сущностей:

23.05.2010

7

concwordconcword FrFrWW max_max_max_max_ /,100min

wordwordwordword FrFrWW max_max_ /

Page 8: Автоматическое обновление аннотации новостного кластера

Аннотирование на основе тематического представления - 3

Аннотация состоит из заголовка и нескольких предложений, из разных документов кластера.

Заголовок аннотации – один из заголовков документов, имеющий наибольший вес по ТУ (ИС)

Отмечаются все упомянутые тематические узлы.

Выбирается предложение:

1. Содержащее уже упомянутый тематический узел (ИС).

2. Содержащее новый тематический узел (ИС).

3. Имеющее наибольший вес по тематическим узлам и именованным сущностям.

Длина аннотации – 100 слов.23.05.2010

8

Page 9: Автоматическое обновление аннотации новостного кластера

Архитектурная схема системы

Язык разработки: C#

Фиолетовые модули – внешние

Входные данные –новостной кластер, разделённый на 2 части

Выходные данные – классическая аннотация первой части кластера, обновлённая аннотация второй части кластера 23.05.2010

9

Page 10: Автоматическое обновление аннотации новостного кластера

Пример обновлённой аннотации

1. Южный уступил дорогу в финал любимцу публики, ОРЕАНДА / SPORT. RU.

2. Михаил Южный не смог выйти в финал турнира АТП в Загребе, проиграв прошлогоднему победителю турнира и первому сеяному хорвату Ивану Любичичу.

3. Турнирный путь Южного : 1-й круг : Николя Маю (Франция) - 7:6, 6:3 2-й круг : Томаш Чакль (Чехия) - 6:4, 6:2 Четвертьфинал : Марк Гиквел(Франция) - 7:5, 6:2 Полуфинал : Иван Любичич (Хорватия, 1) - 6:2, 3:6, 5:7.

4. В финале хорватский теннисист сыграет с киприотом Маркосом Багдатисом, выбившим из борьбы австрийца Александра Пейю - 6:4, 6:3.

5. Полуфинал Маркос Багдатис (Кипр, 2) - Александр Пейя (Австрия, Q) - 6:4.

6. Первый сет Михаил взял довольно легко, во втором проиграл, а в третьем вел со счетом 4:2, однако уступил.

23.05.2010

10

Page 11: Автоматическое обновление аннотации новостного кластера

Оценка полноты изложения

Для сравнения реализован метод MMR.

4 модификации методов.

Оценка содержания – метод «Пирамиды».

Лингвисты составили эталонные аннотации (2-4).

Вручную выделены «информационные единицы» (ИЕ) - факты.

Итоговая оценка:

11

кластераданногоИЕвсехвес

ИЕнайденныхвес

____

__

Название

метода

Обн.

Анн.

MMR 0.457

MMR+новизна 0.543

Тематическое

представление

(по всему

кластеру)

0.630

Тематическое

представление

(по второй части

кластера)

0.587

23.05.2010

Page 12: Автоматическое обновление аннотации новостного кластера

Основные результаты

Предложен подход к созданию обновлённой аннотации новостного кластера.

Создан программный комплекс, реализующий предложенный подход.

Для сравнения предложенного подхода реализован один из лучших существующих методов – MMR.

Произведена оценка различных модификаций методов по содержанию (метод «Пирамиды») и читабельности:

Более высокая полнота обновленной аннотации.

Более высокое качество изложения.

Публикации: Опубликованы тезисы докладов (МГУ, МИФИ)

Подготовлен и подан доклад на Всероссийскую конференцию RCDL 23.05.2010

12