Upload
-
View
589
Download
6
Embed Size (px)
DESCRIPTION
Алексеев Алексей
Citation preview
АВТОМАТИЧЕСКОЕ ОБНОВЛЕНИЕ АННОТАЦИИ НОВОСТНОГО КЛАСТЕРА
Автор: Алексеев Алексей (группа 524)
Научный руководитель: к.ф.-м.н. НИВЦ МГУ Лукашевич Н.В.
ДИПЛОМНАЯ РАБОТА
Постановка задачи - 1
Новостной кластер – набор новостных сообщений (документов) по поводу некоторого события.
Аннотация – краткое описание события, составленное из предложений документов кластера.
2 февраля 2007 года в 16.00 – начало теннисного матча.
Две части новостного кластера – до и после 16.00.
Первая часть - только анонс игры, вторая часть – как анонс (запоздавшие сообщения), так и результаты.
Обновлённая аннотация: победитель, счёт (результаты).
23.05.2010
2
Постановка задачи - 2
Обновлённая аннотация строится независимо от начальной аннотации (с нуля).
Цели и задачи дипломной работы:
I. Предложить метод создания обновлённой аннотации новостного кластера.
II. Оценить качество предложенного метода путем реализации метода для сравнения.
III. Создать программную систему для автоматического создания обновлённой аннотации новостного кластера.
23.05.2010
3
Предложенный подход
Предложен метод создания обновлённой аннотации в два этапа:
1. Выявление предложений, содержащих новую информацию.
2. Аннотирование, используя только новые предложения.
Определение новизны – комбинация двух принципиально различных методов выявления новой информации.
Комплексное аннотирование - на основе тематического представления текста.
23.05.2010
4
Определение новизны
Первый метод: сравнение предложений на «не похожесть» по косинусной мере:
Если предложение «не похоже» на остальные – новое.
Второй метод: новые слова = новая информация.
Разные слова – разный вклад в новизну:
Итоговый вес предложения – сумма весов всех новых слов. Вес больше порога - новое.
23.05.2010
5
21
21)cos(
vv
vv
)log(
1_
setdfсловаВес
Аннотирование на основе тематического представления - 1
Построение тематического представления - разбиение всех понятий, упомянутых в документе на группы близких по смыслу понятий –тематических узлов (ТУ).
Используются описания понятий в Тезаурусе русского языка РуТез.
Оперируем не отдельными словами, а набором близких по смыслу слов, используемых именно в этом тексте.
Позволяет моделировать лексическую связность текста, устранять повторы.
23.05.2010
6
ЮЖНЫЙ, МИХАИЛ
РОССИЯНЕ
РОССИЙСКАЯ ФЕДЕРАЦИЯ
ТЕННИСИСТ
23
12
10
6
СПОРТИВНЫЙ ФИНАЛ
СПОРТИВНОЕ СОРЕВНОВАНИЕ
СПОРТ
СПОРТСМЕН
ФИНАЛИСТ
36
54
8
2
1
ТЕННИСНЫЙ КОРТ
ТЕННИС
14
12
ЗАГРЕБ
ХОРВАТИЯ
70
36
Аннотирование на основе тематического представления - 2
Тезауруса не всегда достаточно. Необходим учёт именованных сущностей, неописанных в Тезаурусе.
Вводится общая оценка – вес предложения, складывающийся из компонентов:
1. Весов упомянутых концептов Тезауруса.
2. Весов слов с большой буквы (кроме первого слова предложения).
Вес самой частотной именованной сущности:
Вес остальных именованных сущностей:
23.05.2010
7
concwordconcword FrFrWW max_max_max_max_ /,100min
wordwordwordword FrFrWW max_max_ /
Аннотирование на основе тематического представления - 3
Аннотация состоит из заголовка и нескольких предложений, из разных документов кластера.
Заголовок аннотации – один из заголовков документов, имеющий наибольший вес по ТУ (ИС)
Отмечаются все упомянутые тематические узлы.
Выбирается предложение:
1. Содержащее уже упомянутый тематический узел (ИС).
2. Содержащее новый тематический узел (ИС).
3. Имеющее наибольший вес по тематическим узлам и именованным сущностям.
Длина аннотации – 100 слов.23.05.2010
8
Архитектурная схема системы
Язык разработки: C#
Фиолетовые модули – внешние
Входные данные –новостной кластер, разделённый на 2 части
Выходные данные – классическая аннотация первой части кластера, обновлённая аннотация второй части кластера 23.05.2010
9
Пример обновлённой аннотации
1. Южный уступил дорогу в финал любимцу публики, ОРЕАНДА / SPORT. RU.
2. Михаил Южный не смог выйти в финал турнира АТП в Загребе, проиграв прошлогоднему победителю турнира и первому сеяному хорвату Ивану Любичичу.
3. Турнирный путь Южного : 1-й круг : Николя Маю (Франция) - 7:6, 6:3 2-й круг : Томаш Чакль (Чехия) - 6:4, 6:2 Четвертьфинал : Марк Гиквел(Франция) - 7:5, 6:2 Полуфинал : Иван Любичич (Хорватия, 1) - 6:2, 3:6, 5:7.
4. В финале хорватский теннисист сыграет с киприотом Маркосом Багдатисом, выбившим из борьбы австрийца Александра Пейю - 6:4, 6:3.
5. Полуфинал Маркос Багдатис (Кипр, 2) - Александр Пейя (Австрия, Q) - 6:4.
6. Первый сет Михаил взял довольно легко, во втором проиграл, а в третьем вел со счетом 4:2, однако уступил.
23.05.2010
10
Оценка полноты изложения
Для сравнения реализован метод MMR.
4 модификации методов.
Оценка содержания – метод «Пирамиды».
Лингвисты составили эталонные аннотации (2-4).
Вручную выделены «информационные единицы» (ИЕ) - факты.
Итоговая оценка:
11
кластераданногоИЕвсехвес
ИЕнайденныхвес
____
__
Название
метода
Обн.
Анн.
MMR 0.457
MMR+новизна 0.543
Тематическое
представление
(по всему
кластеру)
0.630
Тематическое
представление
(по второй части
кластера)
0.587
23.05.2010
Основные результаты
Предложен подход к созданию обновлённой аннотации новостного кластера.
Создан программный комплекс, реализующий предложенный подход.
Для сравнения предложенного подхода реализован один из лучших существующих методов – MMR.
Произведена оценка различных модификаций методов по содержанию (метод «Пирамиды») и читабельности:
Более высокая полнота обновленной аннотации.
Более высокое качество изложения.
Публикации: Опубликованы тезисы докладов (МГУ, МИФИ)
Подготовлен и подан доклад на Всероссийскую конференцию RCDL 23.05.2010
12