Upload
lidia-pivovarova
View
3.319
Download
0
Embed Size (px)
DESCRIPTION
Пре
Citation preview
Автоматическое Автоматическое реферированиереферирование
Лидия Михайловна Лидия Михайловна ПивовароваПивоварова
Системы понимания Системы понимания текстатекста
ВведениеВведение
Реферат – текст, Реферат – текст, составленный на основе составленный на основе одного или нескольких одного или нескольких документов, который документов, который содержит важнейшую содержит важнейшую информацию из информацию из исходных текстов и по исходных текстов и по объему не превосходит объему не превосходит половины исходных половины исходных текстов.текстов.
РеферированиеРеферирование ОписательноеОписательное vsvs. . содержательное содержательное vsvs. . оценочноеоценочное
......используется для быстрой категоризациииспользуется для быстрой категоризации vs. vs. представления информации представления информации vs. vs. оценки содержания оценки содержания документадокумента
ИзвлечениеИзвлечение vsvs. . абстракцияабстракция......фрагменты текстафрагменты текста vs. vs. связный перифраз смысласвязный перифраз смысла
УниверсальноеУниверсальное vsvs. . запросно-ориентированное запросно-ориентированное vsvs. . пользовательскоепользовательское... ... суммируется авторская точка зрения суммируется авторская точка зрения vs.vs. реферат реферат
основывается на запросеосновывается на запросе vs. vs. отражаются интересы отражаются интересы пользователяпользователя
Background Background vsvs. just-the-news. just-the-news......предполагает, что предварительные знания читателя предполагает, что предварительные знания читателя
малымалы vs. vs. полныполны
Основанное на одномОснованное на одном vsvs. . множестве документовмножестве документов
The Modules of the Summarization The Modules of the Summarization MachineMachine
EXTRACTION
INTERPRETATION
EXTRACTS
ABSTRACTS
?
CASE FRAMESTEMPLATESCORE CONCEPTSCORE EVENTSRELATIONSHIPSCLAUSE FRAGMENTSINDEX TERMS
MULTIDOC
EXTRACTS
GENERATION
FILTERING
DOCEXTRACTS
СодержаниеСодержание
1.1. ИзвлечИзвлечеение (ние (extraction)extraction)
2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)
3.3. ПорождениеПорождение т текста рефератаекста реферата
4.4. ОценкаОценка
Опорные свойства Опорные свойства текстатекста Структура текстаСтруктура текста
позиция информации в текстепозиция информации в тексте заголовки, абзацызаголовки, абзацы,, … …
Ключевые слова (словочетания)Ключевые слова (словочетания) Частота слов в текстеЧастота слов в тексте Когезия Когезия
совместная встречаемостьсовместная встречаемость кореференциякореференция ллексические связиексические связи
Дискурсивная структура текстаДискурсивная структура текста
Структура текстаСтруктура текста
Важнейшие предложеВажнейшие предложенния расположены ия расположены в начале и/или конце текстав начале и/или конце текста
Основной методОсновной метод: : просто взять первое просто взять первое (первые) предложение(я)(первые) предложение(я) На самом деле расположение На самом деле расположение
информатиинформативвных предложений зависит от ных предложений зависит от жанра текстажанра текста
Слова, которые встречаются в названии Слова, которые встречаются в названии и заголовках релевантны для рефератаи заголовках релевантны для реферата
Ключевые слова Ключевые слова (словочетания)(словочетания)
Важные предложения содержатВажные предложения содержат ‘bonus phrases’‘bonus phrases’:: significantly, In this significantly, In this paper we show, In conclusionpaper we show, In conclusion, , ……
ННеважные предложения содержатеважные предложения содержат ‘stigma phrases’‘stigma phrases’: : hardly,hardly, impossibleimpossible, , … …
Вес предложения рассчитывается Вес предложения рассчитывается с учетом с учетом ттаких фразаких фраз
Частота Частота Важные предложения Важные предложения
содержат наиболее содержат наиболее частотную лексикучастотную лексику
Частота слов Частота слов учитывается в весе учитывается в весе документовдокументов
Можно использовать Можно использовать unsupervised unsupervised меметтодыоды
Этот поЭтот подхдход может од может снижать качество снижать качество работы системыработы системы
words
Wordfrequency
The resolving power of words
(Luhn, 59)
Когерентность и Когерентность и когезиякогезия
Когерентность – глобальная Когерентность – глобальная структура текста, структура текста, высокоуровневые связи между высокоуровневые связи между предложениямипредложениями
Когезия – локальная структура Когезия – локальная структура текста, связи между словамитекста, связи между словами
Идеальный реферат (как любой Идеальный реферат (как любой естественно-языковый текст) естественно-языковый текст) должен совмещать оба свойствадолжен совмещать оба свойства
Когерентность и Когерентность и когезиякогезияJohn enjoys playing the piano. John wants to
become a famous piano player. John works hard and works hard every day. Working hard is necessary to become a famous piano player.
John enjoys playing the piano. However, he woke up early yesterday. But the day before yesterday the weather was wonderful, because rain and snow started immediately and continued the whole day through. By the way, his teacher did the same.
John enjoys playing the piano and wants to become famous.He works hard and does it every day because it is necessary for his goal.
Когерентность в Когерентность в реферированииреферировании
Текст представляется в виде Текст представляется в виде графа; узлы – предложения, графа; узлы – предложения, связь – мера близости (связь – мера близости (bag of bag of words similarity)words similarity)
Используется порог Используется порог отсечения по мере близостиотсечения по мере близости
Наиболее существенные узлы: Наиболее существенные узлы: те, которые имеют те, которые имеют наибольшее число связейнаибольшее число связей
Для определения этих узлов Для определения этих узлов можно использовать алгоритм можно использовать алгоритм типа типа PageRankPageRank
СодержаниеСодержание
1.1. ИзвлечИзвлечеение (ние (extraction)extraction)
2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)
3.3. ПорождениеПорождение т текста рефератаекста реферата
4.4. ОценкаОценка
АбстракцияАбстракция ООббобщение концептовобщение концептов::
Sue ate apples, pears, and bananas Sue ate apples, pears, and bananas Sue ate Sue ate fruitfruit
Замещение меронимииЗамещение меронимии::Both wheels, the pedals, saddle, chain… Both wheels, the pedals, saddle, chain… the the
bikebike Идентификация сценарияИдентификация сценария
He sat down, read the menu, ordered, ate, paid, He sat down, read the menu, ordered, ate, paid, and left and left He ate at the restaurant He ate at the restaurant
МетонимияМетонимия::A spokesperson for the US Government announced A spokesperson for the US Government announced
that… that… Washington announced that... Washington announced that...
АбстракцияАбстракция ИнтерпретацИнтерпретациия происходит на я происходит на
концептуальном уровне, требует концептуальном уровне, требует привлечения семантической привлечения семантической информацииинформации
В настоящее время большинство В настоящее время большинство систем используют извлечение систем используют извлечение ((extraction)extraction), а не абстрацию, а не абстрацию
Приложимы методы Приложимы методы Information Information ExtractionExtraction: заполнение шаблонов на : заполнение шаблонов на основе текста, затем генерация основе текста, затем генерация реферата по заполненным шаблонамреферата по заполненным шаблонам
Суммаризация Суммаризация нескольких документовнескольких документов
Основной фокус – на снижении Основной фокус – на снижении избыточности избыточности Невозможно просто брать предложения из Невозможно просто брать предложения из
текстов без постобработкитекстов без постобработки Неочевидно, в каком порядке брать Неочевидно, в каком порядке брать
предложенияпредложения когерентностькогерентность когезиякогезия хронологический порядокхронологический порядок кореференциякореференция
СодержаниеСодержание
1.1. ИзвлечИзвлечеение (ние (extraction)extraction)
2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)
3.3. ПорождениеПорождение т текста рефератаекста реферата
4.4. ОценкаОценка
Порождение текста Порождение текста рреефератаферата
Уровень 1Уровень 1: с: специальная пециальная процедура отсутствуетпроцедура отсутствует ИИзвлеченные из текста фрагменты звлеченные из текста фрагменты
используются буквальноиспользуются буквально. .
УровеньУровень 2: 2: простые предложенияпростые предложения Монтирование извлеченных фрагментовМонтирование извлеченных фрагментов
Уровень Уровень 3: 3: полноценное полноценное ппоорождение текстоврождение текстов ккомпрессия омпрессия исисходных текстовходных текстов
СодержаниеСодержание
1.1. ИзвлечИзвлечеение (ние (extraction)extraction)
2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)
3.3. ПорождениеПорождение т текста рефератаекста реферата
4.4. ОценкаОценка
ОценкаОценка При наличии составленных вручную При наличии составленных вручную
рефератов оценку можно проводить рефератов оценку можно проводить автоматически – через меру близости автоматически – через меру близости между рефератами, составленным между рефератами, составленным человеком и системойчеловеком и системой (ROUGE (ROUGE аналогичный аналогичный BLEU)BLEU)
DUC - Document Understanding Conferences (2000-2007), с 2008-го вошло отдельной дорожкой в Text Analysis Conference (TAC) помимо автоматической оценки – ручная помимо автоматической оценки – ручная
экспертизаэкспертиза
ИсточникиИсточники
Eduard Hovy and Daniel MarcuEduard Hovy and Daniel Marcu Automated Text Automated Text summarizationsummarization. . Tutorial — COLING/ACL’98 Tutorial — COLING/ACL’98 – – www.isi.edu/~marcu/acl-tutorial.pptwww.isi.edu/~marcu/acl-tutorial.ppt
Екатерина Филиппова Современные Екатерина Филиппова Современные подходы к автоматическому подходы к автоматическому составлению рефератов - составлению рефератов - http://mathlingvo.ru/nlpseminar/archive/shttp://mathlingvo.ru/nlpseminar/archive/s_19_19
D. Jurafsky, J. H. Martin Speech and D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 23Language Processing – 2009 – Chapter 23