Upload
mikhail-lomonosov
View
820
Download
0
Embed Size (px)
DESCRIPTION
Тезаурус РуТез: структура и приложения Лукашевич Н.В.
Citation preview
Тезаурус РуТез: структура и приложения
Лукашевич Н.В.
ведущий научный сотрудник НИВЦ МГУ
louk_nat @mail.ru
Знания о мире в обработке текстов на естественном языке
• В настоящее время: широкие предметные области для приложений автоматической обработки текстов
• В различных приложениях полезно использовать знания о мире
• Знания о мире сложным образом связаны с лексическими и терминологическими знаниями
• Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?
Лингвистические ресурсы для автоматической обработки текстов
Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года
Большой объем: тысячи слов и словосочетаний Модель описания знаний о языке и мире должна
быть: «легкая», полезная в широком круге приложений тестирование ресурса в приложениях
Созданные ресурсы: Тезаурус РуТез, Общественно-политический тезаурус Онтология по естественным наукам и
технологиями (ОЕНТ) и др.
Коллектив
1994 – н/в АНО Центр информационных исследований (АНО ЦИИ)
1994 – 1997 Институт США и Канады РАН
1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова
Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)
Участие в организации научных конференций
• «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) -- ПК
• Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК
• Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК
• Cross Language Evаluation Forum (CLEF)(2003-2009) -- НК
• European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК
• Text-Speech-Dialog conference (TSD) - ПК
• SIGIR (2008) – ПК и др.
Проекты
• Рамблер (2007– н/в)
• Аппарат Государственной Думы ФС РФ (1999 -- н/в)
• НИИ Восход для ЦИК РФ (1997 -- н/в)
• НПП Гарант-Сервис (2002 – н/в)
• ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008)
• в/ч 43753 (2000 – 2007)
• Банк России (2006 – н/в)
• Счетная палата (2003)
• Министерство образования; ГУМЦ «Базис» (2003, 04)
• «Аплана» (2006, 2008)
• ИППИ РАН для Управления спецпрограмм (1996)
• «Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)
Приложения автоматической обработки текстов
• Информационный поиск– Корпоративные или предметно-ориентированные
системы
– Автоматическое расширение запроса
– Визуализация выдачи
• Автоматическая рубрикация текстов – Несколько десятков рубрикаторов
• Автоматическая кластеризация текстов
• Автоматическое реферирование текстов– Одного документа, многих документов, составление
аналитических отчетов
• Системы мониторинга
План презентации
• Тезаурус РуТез – Общая структура
• Единицы Тезауруса– Понятия тезауруса– Текстовые входы (синонимы,
многозначность, словосочетания)
• Отношения Тезауруса– Принципы установления– Используемые типы отношений
• Приложения автоматической обработки текстов
Тезаурус РуТез – иерархическая сеть понятий
Понятие: Имя понятия Набор текстовых выражений Отношения между понятиями
53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией)
Переведен на английский язык: 130 тысяч слов и выражений
Общая структура тезауруса РуТез
Две составные части
Общий лексикон
Абстрактные действия, процессы
Оценки, эмоции и т.д.
Общественно-политический тезаурус
Общественно-политическая область – жизнь современного общества
Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др
Тезаурус по общественно-политической жизни
• Структурированная энциклопедия жизни современного общества
– 36 тысяч понятий
– 100 тысяч терминов
– 140 тысяч прямых отношений (1,1 млн. наследуемых)
• предметная область – проблемы современного общества
• типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения
• Состав: термины и тематическая лексика
Общая лексика
Специальная лексика
Специальная лексика
Тезаурус РуТез и специальная лексика
Промежуточная зона
компьютерная
безопасность
Авиа*ОнтологияКу
льт
урно
е
насл
едие
Онтология по естественным
наукам и технологиям
Общественно-политическая
область
Уров
ни и
ерар
хии
Выборы
Продукция
География
Специальные области vs. общественно-политическая область
Тезаурус РуТез: учет трех традиций
Информационно-поисковые тезаурусыНазвание понятияВключение многословных единицНебольшой набор отношений
Ресурсы типа WordNetПодробное включение отдельных
лексических единицАккуратное описание многозначности
Формальные онтологииОтличимость понятийФормальные свойства отношений
Единицы тезауруса РуТез
Понятия тезауруса РуТез
• Понятие происходит от значения отдельных слов или словосочетаний
• Проблемы ввода понятий– Квазисинонимы
– Близкие значения многозначных слов
• Понятие должно быть отличимо от близких понятий– Однозначно понимаемое имя
– Набор текстовых входов
– Набор отношений
– Название понятия
• Единое представление для: – нетематической лексики,
– тематической лексики, терминологии
Имя понятия• Однозначное слово:
– КАБЕЛЬ
• Однозначное словосочетание, являющееся одним из текстовых входов понятия: – ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД
• Неоднозначное словосочетание с пометой: – КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД)
• Пара синонимов – текстовых входов понятия через запятую: – ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ
• Имя должно быть однозначно, понятно, отражать особенности понятия.
Многословные языковые выражения
Словосочетаний может встретиться очень многоМы вносим словосочетание, если это необходимо для отражения новой информации
синонимы: приватизировать – передать в частные руки;
многозначное становится однозначным: положение дел, состояние дел
дополнительная структуризация сети
сельский дом: вилла, дача;
автомобиль автомобильные гонки автогонщик (пилот)
Синонимы в тезаурусе РуТез
Синонимы – языковые выражения, являющиеся текстовыми входами к одному и тому же понятию тезауруса
Разные части речи – дериваты могут быть текстовыми входами одного и того же понятия
Назовем совокупность текстовых входов к одному и тому же понятию – онтологическими синонимами
Специальные усилия на поиск многословных вариантов – снижение многозначности
Формирование обширных синонимических рядов – стабильность распознавания понятия в текста
Пример синонимического ряда
• ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ• ЗАЩИТА ПРИРОДНОЙ СРЕДЫ• ЗАЩИТА ПРИРОДЫ• ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ• ОХРАНА ПРИРОДНОЙ СРЕДЫ• ОХРАНА ПРИРОДЫ• ОХРАНЯТЬ ПРИРОДУ• ПРИРОДОЗАЩИТА• ПРИРОДОЗАЩИТНЫЙ• ПРИРОДООХРАНА• ПРИРОДООХРАНИТЕЛЬНЫЙ• ПРИРОДООХРАННЫЙ
Близкие значения разных слов: монумент и памятник
• Словарь синонимов (НОСС) – 5 различий:• 1) в память о конкретном человеке обычно
ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах;
• 2) у монументов есть способность увековечивать подвиг живых людей
• 3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта,
• 4) монумент обычно больше по размерам и т.п..• Достаточны ли эти различия, чтобы ставить в
соответствие этим словам отдельные понятия?
Монумент и памятник - 2
• Проблема разделения: – каковы отношения между собой – каковы отношения с другими близкими
понятиями онтологии• Проверка примеров показывает, что нет
разделяющего свойства для сущностей монумент и памятник:
• Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала…
• Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения
• Монумент, памятник –> одно понятие онтологии
Близкие значения разных слов: водитель и шофер
• Синонимы во многих словарях синонимов• НОСС: шофер управляет только автомобилем
или автобусом, водитель и другими транспортными средствами
• Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте)
• Должно быть два понятия в онтологии:• ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА
(водитель)• ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер)• Дополнение: шофер – обычно
профессиональный работник!
Водитель транспортного средства(водитель)
Транспортный работник Судоводитель
Вагоновожатый(водитель трамвая)
Водитель автомобиля(водитель)
Профессиональный водитель(шофер)
Таксист Личный водитель(личный шофер)
Многозначность в тезаурусе
• М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК – Нужно выбрать значение
• А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка):– Львов – ЛЬВОВ (ГОРОД)– Нужно подтвердить/отвергнуть употребление
значения
Число многозначных единиц в Тезаурусе РуТез- 16 тысяч многозначных слов и выражений
Пополнение тезауруса РуТез• Новые реалии и пропущенная конкретика
(пополнение Общ.-политического тезауруса):– Автодом, дача на колесах, инсоляция, национал-сепаратизм,
тайский бокс, автолестница, единый госэкзамен, пожарный спринклер
• Пропущенные отдельные слова общей лексики– Скривить, петься, минование, миролюбивость,
неравнодушие, небезразличие, зыбкий
• Словосочетания, уточняющие значения слов– Пойти под откос, остаться в стороне, замыть
пятно, не обидеть способностями, тяжело даваться
Отношения в тезаурусе РуТез
Подходы к представлению отношений
• Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений
• vs.
• Наборы семантических отношений, произвольные набор предикатов– Но:
• Большие затраты труда для широкой ПО
• Непонятно, какой набор оптимален
• Контекстная зависимость
Надежные отношения
• Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте– Возможности систем автоматической обработки текста
для анализа релевантности контекста ограничены
• Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда:– для всех или большинства примеров понятия– в течение всего (или почти всего) времени существования
примера
Нужно описывать надежные отношения
Отношения в тезаурусе РуТез
отношение ВЫШЕ-НИЖЕ – таксономическое отношение Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность, наследование
отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, участники ситуации, свойства НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность
внешняя онтологическая зависимость - несимметричная ассоциация – асц2
Симметричная ассоциация – для очень похожих понятий
Отношение ЦЕЛОЕ-ЧАСТЬ
• Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности
• Х – это часть Y– Изменение Х (или совокупности Х)
влечет изменение Y– Отношение действует на протяжении большей
части нормального существования примера X или это основная альтернатива
– Для нас: колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля
– инвестор – это ЧАСТЬ для инвестирование
Примеры отношения часть-целое
• Автопилот - летательный аппарат• Горбушка - хлеб• Член партии - политическая партия• Балкон зала - зрительный зал
• Грузоподъемность – транспортное средство• Калорийность - пища• Водоизмещение- судно
• Инвестор - инвестирование• Очиститель- очистка• Дубильщик - дубление
Транзитивность отношения ЧАСТЬ-ЦЕЛОЕ
Обвиняемый – обвинение в суде – судебный процесс – судопроизводство – судебная система
Аптекарь – аптека – лекарственное обеспечение – медицинская помощь – медицина – здравоохранение
Отношение внешней зависимости (dependence relation)
• Концептуальная зависимость: - понятие Х не возникло бы без существования понятия Y
• Внешняя зависимость:
• - понятие X зависит от понятия Y,
• - экземпляры Y не являются всегда частями или свойствами экземпляров X
Примеры: понятие гараж зависит от понятия автомобиль Понятие автостроение зависит от понятия
автомобиль
• Обозначаем направленной ассоциацией: АСЦ1, АСЦ2
Пример отношения Дерево - Лес
Многие ресурсы указывают: Дерево – часть Леса
Но: дерево не всегда в лесу, а лес всегда состоит из деревьев
Понятие ЛЕС – зависит от понятия ДЕРЕВО
Отношения концептуальной зависимости и семантические имена отношений
ГАРАЖ зависит_от АВТОМОБИЛЬ (назначение?)
РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?)
ГИДРО-ЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?)
ЛЕС зависит_от ДЕРЕВО (часть?)
ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?)
КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?)
Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны
=ЛЕС= : части
• БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ)
• ГРУППА ЛЕСА
• ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА)
• ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА)
• ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ)
• ОПУШКА (ОПУШЕЧНЫЙ)
• ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ)
• ПОДРОСТ (МОЛОДНЯК)
• ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА)
• СУХОСТОЙ (СУХОСТОЙНЫЙ)
=ЛЕС= : зависимые понятия
• ЛЕСНОЙ ПОЖАР ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)(ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)
• ЛЕСНАЯ НАУКА ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ)(НАУКА О ЛЕСЕ)
• ЛЕСОВЛАДЕНИЕ ЛЕСОВЛАДЕНИЕ
• ЛЕСОПОЛЬЗОВАНИЕЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; (ЛЕСНОЕ ПОЛЬЗОВАНИЕ;
ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА) ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)
Автоматическая обработка текстов на основе тезауруса
Обработка текстов с использованием тезауруса
• Морфологический анализ– Индекс лемм
• Терминологический анализ– Сопоставление с тезаурусом– Разрешение многозначности (Общественно-политический
тезаурус точность > 75% - грант Яндекса 2005)
• Тематический анализ– Выделение основной темы текста– Учет близких по смыслу понятий для вычисления веса
понятия– Концептуальный индекс с весами
Лексическая связность: пример
О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещенийвоеннослужащим и гражданам, уволенным с военной службы
Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство РоссийскойФедерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещенийвоеннослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;
ЖИЛОЕ ПОМЕЩЕНИЕ(25)
ЖИЛОЕ ЗДАНИЕ(1)
КВАРТИРА(2)
А
А
СОБСТВЕННОСТЬ(1)
ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО(4)
КОМНАТА (ПОМЕЩЕНИЕ)(1)
В
В
НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ
(13)
МНОГОКВАРТИРНЫЙ ДОМ(1)
ЗДАНИЕ(1)
СООРУЖЕНИЕ(1)
ЖИЛАЯ ПЛОЩАДЬ(1)
СТРОИТЕЛЬСТВО(12)
ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2)
ЖИЛИЩНАЯ НОРМА(2)
НАНЯТЬ(13)
ПОКУПКА(6)
ПЛАТИТЬ(1)
ДЕНЬГИ(22)
А
Тезаурусные отношения для документа
Вес понятия в тексте: тематическое представления
);(max
);()1();()(
Dcfreq
DdfreqDdd
c
Главные темы
Локальные темы
Тематическая аннотация(Постановление Правительства РФ от 26 июня 1995 г. N 604)
----+----------------------------------------------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ |****| | | | | +------------------------------------------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; |****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +--------------------------------------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; |****| z | z | | | | | +----------------------------------------------------------+ | | | | ГРАЖДАНИН |****| X | z | . | | | | | | +------------------------------------------------------+ | | | | | УВОЛЬНЕНИЕ; |****| X | z | . | X | | | | | | | +--------------------------------------------------+ | | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; |****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | | | | +----------------------------------------------+ | | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; |****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | | | | | +------------------------------------------+ | | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; |****| z | X | z | . | . | z | z | |
Тезаурус РуТез: основные приложения
• Информационный поиск:– Поисковый инструмент УИС Россия (www.cir.ru)– расширение запросов– вопросно-ответные системы
• Автоматическая рубрикация текстов– Более 20 рубрикаторов
• Автоматическое аннотирование– Аннотирование одного документа, – Обзорный реферат
• Обработка потоков новостей, информационный мониторинг– Кластеризация документов
Представление смысла рубрики опорными понятиями
Расширенное представление рубрики понятиями тезауруса
Кластеризация новостей
Классификация документов и кластеров
Обзорный (сводный) реферат(Multi-document summarization)
Преимущества от онтологий и тезаурусов в разных приложениях
Information Retrieval Tasks Benefits
Web Search 0+ %
Corporate Search / Legal Search 10 %
Long Queries / Verbose Queries 15 %
Text Categorization 15-50 %
News Clustering 6-15 %
Summarization, Visualization,Multi Document Summarization
++(SUMMAC)
Заключение• В течение более чем 15 лет мы разрабатываем тезаурусы
и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска
• Наши выводы:
– Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов
– Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере
– При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами