57
Тезаурус РуТез: структура и приложения Лукашевич Н.В. ведущий научный сотрудник НИВЦ МГУ louk_nat @mail.ru

Тезаурус РуТез: структура и приложения Лукашевич Н.В

Embed Size (px)

DESCRIPTION

Тезаурус РуТез: структура и приложения Лукашевич Н.В.

Citation preview

Page 1: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Тезаурус РуТез: структура и приложения

Лукашевич Н.В.

ведущий научный сотрудник НИВЦ МГУ

louk_nat @mail.ru

Page 2: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Знания о мире в обработке текстов на естественном языке

• В настоящее время: широкие предметные области для приложений автоматической обработки текстов

• В различных приложениях полезно использовать знания о мире

• Знания о мире сложным образом связаны с лексическими и терминологическими знаниями

• Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?

Page 3: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Лингвистические ресурсы для автоматической обработки текстов

Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года

Большой объем: тысячи слов и словосочетаний Модель описания знаний о языке и мире должна

быть: «легкая», полезная в широком круге приложений тестирование ресурса в приложениях

Созданные ресурсы: Тезаурус РуТез, Общественно-политический тезаурус Онтология по естественным наукам и

технологиями (ОЕНТ) и др.

Page 4: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Коллектив

1994 – н/в АНО Центр информационных исследований (АНО ЦИИ)

1994 – 1997 Институт США и Канады РАН

1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова

Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)

Page 5: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Участие в организации научных конференций

• «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) -- ПК

• Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК

• Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК

• Cross Language Evаluation Forum (CLEF)(2003-2009) -- НК

• European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК

• Text-Speech-Dialog conference (TSD) - ПК

• SIGIR (2008) – ПК и др.

Page 6: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Проекты

• Рамблер (2007– н/в)

• Аппарат Государственной Думы ФС РФ (1999 -- н/в)

• НИИ Восход для ЦИК РФ (1997 -- н/в)

• НПП Гарант-Сервис (2002 – н/в)

• ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008)

• в/ч 43753 (2000 – 2007)

• Банк России (2006 – н/в)

• Счетная палата (2003)

• Министерство образования; ГУМЦ «Базис» (2003, 04)

• «Аплана» (2006, 2008)

• ИППИ РАН для Управления спецпрограмм (1996)

• «Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)

Page 7: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Приложения автоматической обработки текстов

• Информационный поиск– Корпоративные или предметно-ориентированные

системы

– Автоматическое расширение запроса

– Визуализация выдачи

• Автоматическая рубрикация текстов – Несколько десятков рубрикаторов

• Автоматическая кластеризация текстов

• Автоматическое реферирование текстов– Одного документа, многих документов, составление

аналитических отчетов

• Системы мониторинга

Page 8: Тезаурус РуТез: структура и приложения Лукашевич Н.В

План презентации

• Тезаурус РуТез – Общая структура

• Единицы Тезауруса– Понятия тезауруса– Текстовые входы (синонимы,

многозначность, словосочетания)

• Отношения Тезауруса– Принципы установления– Используемые типы отношений

• Приложения автоматической обработки текстов

Page 9: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Тезаурус РуТез – иерархическая сеть понятий

Понятие: Имя понятия Набор текстовых выражений Отношения между понятиями

53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией)

Переведен на английский язык: 130 тысяч слов и выражений

Page 10: Тезаурус РуТез: структура и приложения Лукашевич Н.В
Page 11: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Общая структура тезауруса РуТез

Две составные части

Общий лексикон

Абстрактные действия, процессы

Оценки, эмоции и т.д.

Общественно-политический тезаурус

Общественно-политическая область – жизнь современного общества

Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др

Page 12: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Тезаурус по общественно-политической жизни

• Структурированная энциклопедия жизни современного общества

– 36 тысяч понятий

– 100 тысяч терминов

– 140 тысяч прямых отношений (1,1 млн. наследуемых)

• предметная область – проблемы современного общества

• типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения

• Состав: термины и тематическая лексика

Page 13: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Общая лексика

Специальная лексика

Специальная лексика

Тезаурус РуТез и специальная лексика

Промежуточная зона

компьютерная

безопасность

Авиа*ОнтологияКу

льт

урно

е

насл

едие

Онтология по естественным

наукам и технологиям

Page 14: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Общественно-политическая

область

Уров

ни и

ерар

хии

Выборы

Продукция

География

Специальные области vs. общественно-политическая область

Page 15: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Тезаурус РуТез: учет трех традиций

Информационно-поисковые тезаурусыНазвание понятияВключение многословных единицНебольшой набор отношений

Ресурсы типа WordNetПодробное включение отдельных

лексических единицАккуратное описание многозначности

Формальные онтологииОтличимость понятийФормальные свойства отношений

Page 16: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Единицы тезауруса РуТез

Page 17: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Понятия тезауруса РуТез

• Понятие происходит от значения отдельных слов или словосочетаний

• Проблемы ввода понятий– Квазисинонимы

– Близкие значения многозначных слов

• Понятие должно быть отличимо от близких понятий– Однозначно понимаемое имя

– Набор текстовых входов

– Набор отношений

– Название понятия

• Единое представление для: – нетематической лексики,

– тематической лексики, терминологии

Page 18: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Имя понятия• Однозначное слово:

– КАБЕЛЬ

• Однозначное словосочетание, являющееся одним из текстовых входов понятия: – ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД

• Неоднозначное словосочетание с пометой: – КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД)

• Пара синонимов – текстовых входов понятия через запятую: – ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ

• Имя должно быть однозначно, понятно, отражать особенности понятия.

Page 19: Тезаурус РуТез: структура и приложения Лукашевич Н.В
Page 20: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Многословные языковые выражения

Словосочетаний может встретиться очень многоМы вносим словосочетание, если это необходимо для отражения новой информации

синонимы: приватизировать – передать в частные руки;

многозначное становится однозначным: положение дел, состояние дел

дополнительная структуризация сети

сельский дом: вилла, дача;

автомобиль автомобильные гонки автогонщик (пилот)

Page 21: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Синонимы в тезаурусе РуТез

Синонимы – языковые выражения, являющиеся текстовыми входами к одному и тому же понятию тезауруса

Разные части речи – дериваты могут быть текстовыми входами одного и того же понятия

Назовем совокупность текстовых входов к одному и тому же понятию – онтологическими синонимами

Специальные усилия на поиск многословных вариантов – снижение многозначности

Формирование обширных синонимических рядов – стабильность распознавания понятия в текста

Page 22: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Пример синонимического ряда

• ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ• ЗАЩИТА ПРИРОДНОЙ СРЕДЫ• ЗАЩИТА ПРИРОДЫ• ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ• ОХРАНА ПРИРОДНОЙ СРЕДЫ• ОХРАНА ПРИРОДЫ• ОХРАНЯТЬ ПРИРОДУ• ПРИРОДОЗАЩИТА• ПРИРОДОЗАЩИТНЫЙ• ПРИРОДООХРАНА• ПРИРОДООХРАНИТЕЛЬНЫЙ• ПРИРОДООХРАННЫЙ

Page 23: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Близкие значения разных слов: монумент и памятник

• Словарь синонимов (НОСС) – 5 различий:• 1) в память о конкретном человеке обычно

ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах;

• 2) у монументов есть способность увековечивать подвиг живых людей

• 3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта,

• 4) монумент обычно больше по размерам и т.п..• Достаточны ли эти различия, чтобы ставить в

соответствие этим словам отдельные понятия?

Page 24: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Монумент и памятник - 2

• Проблема разделения: – каковы отношения между собой – каковы отношения с другими близкими

понятиями онтологии• Проверка примеров показывает, что нет

разделяющего свойства для сущностей монумент и памятник:

• Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала…

• Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения

• Монумент, памятник –> одно понятие онтологии

Page 25: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Близкие значения разных слов: водитель и шофер

• Синонимы во многих словарях синонимов• НОСС: шофер управляет только автомобилем

или автобусом, водитель и другими транспортными средствами

• Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте)

• Должно быть два понятия в онтологии:• ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА

(водитель)• ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер)• Дополнение: шофер – обычно

профессиональный работник!

Page 26: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Водитель транспортного средства(водитель)

Транспортный работник Судоводитель

Вагоновожатый(водитель трамвая)

Водитель автомобиля(водитель)

Профессиональный водитель(шофер)

Таксист Личный водитель(личный шофер)

Page 27: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Многозначность в тезаурусе

• М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК – Нужно выбрать значение

• А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка):– Львов – ЛЬВОВ (ГОРОД)– Нужно подтвердить/отвергнуть употребление

значения

Число многозначных единиц в Тезаурусе РуТез- 16 тысяч многозначных слов и выражений

Page 28: Тезаурус РуТез: структура и приложения Лукашевич Н.В
Page 29: Тезаурус РуТез: структура и приложения Лукашевич Н.В
Page 30: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Пополнение тезауруса РуТез• Новые реалии и пропущенная конкретика

(пополнение Общ.-политического тезауруса):– Автодом, дача на колесах, инсоляция, национал-сепаратизм,

тайский бокс, автолестница, единый госэкзамен, пожарный спринклер

• Пропущенные отдельные слова общей лексики– Скривить, петься, минование, миролюбивость,

неравнодушие, небезразличие, зыбкий

• Словосочетания, уточняющие значения слов– Пойти под откос, остаться в стороне, замыть

пятно, не обидеть способностями, тяжело даваться

Page 31: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Отношения в тезаурусе РуТез

Page 32: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Подходы к представлению отношений

• Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений

• vs.

• Наборы семантических отношений, произвольные набор предикатов– Но:

• Большие затраты труда для широкой ПО

• Непонятно, какой набор оптимален

• Контекстная зависимость

Page 33: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Надежные отношения

• Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте– Возможности систем автоматической обработки текста

для анализа релевантности контекста ограничены

• Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда:– для всех или большинства примеров понятия– в течение всего (или почти всего) времени существования

примера

Нужно описывать надежные отношения

Page 34: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Отношения в тезаурусе РуТез

отношение ВЫШЕ-НИЖЕ – таксономическое отношение Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность, наследование

отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, участники ситуации, свойства НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность

внешняя онтологическая зависимость - несимметричная ассоциация – асц2

Симметричная ассоциация – для очень похожих понятий

Page 35: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Отношение ЦЕЛОЕ-ЧАСТЬ

• Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности

• Х – это часть Y– Изменение Х (или совокупности Х)

влечет изменение Y– Отношение действует на протяжении большей

части нормального существования примера X или это основная альтернатива

– Для нас: колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля

– инвестор – это ЧАСТЬ для инвестирование

Page 36: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Примеры отношения часть-целое

• Автопилот - летательный аппарат• Горбушка - хлеб• Член партии - политическая партия• Балкон зала - зрительный зал

• Грузоподъемность – транспортное средство• Калорийность - пища• Водоизмещение- судно

• Инвестор - инвестирование• Очиститель- очистка• Дубильщик - дубление

Page 37: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Транзитивность отношения ЧАСТЬ-ЦЕЛОЕ

Обвиняемый – обвинение в суде – судебный процесс – судопроизводство – судебная система

Аптекарь – аптека – лекарственное обеспечение – медицинская помощь – медицина – здравоохранение

Page 38: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Отношение внешней зависимости (dependence relation)

• Концептуальная зависимость: - понятие Х не возникло бы без существования понятия Y

• Внешняя зависимость:

• - понятие X зависит от понятия Y,

• - экземпляры Y не являются всегда частями или свойствами экземпляров X

Примеры: понятие гараж зависит от понятия автомобиль Понятие автостроение зависит от понятия

автомобиль

• Обозначаем направленной ассоциацией: АСЦ1, АСЦ2

Page 39: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Пример отношения Дерево - Лес

Многие ресурсы указывают: Дерево – часть Леса

Но: дерево не всегда в лесу, а лес всегда состоит из деревьев

Понятие ЛЕС – зависит от понятия ДЕРЕВО

Page 40: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Отношения концептуальной зависимости и семантические имена отношений

ГАРАЖ зависит_от  АВТОМОБИЛЬ (назначение?)

РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?)

ГИДРО-ЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?)

ЛЕС зависит_от ДЕРЕВО (часть?)

ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?)

КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?)

Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны

Page 41: Тезаурус РуТез: структура и приложения Лукашевич Н.В

=ЛЕС= : части

• БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ)

• ГРУППА ЛЕСА

• ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА)

• ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА)

• ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ)

• ОПУШКА (ОПУШЕЧНЫЙ)

• ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ)

• ПОДРОСТ (МОЛОДНЯК)

• ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА)

• СУХОСТОЙ (СУХОСТОЙНЫЙ)

Page 42: Тезаурус РуТез: структура и приложения Лукашевич Н.В

=ЛЕС= : зависимые понятия

• ЛЕСНОЙ ПОЖАР ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)(ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)

• ЛЕСНАЯ НАУКА ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ)(НАУКА О ЛЕСЕ)

• ЛЕСОВЛАДЕНИЕ ЛЕСОВЛАДЕНИЕ

• ЛЕСОПОЛЬЗОВАНИЕЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; (ЛЕСНОЕ ПОЛЬЗОВАНИЕ;

ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА) ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)

Page 43: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Автоматическая обработка текстов на основе тезауруса

Page 44: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Обработка текстов с использованием тезауруса

• Морфологический анализ– Индекс лемм

• Терминологический анализ– Сопоставление с тезаурусом– Разрешение многозначности (Общественно-политический

тезаурус точность > 75% - грант Яндекса 2005)

• Тематический анализ– Выделение основной темы текста– Учет близких по смыслу понятий для вычисления веса

понятия– Концептуальный индекс с весами

Page 45: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Лексическая связность: пример

О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещенийвоеннослужащим и гражданам, уволенным с военной службы

Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство РоссийскойФедерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещенийвоеннослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;

Page 46: Тезаурус РуТез: структура и приложения Лукашевич Н.В

ЖИЛОЕ ПОМЕЩЕНИЕ(25)

ЖИЛОЕ ЗДАНИЕ(1)

КВАРТИРА(2)

А

А

СОБСТВЕННОСТЬ(1)

ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО(4)

КОМНАТА (ПОМЕЩЕНИЕ)(1)

В

В

НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ

(13)

МНОГОКВАРТИРНЫЙ ДОМ(1)

ЗДАНИЕ(1)

СООРУЖЕНИЕ(1)

ЖИЛАЯ ПЛОЩАДЬ(1)

СТРОИТЕЛЬСТВО(12)

ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2)

ЖИЛИЩНАЯ НОРМА(2)

НАНЯТЬ(13)

ПОКУПКА(6)

ПЛАТИТЬ(1)

ДЕНЬГИ(22)

А

Тезаурусные отношения для документа

Page 47: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Вес понятия в тексте: тематическое представления

);(max

);()1();()(

Dcfreq

DdfreqDdd

c

Главные темы

Локальные темы

Page 48: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Тематическая аннотация(Постановление Правительства РФ от 26 июня 1995 г. N 604)

----+----------------------------------------------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ |****| | | | | +------------------------------------------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; |****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +--------------------------------------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; |****| z | z | | | | | +----------------------------------------------------------+ | | | | ГРАЖДАНИН |****| X | z | . | | | | | | +------------------------------------------------------+ | | | | | УВОЛЬНЕНИЕ; |****| X | z | . | X | | | | | | | +--------------------------------------------------+ | | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; |****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | | | | +----------------------------------------------+ | | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; |****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | | | | | +------------------------------------------+ | | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; |****| z | X | z | . | . | z | z | |

Page 49: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Тезаурус РуТез: основные приложения

• Информационный поиск:– Поисковый инструмент УИС Россия (www.cir.ru)– расширение запросов– вопросно-ответные системы

• Автоматическая рубрикация текстов– Более 20 рубрикаторов

• Автоматическое аннотирование– Аннотирование одного документа, – Обзорный реферат

• Обработка потоков новостей, информационный мониторинг– Кластеризация документов

Page 50: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Представление смысла рубрики опорными понятиями

Page 51: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Расширенное представление рубрики понятиями тезауруса

Page 52: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Кластеризация новостей

Page 53: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Классификация документов и кластеров

Page 54: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Обзорный (сводный) реферат(Multi-document summarization)

Page 55: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Преимущества от онтологий и тезаурусов в разных приложениях

Information Retrieval Tasks Benefits

Web Search 0+ %

Corporate Search / Legal Search 10 %

Long Queries / Verbose Queries 15 %

Text Categorization 15-50 %

News Clustering 6-15 %

Summarization, Visualization,Multi Document Summarization

++(SUMMAC)

Page 56: Тезаурус РуТез: структура и приложения Лукашевич Н.В

Заключение• В течение более чем 15 лет мы разрабатываем тезаурусы

и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска

• Наши выводы:

– Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов

– Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере

– При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами

Page 57: Тезаурус РуТез: структура и приложения Лукашевич Н.В