47
10.1. Информационно-поисковые тезаурусы в условиях сверхбольших электронных коллекций и автоматической обработки текстов. Тезаурус для автоматического концептуального индексирования как особый вид тезауруса

Отношения в информационно-поисковых ресурсах: альтернативы

  • Upload
    osgood

  • View
    47

  • Download
    0

Embed Size (px)

DESCRIPTION

10.1. Информационно-поисковые тезаурусы в условиях сверхбольших электронных коллекций и автоматической обработки текстов. Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Отношения в информационно-поисковых ресурсах: альтернативы. - PowerPoint PPT Presentation

Citation preview

Page 1: Отношения в информационно-поисковых ресурсах: альтернативы

10.1. Информационно-поисковые тезаурусы в условиях сверхбольших электронных

коллекций и автоматической обработки текстов.

Тезаурус для автоматического концептуального индексирования как особый вид тезауруса

Page 2: Отношения в информационно-поисковых ресурсах: альтернативы

Отношения в информационно-поисковых ресурсах: альтернативы

Традиционный информационно- поисковый тезаурус: выше-ниже, ассоциация Ассоциации – невозможно использовать в

автоматической обработке

Лингвистические исследования: наборы семантических ролей Наборы разные для разных областей часто сложно поставить точное отношение, как

использовать различные отношения

Page 3: Отношения в информационно-поисковых ресурсах: альтернативы

Современные подходы к описанию отношений при разработке

онтологий

отношения – произвольный предикат, свойства задаются аксиомами

P(x1,…xn)

Для того, чтобы такая система отношений работала, нужно стабильно находить отношения в разнообразных текстах

Но это проблема!

Аргументы могут оказаться далеко друг от друга в тексте, между ними может быть другое отношение или совсем не быть отношений.

Page 4: Отношения в информационно-поисковых ресурсах: альтернативы

Наш подход к описанию отношений

• Отношения должна иметь максимально четкие правила установления

• Отношения должны позволять осуществлять вывод по тезаурусу в автоматическом режиме

• Ресурс должен начать работать в разумные сроки для неограниченных текстов в сложных предметных областях

Page 5: Отношения в информационно-поисковых ресурсах: альтернативы

Надежные отношения

• Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте.– При расширении запроса – это невозможно для текста– Возможности систем автоматической обработки текста для

анализа релевантности контекста ограниченны

• Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда:– для всех или большинства примеров понятия– в течение всего (или почти всего) времени

существования примера

Нужно описывать надежные отношения

Page 6: Отношения в информационно-поисковых ресурсах: альтернативы

Родовидовое отношение ВЫШЕ-НИЖЕ

• Проверочное правило: Х – это вид У

• Береза – это вид деревьев

• Дерево – это вид растений

• Транзитивное отношение: береза – это растение => можно использовать для выводов

• Свойства наследования: свойства вышестоящего наследуются на нижестоящее

• Надежное отношение:– Отношение выполняется для всех примеров понятия

– Отношение выполняется все время существования примера

Page 7: Отношения в информационно-поисковых ресурсах: альтернативы

Между понятиями могут быть отношения, частично нарушающие свойства родовидового отношения

Проверочное правило выполняется, но свойства отношения изменились.

Проверочная фраза необходимое, но не достаточное условие

Page 8: Отношения в информационно-поисковых ресурсах: альтернативы

Отношения, похожие на родовидовое отношение -

• Не все свойства вышестоящего наследуются или значения свойств заменяются: мать – приемная мать

• Мебель – пианино• Аванс - задаток • Нужно отметить, что с отношением есть

проблемы: пометка А – ВЫШЕ_А аспект, точка зрения

Page 9: Отношения в информационно-поисковых ресурсах: альтернативы

Семантическое смещение

• Река – водный объект – водные ресурсы – вода – вещество???

• Каждая пара соседей может быть подставлена в проверочную фразу

• Река, водный объект имеют форму, границы, а вода, вещество – не имеют формы.

• Потеря семантического типа• Родовидовое отношение не устанавливается

Page 10: Отношения в информационно-поисковых ресурсах: альтернативы

Отношения онтологической зависимости. Формальная

онтология. N.Guarino• может ли сущность (С1) существовать сама по себе, или

подразумевает существование чего-либо еще (С2): • подразумевает ли существование сущности

существование чего-либо какой-либо конкретной сущности (строгая зависимость - rigid dependence), например, кипение (С1) - жидкость (С2);

• предполагается ли существование примеров некоторого класса (generic dependence – зависимость по классу) некоторых сущностей, гараж (С1) – автомобиль (С2);

• предполагает ли существование С1 в некоторый момент времени t1, существования C2 в некоторый другой

момент времени t2 (историческая зависимость):

солома (С1) – молотьба С2.

Page 11: Отношения в информационно-поисковых ресурсах: альтернативы

Отношения онтологической зависимости и семантические имена

ГАРАЖ зависит_от  АВТОМОБИЛЬ (назначение?)

РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?)

ГИДРО-ЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?)

ЛЕС зависит_от ДЕРЕВО (часть?)

ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?)

КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?)

Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны

Page 12: Отношения в информационно-поисковых ресурсах: альтернативы

Лес: части

• БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ)

• ГРУППА ЛЕСА

• ЗАРОСЛЬ (ЗАРОСЛЕВЫЙ)

• ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА)

• ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА)

• ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ)

• ОПУШКА (ОПУШЕЧНЫЙ)

• ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ)

• ПОДРОСТ (МОЛОДНЯК)

• ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА)

• СУХОСТОЙ (СУХОСТОЙНЫЙ)

Page 13: Отношения в информационно-поисковых ресурсах: альтернативы

Лес: зависимые понятия

• ЛЕСНОЙ ПОЖАР ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)(ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ)

• ЛЕСНАЯ НАУКА ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ)(НАУКА О ЛЕСЕ)

• ЛЕСОВЛАДЕНИЕ ЛЕСОВЛАДЕНИЕ

• ЛЕСОПОЛЬЗОВАНИЕЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; (ЛЕСНОЕ ПОЛЬЗОВАНИЕ;

ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА) ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)

Page 14: Отношения в информационно-поисковых ресурсах: альтернативы

Отношения онтологической зависимости и реальные

проекты• Отношения строгой и родовой

онтологической зависимости

– Общественно- политический тезаурус, 1994- по н.в – 28 тысяч понятий

– Тезаурус русского языка РуТез – 1997-по н.в. – 45 тысяч понятий – 177 тысяч отношений

– АвиаОнтология – 2002-2003 – 1.5 тысячи понятий– Тезаурус по компьютерной безопасности –2001-

2004 - 3 тысячи понятий• Онтология по естественным наукам (2004-…)

Page 15: Отношения в информационно-поисковых ресурсах: альтернативы

Оценка эффективности поиска по тезаурусу по сравнению с

контекстным поиском по векторной модели

• Запросы: рубрики из каждого из 20 подразделов Классификатора правовых актов. Пример рубрики «Использование атомной энергии».

• Массив документов: Нормативные акты 1990-2001

• Поиск релевантных документов для запроса: Сокращение интервала – просмотр 30-40 документов

• Методика оценки: TREC вычисление средней точности в трех точках полноты: 0.2, 0.5, 0.8.

Page 16: Отношения в информационно-поисковых ресурсах: альтернативы

   Ïîèñê ïî òåçàóðóñó

Ïîëíîòà

Òî÷í

îñòü

0

0.2

0.4

0.6

0.8

1

0 0.2 0.4 0.6 0.8 1 1.2 1.4

ÑÐÅÄÍÅÅ

Ïîæàðíàÿ áåçîïàñíîñòü

Ñíàáæåíèå âîéñê âîîðóæåíèÿìè

Àðõèâíûé ôîíä

Òðóäîâàÿ ìèãðàöèÿ

Îõðàíà òðóäà

Íàçíà÷åíèå ïåíñèè

Áåçîïàñíîñòü ãîñóäàðñòâà

×àñòíàÿ ìåäèöèíñêàÿ ïðàêòèêà

Ïîãðàíè÷íûé ðåæèì

Âîäîñíàáæåíèå

Ïëàòíûå îáðàçîâàòåëüíûå óñëóãè

Èñïîëüçîâàíèå àòîìíîíîé ýíåðãèè

Ïîèñê ïî ñëîâàì, TF*IDF

Ïîëíîòà

Òî÷í

îñòü

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.2 0.4 0.6 0.8 1 1.2 1.4

ÑÐÅÄÍÅÅ

Ïîæàðíàÿ áåçîïàñíîñòü

Ñíàáæåíèå âîéñê âîîðóæåíèÿìè

Àðõèâíûé ôîíä

Òðóäîâàÿ ìèãðàöèÿ

Îõðàíà òðóäà

Íàçíà÷åíèå ïåíñèè

Áåçîïàñíîñòü ãîñóäàðñòâà

×àñòíàÿ ìåäèöèíñêàÿ ïðàêòèêà

Ïîãðàíè÷íûé ðåæèì

Âîäîñíàáæåíèå

Ïëàòíûå îáðàçîâàòåëüíûå óñëóãè

Èñïîëüçîâàíèå àòîìíîíîé ýíåðãèè

Сравнение поисковых механизмов

Page 17: Отношения в информационно-поисковых ресурсах: альтернативы

АЛОТАвтоматизированная Лингвистическая Обработка Текста

Page 18: Отношения в информационно-поисковых ресурсах: альтернативы

Автоматическая обработка текстов на основе

ТезаурусаКонцептуальное индексирование

Ранжированный информационный поиск:Тестирование (методика TREC): значительное увеличение

полноты при сохранении точности поиска.

Интегральная оценка: средняя точность поиска по

терминам в 1.2 раза выше.

Автоматическая рубрикация текстов- более 10 различных рубрикаторов

- количество рубрик от 35 до 3000

- рубрика как сложный запрос

Автоматическое аннотирование (summarization) текстов (первое место в номинации «Индикативная аннотация

наилучшей длины» конференции по автоматическому

аннотированию SUMMAC (1998))

Тематическая аннотация

Page 19: Отношения в информационно-поисковых ресурсах: альтернативы

Обработка документов в УИС РОССИЯОбработка документов в УИС РОССИЯ

Автоматизированная Автоматизированная Лингвистическая Лингвистическая Обработка Обработка ТекстовТекстов

*.POD*.POD*.OUT*.OUT*.PLM*.PLM*.HDR*.HDR

ORACLEORACLE

WEBWEB

www.cir.ru

(Apache; OAS)

Администр.Администр.

источники

конверторы

*.HTM*.HTM

Page 20: Отношения в информационно-поисковых ресурсах: альтернативы

АЛОТ: основные этапы

• Конвертация файлов: формальные характеристики и неиндексируемые фрагменты

• Графематический и морфологический анализ

• Терминологический анализ: сопоставление с тезаурусом. Терминологический индекс

• Разрешение многозначности терминов

• Тематический анализ: формирование тематических узлов

• Построение тематического представления: основные и локальные тематические узлы. Определение весов терминов

• Определение рубрик по заданным рубрикаторам

• Построение аннотации

Page 21: Отношения в информационно-поисковых ресурсах: альтернативы

Формирование тезаурусной проекции текста

• Для понятий текста (в том числе неподвержденных от многозначных текстовых входов)– Из тезауруса выгружаются все непосредственные

отношения

– устанавливаются те отношения, которые могут быть сведены к одному отношению по свойствам отношений

• Получаем «проекцию» тезауруса на текст – сеть понятий сложной формы или совокупность нескольких сетей

Page 22: Отношения в информационно-поисковых ресурсах: альтернативы

Разрешение многозначности терминов

• Термин => Варианты понятий

– Есть ли у понятия отношения с другими понятиями текста в тезаурусной проекции

– Есть ли у понятия отношения с другими понятиями тезаурусной проекции в абзаце

– Связаны ли варианты понятий между собой –выбирается более высокое по иерархии (заем)

– Невыбранное понятие отражается сдвигом

• Термин => Понятие с подтверждением (образование)

Page 23: Отношения в информационно-поисковых ресурсах: альтернативы

Покрытие терминологией Тезауруса лексики НА РФ (Постановление Правительства РФ от 26 июня 1995 г. N 604) О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы

Во исполнение Закона Российской Федерации "О статусевоеннослужащих" и в целях обеспечения прав на жилище военнослужащихи граждан, уволенных с военной службы, Правительство РоссийскойФедерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказаниябезвозмездной финансовой помощи на строительство (покупку) жилья ивыплаты денежной компенсации за наем (поднаем) жилых помещенийвоеннослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и инымфедеральным органам исполнительной власти, в которых предусмотренавоенная служба: в месячный срок разработать и утвердить формы и переченьдокументов, необходимых для принятия решения об оказаниивоеннослужащим безвозмездной финансовой помощи на строительство(покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений; расходы, связанные с оказанием военнослужащим безвозмезднойфинансовой помощи и выплатой денежной компенсации за наем (поднаем)жилых помещений, производить за счет и в пределах средств,выделяемых из федерального бюджета по сметам этих федеральныхорганов исполнительной власти. 3. Органам исполнительной власти субъектов РоссийскойФедерации: оказывать безвозмездную финансовую помощь в избранномпостоянном месте жительства гражданам, уволенным с военной службы,осуществляющим строительство (покупку) жилья, за счет и в пределахсредств федерального бюджета, выделяемых на жилищное строительстводля этой категории граждан;

Page 24: Отношения в информационно-поисковых ресурсах: альтернативы

Определение важности термина

• Сопоставление с тезаурусом приводит к распознаванию большого количества терминов в тексте

• Необходимо определить значимость термина в тематической структуре текста => поставить вес термина

• Можно использовать частотность термина в тексте и в коллекции

• Но: термины текста – это не набор независимых элементов, между ними имеются отношения – отражены в тезаурусе

Page 25: Отношения в информационно-поисковых ресурсах: альтернативы

Тематические линии терминов ТезаурусаТематические линии терминов Тезауруса (Постановление Правительства РФ (Постановление Правительства РФ от 26 июня 1995 г. от 26 июня 1995 г. NN 604 604))

О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы

Во исполнение Закона Российской Федерации "О статусевоеннослужащих" и в целях обеспечения прав на жилище военнослужащихи граждан, уволенных с военной службы, Правительство РоссийскойФедерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказаниябезвозмездной финансовой помощи на строительство (покупку) жилья ивыплаты денежной компенсации за наем (поднаем) жилых помещенийвоеннослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и инымфедеральным органам исполнительной власти, в которых предусмотренавоенная служба: в месячный срок разработать и утвердить формы и переченьдокументов, необходимых для принятия решения об оказаниивоеннослужащим безвозмездной финансовой помощи на строительство(покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений; расходы, связанные с оказанием военнослужащим безвозмезднойфинансовой помощи и выплатой денежной компенсации за наем (поднаем)жилых помещений, производить за счет и в пределах средств,выделяемых из федерального бюджета по сметам этих федеральныхорганов исполнительной власти. 3. Органам исполнительной власти субъектов РоссийскойФедерации: оказывать безвозмездную финансовую помощь в избранномпостоянном месте жительства гражданам, уволенным с военной службы,осуществляющим строительство (покупку) жилья, за счет и в пределахсредств федерального бюджета, выделяемых на жилищное строительстводля этой категории граждан;

Page 26: Отношения в информационно-поисковых ресурсах: альтернативы

Связь локальной и глобальной связности текста

• Если мы сформулируем основную тему текста и посмотрим, как в тексте расположены слова, близкие по смыслу элементам основной темы, то мы увидим, что эти совокупности близких по смыслу слова как бы пронизывают весь текст, скрепляют его

• Мы, имея тезаурус, можем «увидеть» эти цепочки близких по смыслу слов

• Как добраться к основной теме и подтемам документа

Page 27: Отношения в информационно-поисковых ресурсах: альтернативы

Тематическая структура текста (van Dijk)

• Главная тема текста может быть сформулирована как пропозиция P(C1, …, Cn)

• Главная тема уточняется в тексте с помощью подтем P1(C11, …, C1n1), P2(C21, …, C2n2), …, Pm(Cm1, …, Cmnm)

• Каждое предложение текста соответствует какой либо подтеме текста

• Что такое Cij в подтемах? В каждой подтеме должна быть хотя бы одна ссылка на тему или подтему более высокого уровня

Page 28: Отношения в информационно-поисковых ресурсах: альтернативы

Тематические узлы

• Для каждого понятия главной темы текст содержит близкие по смыслу понятия, необходимые для ссылки на это понятие в подтемах.

• Такая структура выглядит как узел – тематический узел.

• «Ниточки» близких по смыслу слов и словосочетаний имеют внутреннюю структуру – узел, когда все элементы цепочки наиболее близки одному центральному понятию.

Page 29: Отношения в информационно-поисковых ресурсах: альтернативы

Как найти центры тематических узлов и построить узлы

• Предполагаем: центральные понятия тематических узлов должны выделяться среди близких по смыслу понятий – частотность, заголовок.

• Тематический узел должен включать близкие по смыслу понятия к центру тематического узла. Как определить близкие по смыслу понятия по тезаурусу?

• Естественное определение: понятия, близкие по смыслу к понятию С – это такие понятия, для которых либо установлена прямая связь с понятием С (путь длины 1), либо путь до понятия С может быть сведен к одному отношению путем применения правил по свойствам отношений

Page 30: Отношения в информационно-поисковых ресурсах: альтернативы

ЖИЛОЕ ПОМЕЩЕНИЕ(25)

ЖИЛОЕ ЗДАНИЕ(1)

КВАРТИРА(2)

А

А

СОБСТВЕННОСТЬ(1)

ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО(4)

КОМНАТА (ПОМЕЩЕНИЕ)(1)

В

В

НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ

(13)

МНОГОКВАРТИРНЫЙ ДОМ(1)

ЗДАНИЕ(1)

СООРУЖЕНИЕ(1)

ЖИЛАЯ ПЛОЩАДЬ(1)

СТРОИТЕЛЬСТВО(12)

ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2)

ЖИЛИЩНАЯ НОРМА(2)

НАНЯТЬ(13)

ПОКУПКА(6)

ПЛАТИТЬ(1)

ДЕНЬГИ(22)

А

Сеть тематических узловСеть тематических узлов(Постановление Правительства РФ (Постановление Правительства РФ от 26 июня 1995 г. от 26 июня 1995 г. NN 604 604))

Page 31: Отношения в информационно-поисковых ресурсах: альтернативы

Как найти главные тематические узлы

• Главные тематические узлы – узлы, центры которых находятся в формулировке основной темы текста

• Подтемы конкретизируют основную тему, должны раскрывать отношения между элементами главной темы => понятия главных тематических узлов должны встречаться рядом друг с другом чаще, чем с другими понятиями

• Необходимо отразить единство основной темы – больше чем совокупность пар понятий

Page 32: Отношения в информационно-поисковых ресурсах: альтернативы

TNj+2

TNj+1

TNj

MTk

MT3

MT2

MT1Mc1

Mc3

Mck

Mc2

Структура тематического представленияСтруктура тематического представления

Основные тематические узлы

Локальные тематические узлы

Page 33: Отношения в информационно-поисковых ресурсах: альтернативы

Тематическое представление текста

• Главные тематические узлы

• Локальные тематические узлы (имеют текстовые связи по крайней мере с двумя главными тематическими узлами)

• Упоминавшиеся понятия

• Важность понятия в тематическом представлении– Центр главного тематического узла

– Элемент главного тематического узла

– Центр тематического узла

– Элемент тематического узла

– Упоминавшееся понятие

Page 34: Отношения в информационно-поисковых ресурсах: альтернативы

www.cir.ru/is4/

Page 35: Отношения в информационно-поисковых ресурсах: альтернативы

Пример релевантного документа по запросу «трудовая миграция» расширением запроса по иерархии тезауруса

Page 36: Отношения в информационно-поисковых ресурсах: альтернативы

Структурная тематическая аннотация

Документы, для которых трудно автоматически построить связную аннотацию:– Законы, международные договора– Интервью– Документы на других языках

Тематическая структурная аннотация:– Основные тематические узлы – Указана их относительная частотность– Указана их относительная совместная

встречаемость

Page 37: Отношения в информационно-поисковых ресурсах: альтернативы

Тематическая аннотация(Постановление Правительства РФ от 26 июня 1995 г. N 604)

----+----------------------------------------------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ |****| | | | | +------------------------------------------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; |****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +--------------------------------------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; |****| z | z | | | | | +----------------------------------------------------------+ | | | | ГРАЖДАНИН |****| X | z | . | | | | | | +------------------------------------------------------+ | | | | | УВОЛЬНЕНИЕ; |****| X | z | . | X | | | | | | | +--------------------------------------------------+ | | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; |****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | | | | +----------------------------------------------+ | | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; |****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | | | | | +------------------------------------------+ | | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; |****| z | X | z | . | . | z | z | |

Page 38: Отношения в информационно-поисковых ресурсах: альтернативы

Пример текстового документа

Page 39: Отношения в информационно-поисковых ресурсах: альтернативы

Структурная тематическая аннотация для документов сложных жанров

Page 40: Отношения в информационно-поисковых ресурсах: альтернативы

Автоматическое построение связной аннотации

Page 41: Отношения в информационно-поисковых ресурсах: альтернативы

Системы автоматической рубрикации, реализованные на основе Тезауруса

Классификатор Центральной Избирательной комиссии (450 рубрик, 4 уровня)

Классификатор правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик)

Классификатор экономической информации JEL (700 рубрик на английском языке)

Классификатор социологических опросов ВЦИОМ (350 рубрик)

Классификаторы по экономике и социологии ГРНТИ

и др.

Page 42: Отношения в информационно-поисковых ресурсах: альтернативы

Технология автоматического рубрицирования

• Опора на знания, описанные в Общественно-политическом Тезаурусе

• Представление рубрики в виде логической формулы для небольшого числа ОПОРНЫХ концептов, затем автоматическое расширение с использованием иерархической структуры Тезауруса

• Независимый от конкретного рубрикатора (изменения состава рубрикатора) автоматический тематический анализ текста – выявление в тексте совокупностей близких терминов, выявление терминов, характеризующих основную тему и подтемы документов

Page 43: Отношения в информационно-поисковых ресурсах: альтернативы

Схема описания рубрики

Рубрика

Альтернатива1Альтернатива2

У11 У12 У13 У21 Условие22

ИЛИ

ИИИ

++

+

-

ИЛИ ИЛИ

Page 44: Отношения в информационно-поисковых ресурсах: альтернативы

Представление смысла рубрики опорными понятиями

Page 45: Отношения в информационно-поисковых ресурсах: альтернативы

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИПОСТАНОВЛЕНИЕ (от 26 декабря 2001 г. N 905)

О подписании Соглашения между Правительством Российской Федерации и Правительством Туркменистана о сотрудничестве в области

исследования и использования космического пространства в мирных целях …

090090000 Космическая деятельность 64T130817 ПУСК РАКЕТЫ 12 64T4200 КОСМОДРОМ 8 63T106444 БАЙКОНУР 8 63T6783 РАКЕТА-НОСИТЕЛЬ 6 62T955 КОСМОНАВТИКА 6 62T956 КОСМИЧЕСКАЯ ТЕХНИКА 4 61T131907 ЗАПУСК КОСМИЧЕСКИХ АППАРАТОВ 3 61T1023 КОСМИЧЕСКИЙ АППАРАТ 2 61T1022 СПУТНИКОВАЯ СВЯЗЬ 1 60T137619 КОСМИЧЕСКИЕ ИССЛЕДОВАНИЯ 1 60T9340 КОСМИЧЕСКАЯ МЕДИЦИНА 1 60T5962 АСТРОФИЗИКА 1 60T2497 ИСКУССТВЕННЫЙ СПУТНИК ЗЕМЛИ 1 15

Page 46: Отношения в информационно-поисковых ресурсах: альтернативы

150100020 Содержание и порядок прохождения военной службы 95T791 ВОЕННАЯ СЛУЖБА 29 95

T792 ВОЕННОСЛУЖАЩИЙ 17 76

T6999 ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ 2 62

 

090040000 Строительство 81T55 СТРОИТЕЛЬСТВО 12 81

T482 ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО 4 64

T6217 ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ 2 62

 

020010040 Федеральные органы исполнительной власти 77T2576 ФЕД. ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ 7 77

T5109 МИНИСТЕРСТВО ОБОРОНЫ 3 63

 

150040000 Кадры Вооруженных Сил Российской Федерации 76T792 ВОЕННОСЛУЖАЩИЙ 17 76

 

070070020 Компенсационные и иные социальные выплаты 75T124039 КОМПЕНСАЦИЯ 15 75

Фрагмент рубрик, приписанных документуФрагмент рубрик, приписанных документу(Постановление Правительства РФ (Постановление Правительства РФ от 26 июня 1995 г. от 26 июня 1995 г. NN 604 604))

Page 47: Отношения в информационно-поисковых ресурсах: альтернативы

Вопросы к лекции

1. Базовые семантические отношения.

2. Перечислите этапы автоматической обработки текстов на основе Тезауруса.

3. Опорные моменты технологии автоматического рубрицирования