24
Семантическая структура пропозиции при извлечении фактов из текстов на русском языке СПбГУ: И. В. Азарова ([email protected]) ООО «Идеограф»: В. Л. Иванов ([email protected]) Е. А. Овчинникова, ([email protected])

Семантическая структура пропозиции при извлечении фактов из текстов на русском языке

  • Upload
    eryk

  • View
    70

  • Download
    0

Embed Size (px)

DESCRIPTION

Семантическая структура пропозиции при извлечении фактов из текстов на русском языке. СПбГУ: И. В. Азарова ([email protected]) ООО «Идеограф»: В. Л. Иванов ( artifex.i @gmail.com ) Е. А. Овчинникова, ( [email protected] ). Система анализа текста Идеограф. Платформа ИДЕОЛОГ (1). - PowerPoint PPT Presentation

Citation preview

Page 1: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

Семантическая структура пропозиции при извлечении фактов

из текстов на русском языке

СПбГУ: И. В. Азарова ([email protected]) ООО «Идеограф»: В. Л. Иванов

([email protected]) Е. А. Овчинникова, ([email protected])

Page 2: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

2

Система анализа текста Идеограф

Page 3: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

3

Платформа ИДЕОЛОГ (1)

Базовые свойства

• Машина логического вывода

• Решетка типов

Дополнительные свойства

• Поддержка подключаемых грамматик

• Поддержка больших лексиконов

• Поддержка встроенных предикатов

• Chart parsing

Page 4: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

4

Платформа ИДЕОЛОГ (2)

Page 5: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

5

Грамматический анализ AGFL

Базовые свойства

• Система продукций (контекстно-свободная грамматика)

NP Noun head Noun daughter

NP Adj daughter Noun head

• Продукции на уровне категорий (координация значений категорий задание согласования, управления и примыкания)

NP (Case) Noun head (Case) Noun daughter (gen)

NP (Case) Adj daughter (Case) Noun head (Case)

Дополнительные свойства

• Система трансдукции (форматирование результатов)

Page 6: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

6

RUS4IR: Морфология + Синтаксис (1)

NP(Case)

Noun head(Case) Noun daughter(gen)

получение Noun (nom)создателем Noun (abl)указах Noun (loc)дом Noun (nom)миллиард Noun (nom)ветках Noun (loc)….

прибыли Noun (gen)традиции Noun (gen)президента Noun (gen)отца Noun (gen)рублей Noun (gen)клена Noun (gen)….

Page 7: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

7

RUS4IR: Морфология + Синтаксис (2)

PP(Case,...)

Prephead(Case) NPdaughter(CASE)

на с в в

на ….

получение Noun (acc)создателем Noun (abl)указах Noun (loc)дом Noun (acc)вешках Noun (loc)….

Page 8: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

8

RUS4IR: Морфология + Синтаксис (1)

Objective_predicate_phrase

Predicate (nominal, affirmative)

nom_left(Number) nom_pred(Number) right(intr,pos)

Copula(Number) pred_adj(Number) PP(Case)

Pron() prep() pron()

Я (быть) знакомый с (ты)

Я был знаком с тобой

Page 9: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

9

RUS4IR: Морфология + Синтаксис (3)

Objective_predicate_phrase

Predicate (nominal, affirmative)

nom_left(Number) nom_pred(Number) right(intr,pos)

Copula(Number) pred_noun(Number) PP(Case)

Pron() prep() pron()

Я (быть) знак с (ты)

Я был знаком с тобой

Page 10: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

10

Лексический анализ: RussNet (1)

Базовые свойства RussNet

• компьютерный тезаурус wordnet-типа• элементарная единица - синсет (набор синонимов)• объединение синсетов в семантические деревья • рамки валентностей для синсетов (устойчивые контекстные маркеры)

Дополнительные свойства

• ассоциативные семантические отношения между синсетами одной части речи (антонимия, меронимия, каузация, пресуппозиция … )

• отношения синонимии и антонимии между синсетами разных частей речи

• отношения деривационной синонимии и антонимии между словообразовательными дериватами аддитивного типа

Page 11: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

11

Лексический анализ: RussNet (2)

Примеры синсета

{знакомый1, известный1} : 'встречавшийся прежде‘

Мне хорошо <знакомы> эти слова "о моральном вреде системе".

Нам хорошо <знакомы> свадебные или обручальные кольца..

Они уже <знакомы> с азами общей культуры

Но рядом с меню висело уже <знакомое> мне объявление:

{знакомый2} : 'состоящий в знакомстве с кем-либо' Мы с тобой <знакомы> двадцать лет.

Cемья Вит Карр <знакома> с Берковицем...

Page 12: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

12

Лексический анализ: RussNet (3)

Семантические деревья

{человек} {«артефакт»} {группа}

Группировки деревьев

«одушевленные» = «человек» + «животные»«предмет» = «естественный объект» + «артефакт» + …«люди» = «человек» + «группа»

Page 13: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

13

Лексический анализ: RussNet (4)

Семантические связи синсетов

(Глаголы) (Существительные)

{сделать} НСВ

{создавать} {создать}der_transposition_action

der_agent {создание} {создатель}

Окрестность синсета – все семантические связи данной вершины дерева/сети

Page 14: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

14

Лексический анализ: RussNet (5)

Синсет RussNet в xml-формате <SYNSET>

<ID>RUS-nЧЕЛОВЕК.42.лицо</ID><POS>n</POS><DEF>Член коллектива людей</DEF><SYNONYM>

<LITERAL>лицо <SENSE>2</SENSE><morph_data ANIM="anm"/><LNOTE>neut</LNOTE>

</LITERAL></SYNONYM><SYNONYM>

<LITERAL>человек <SENSE>1</SENSE><LNOTE>neut</LNOTE>

</LITERAL></SYNONYM><SYNONYM>

<LITERAL>индивидуум<SENSE>1</SENSE><LNOTE>liter</LNOTE>

</LITERAL></SYNONYM> <ILR>RUS-nЛЮДИ.34.общество<TYPE>holo_member</TYPE></ILR> <ILR>RUS-nЛЮДИ.25.народ<TYPE>holo_member</TYPE></ILR>

</SYNSET>

Page 15: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

15

Рамки валентности (1)

Субъектная валентность для синсета {знакомый1, известный1}

• Синтаксическое оформление валентной позиции

Pronoun(dat) или Noun (dat)

• Семантическое оформление валентной позиции

дерево ЧЕЛОВЕК

• Ролевое оформление валентной позиции

СУБЪЕКТ

• Обязательность/факультативность валентной позиции (частотность появления позиции в контекстах корпуса текстов)

факультативна (31%)

Page 16: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

16

Рамки валентности (2)

Объектная валентность для синсета {знакомый2}

• Синтаксическое оформление валентной позицииPrep=«с» + Pronoun (abl) или Noun (abl)

• Семантическое оформление валентной позиции дерево ЧЕЛОВЕК

• Ролевое оформление валентной позиции ОБЪЕКТ

• Обязательность/факультативность валентной факультативна (46%)

Page 17: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

17

Рамки валентности (3)

Пример рамки валентностей в xml-формате

<VALENCE_FRAME><VALENCE active="yes" obligatory="yes" main_segment="verb_phr"

val_type="object1" val_seg="terminal_noun">

<morph_data CASE="acc" place="preposition" /><sem_data TYPE="top" ID="RUS-nПРЕДМЕТ"/>

</VALENCE><VALENCE active="yes" obligatory="no" main_segment="verb_phr"

val_type="subject" val_seg="terminal_noun">

<morph_data CASE="nom" place="postposition"/><sem_data TYPE="top" ID="RUS-nЧЕЛОВЕК"/>

</VALENCE></VALENCE_FRAME>

Page 18: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

18

Разрешение неоднозначности

Исходный текст: Я был знаком с тобой…

Синтаксическая интерпретация 1: ((Я) (знакомый) ((с) (ты)))Синтаксическая интерпретация 2: ((Я) (знак) ((с) (ты)))

Лексическая интерпретация 1-1: {знакомый1} Лексическая интерпретация 1-2: {знакомый2} …Лексическая интерпретация 2-1: {знак1}Лексическая интерпретация 2-2: {знак2}Лексическая интерпретация 2-3: {знак3}

Верифицированный вариант 1: ((Я) (знакомый) ((с) (ты))) + {знакомый2}

Page 19: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

19

Синтаксическая семантика (1)

Базовые свойства• Базовая единица – признаковая структура пропозиции• Ядро пропозиции – предикат + субъектно-объектные позиции • временные и причинно-следственные отношения между пропозициями

Дополнительные свойства• Разные типы объектов пропозиции отождествляются в рамках схемы

объектов семантического дерева RussNet• Периферия пропозиции – качественно-количественная характеристика

предиката, субъекта и объектов

Page 20: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

20

Синтаксическая семантика (2)

Текст: После нашего приезда в Вену я отправился на заранее определенное место встречи. 

Структура пропозиций:

phrase [ SEM proposition [ ID id.приехать

SUBJECT X = object [ID id.человек1]

OBJECT3 object [ID id.Вена]

TIME T1 ] ],

phrase [ SEM proposition [ ID id.отправиться

SUBJECT Y = object [ID id.человек1]

PLACE Z = object [ID id.место]

TIME T2 ] ],

phrase [ SEM proposition [ ID id.встречать

PLACE Z ] ],

phrase [ SEM proposition [ ID id.определить

OBJECT1 Z

TIME T3 ] ],

before(T1, T2), before(T3, T2).

Page 21: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

21

Синтаксическая семантика (3)

Синтаксическое правило грамматики

NP (Case, …) Noun head (Case, …) Noun daughter (gen, …)

Синтактико-семантические правила

1. Пример конструкции: получение прибыли, строительство дома

Noun head имеет в окрестности связь der_transposition_action

Noun daughter входит к широкую группировку деревьев «сущность»

Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_transposition_action», Noun daughter – объект пропозиции.

[ HEAD_DTR noun_phrase [ HEAD noun [CASE Case] SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase [ HEAD noun [CASE gen] SEM X=[ID Id2]] > SEM proposition [ ID Id

OBJECT1 X ] ] => entity_abstract(Id2), der_transposition_action(Id1, Id).

Page 22: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

22

Синтаксическая семантика (4)

2. Пример конструкции: создатель традиции, проповедник реинкарнации

Noun head имеет в окрестности связь der_agent

Noun daughter входит к широкую группировку деревьев «сущность»

Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_agent»,

Noun daughter – объект пропозиции, субъект действия – референт группы.

[ HEAD_DTR noun_phrase [ HEAD noun [CASE Case] SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase [ HEAD noun [CASE gen] SEM X=[ID Id2] ]> SEM proposition [ ID Id

SUBJECT ref

OBJECT1 X ]

] => entity_abstract(Id2), der_agent(Id1, Id).

Page 23: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

23

Ссылки

• сайт проекта ИДЕОГРАФ (+RussNet Online):

http://www.ideograph.ru

• сайт грамматики AGFL:

http://www.phil.pu.ru/depts/12/AGFL/rus/

• сайт тезауруса RussNet:

http://www.phil.pu.ru/depts/12/RN/

Page 24: Семантическая структура пропозиции при извлечении фактов  из текстов на русском языке

24

Спасибо за внимание!