50
Русские ворднеты: что есть и что надо? AINL 2014 12.09.2014

WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Embed Size (px)

DESCRIPTION

В рамках круглого стола мы предлагаем обсудить существующие семантические ресурсы для автоматической обработки текстов на русском языке, а также определить потребности в таких ресурсах. В дискуссии примут участие разработчики и "потребители" тезаурусов и лингвистических онтологий, академические исследователи и практики. Участники - Елена Трещева (Саратовский университет) - Наталья Лукашевич (МГУ) - Анатолий Старостин (ABBYY) - Ирина Гуревич (Технический Университет Дармштадта) - Виктор Бочаров (OpenCorpora) - Александр Силонов ( Sanoma Independent Media) - и др.

Citation preview

Page 1: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Русские ворднеты: что есть и что надо?

AINL 2014

12.09.2014

Page 2: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Вопросы

• Что у нас есть?

• Что нужно?

• Кто потребитель?

• Что можно сделать?

Page 3: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

YARN

• Открытый проект

• Crowdsourcing

http://russianword.net

Page 4: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Морфологическая разметка в OpenCorpora:

Кто размечает?Как быстро?С какой мотивацией?

Page 5: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 6: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 7: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

0

100

200

300

400

500

600

700

0

10000

20000

30000

40000

50000

60000

Page 8: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

100 1 000 10 000 100 0000,00%

5,00%

10,00%

15,00%

20,00%

25,00%

30,00%

35,00%

40,00%

Количество примеров

Рас

хож

ден

ие

Page 9: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Участники

# Участник Ответов%

расхождений%

ошибок

1 Lvova 359 367 4.1% 0.7%

2 Nofenigma 109 663 4.2% 1.8%

3 Мяу 103 877 2.2% 0.6%

4 Rave 83 522 3.5% 0.6%

5 quorax 38 757 4.3% 0.6%

Page 10: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

круглый стол по русским тезаурусам @ AINL'2014

12.09.2014

Iryna Gurevych

Page 11: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Language Resources: Status Quo

• Huge variety of resources, cf. LRE Map http://www.resourcebook.eu/

• Different size, language, quality

• Different origins: experts, user-generated, automatic

• Different purposes

Page 12: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Observation

• Requirements for the resource depend on the application

– Some applications need just flat frequency counts, such as Google N-Grams, but at large scale

– Some applications need rich and accurate semantic representations in narrow domains

Page 13: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Consequence

• Language resources should be:

– Large-scale, flexibly configurable and standardized

– Linked with corpus information and world knowledge

– Include data about confidence and quality of information, if derived from non-experts or automatically

Page 14: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Vision: One-Stop Resource

• High-quality backbone store of lexical-semantic and world knowledge by experts

– Enriched by a large community of users

– Enriched by the results of text analysis methods

– Standardized and continuously monitored by quality

• Pay-per-use business model: input are requirements, output is a correctly configured language resource for your particular application

Page 15: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Universal Dictionary of Concepts

● Dictionary of the artificial interlingua UNL «Universal Networking Language».

● Basic lexical units of UNL are so-called concepts equal to lexical senses. Each concept has a unique identifier called "Universal Word" (UW)

– UWs are linked to words and expressions of natural languages

– UWs have semantic links to other UWs

– UWs are linked to ontology classes.

Natural languages

Ontology

UNL

слово word

ContentBearingObject

sentenceinformation

từmot

word(icl>information,pof>sentence)

Page 16: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Current status

● Universal Words are sorted into 3 groups: general lexics, terminology, named entities.

● Some of the data are already available for download.

Part Number of UW Status

General lexics 86410 DownloadableTerminology 688617 Under development

Named Entities 2109240 Soon to be released

Page 17: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Natural Languages

Language General Terms Names Total QualityEnglish 82550 (41761 words) 688617 2109240 2 880 407 *****

Russian 55046 (34236 words) 688613 226595 970 254 **** Proofreading

French 37034 (25626 words) 103060 367888 507 982 *** Autoranking

Hindi 27813 (30219 words) 0 10823 38 635 *** Auto

Spanish 11758 (6983 words) 21990 298674 332 422 ** Experimental

Malay 21861 (17457 words) 0 46044 67 905 ** Experimental

Vietnamese 5927 (6456 words) 0 171367 177 294 *** Experimental

English is based on a subset of Princeton Wordnet

Russian dictionary is being proofread and extended (work in progress)

Links between UWs and other languages are ranked automatically

– Ranking is based on the number of sources confirming translations that can be deduced from the UNL dictionary AND amount of manual proofreading.

– Russian has reached 93,4% of the English Wordnet quality level.

Number of UWs linked to NL words and expressions

Page 18: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Links to other resources

UW lists:

EN FR HI SP

Ontology dbPediaWordnets

Semanticnetwork

SUMO

ETAP-3 Ariane CFILT

MSRU VI

MT Systems that support UNL

Local dictionaries

General Terms Names

DomainOntologies

Semantic dataUniversal Dictionaryof Concepts

Page 19: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Data files

● Files available at

https://github.com/dikonov/Universal-Dictionary-of-Concepts

● Formats

– CSV

– XML (pivax, xdxf) for various dictionary shells

– LMF, RDF/Turtle (Open Linked Data) planned

● Free to use under GPLv3+ or Creative Commons CC-BY-SA / CC-BY-SA-NC

Page 20: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Questions?

A sample search using goldendict dictionary shell...

Page 21: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

, .

. . И

Page 22: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

– 20

– – 158

• RuThes-lite

– 96

– http://www.labinform.ru/pub/ruthes/index.htm

– xml-

Page 23: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 24: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

щ

,

щ -

39 . , 110 .

Page 25: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

О в ые ек ы

:

-

. -

QA -

-

-

-

-

-

-

-

-

-

-

-

1999-

/ Ц 2006-

/ 2000-

/ « »

( « ») 1997-

2011 « -

» 2002-

/ .

2008-

2012 « -

»

2013 -

2007

2007

2003

( . )

1996

Page 26: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

А ?

• ACL -2014 (Bansal et al.) Structured Learning for

Taxonomy Induction with Belief Propagation.

– 761 WordNet – F-

= 54.8%

– 700 =66.6%

• !!

– vs.

Page 27: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

А WorНNОt

– И

– . • :

• ( WorНNОt): GОrЦКNОt

Page 28: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

-

• : – , – : ,

• – , : , ы – ,

• И – – • – – ,

– (?): • - ( .)

– • ,

– ( .)

Page 29: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

,

– ,

• И : – « »: , « ».

• YARN : К ,

• YARN : , . –

– И

– . .

Page 30: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

• –

– –

• – ( . , . ) –

– ( )

– ,

100

Page 31: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Русский Викисловарь

как источник

семантической информации

Александр Силонов

[email protected]

ru.wiktionary.org

Page 32: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 33: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 34: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 35: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 36: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский
Page 37: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Тезаурус YARN: взгляд со стороны

Елена Трещева

Наталья Степанова

Саратовский государственный университет им. Н.Г. Чернышевского

Page 38: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

WordNet-подобные тезаурусы:

• Прикладные задачи (ИИ, ИП, МП и др.)

• Теоретическая лингвистика: моделирование лексико-семантического уровня некоторого языка

2

Page 39: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Требования

к семантическим сетям:

• Соответствие системе категориальных отношений в мире

• Соответствие природе моделируемого языка

(в частности, представление о лексической системе языка не как о коллекции слов и их толкований, а как об иерархической системе с элементами разного статуса)

3

Page 40: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

• Учет функционального «неравноправия» слов в языке (и, следовательно, в синсете):

o Характер семантики (наличие / отсутствие дополнительных смыслов)

o Оценочность / экспрессивность

o Функционально-стилевая принадлежность

o Сфера коммуникации

o Частотность

o Дистрибутивные свойства

4

Page 41: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Пример:

5

Page 42: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Пример:

6

Page 43: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

• Синсет = лексикализованное понятие, вступающее в семантические отношения

• Отношения между словами типа «хлеб» и «папка» – отношения не системные, это отношения между словами как единицами словаря

7

Page 44: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Решения?

8

Page 45: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

1. «Осложненная» квазисинонимия →

лексические отношения:

Хлеб, булка, папа, папка

Еда, пища, продовольствие

Еда, пища, продовольствие

Хлеб, булка

папа, папка

S

W

9

Page 46: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

2. Порядок слов в синсете:

• Значимый порядок слов в синсете (от наиболее употребительных и семантически нейтральных к редким / стилистически окрашенным / распространенным в рамках ограниченных коммуникативных сфер)

Page 47: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Еще один вопрос:

11

Доменные области в YARN

o разный категориальный уровень

o разнородность (четко очерченные тематические группы vs наименования конкретных объектов)

o неодинаковая степень подробности предметных областей

Page 48: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Предложения по интерфейсу:

• Отображение в интерфейсе индекса ЛСВ, лексемы

Ср.: БОЙ 1, БОЙ 2.1, БОЙ 2.2 ...

• Соотнесенность пары «слово+толкование» с определенным синсетом

12

Page 49: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

13

• Практическая ценность

• Научно-теоретическая ценность

+

• Академическая ценность (хорошая лекcикографическая практика)

Тезаурус YARN как ресурс

Page 50: WordNet для русского языка. Русские тезаурусы: что есть и что надо? Ведущий: Павел Браславский

Спасибо за внимание!

14