разработка методов извлечения информации из веб...

Preview:

Citation preview

Разработка методов извлечения информации из веб-ресурсов SemanticWeb

для расширения числа переводов англо-русской версии WordNet

Сухоногов А.М.

ФГОУ ВПО ПГУПСasukhonogov@gmail.com

Яблонский С.А.

ВШМ СПбГУyablonsky.serge@gmail.com

RDF/OWL компоненты проекта Linked Open Data (LOD)

DBPedia сегодня (версия 3.5.1)( http://wiki.dbpedia.org/Datasets)

• 367653 переводов на русский язык

The DBpedia knowledge base currently describes more than 3.4 million things, out of which 1.5 million are classified in a consistent Ontology, including 312,000 persons, 413,000 places (including 310,000 populated places), 94,000 music albums, 49,000 films, 15,000 video games, 140,000 organizations (including 31,000 companies and 31,000 educational institutions), 146,000 species and 4,600 diseases. The DBpediadata set features labels and abstracts for these 3.2 million things in up to 92 different languages; 841,000 links to images and 5,081,000 links to external web pages; 9,393,000 external links into other RDF datasets, 565,000 Wikipedia categories, and 75,000 YAGO categories. The DBpedia knowledge base altogether consists of over 1 billion pieces of information (RDF triples) out of which 257 million were extracted from the English edition of Wikipedia and 766 million were extracted from other language editions.

Организация WordNet

WordNet – лексико-семантическая база данных, включающая:

• основную лексику языка (существительные, глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов.

– Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением.

• таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия).

• определение семантических классов – TopOntology

Проекты по извлечению знаний из статей Wikipedia и WordNet

• DBpedia – база знаний, созданная открытым сообществом. В основном, содержит результаты извлечения структурированной информации из Wikipedia, представленные в виде онтологии в форматах Semantic Web (OWL, N3). В проекте DBPedia ведется работа по определению связей (owl:sameAs) с другими известными онтологиями ­– OpenCyc, Freebase, YAGO и др.;

• YAGO – база знаний, полученная при обработке Wikipedia и Princeton WordNet 3.0;

• WikiNet – проект построения многоязычной семантической сети на основе данных из разделов Wikipedia;

• BabelNet – проект построения многоязычной семантической сети на основе данных из разделов Wikipedia и системы машинного перевода.

Лексико-семантические онтологии WordNet

История создания многоязычных WordNet(показаны не все проекты)

Проект «Russian WordNet»Проект включает:•~45 тыс. существительных, образующих ~53 тыс. синсетов:•~29 тыс. глаголов, образующих ~29 тыс. синсетов;•~21 тыс. прилагательных, образующих ~25 тыс. синсетов;•~5 тыс. наречий, образующих ~5 тыс. синсетов;• парадигмы для всех лемм словника;• определение словообразовательных отношений;• выделенную из EuroWordNet Top Ontology, с возможностью расширения;• WordNet Domains с возможностью определения новых доменов;• визуальную среду - редактор Russian WordNet• Internet/Intranet реализацию –http://www.pgups.ru/WebWN/wordnet.uix• OWL/RDFS-описание WordNet и реализацию процедур экспорта/импорта в формат OWL, соответствующий рекомендациям консорциума W3C

Межъязыковой индекс ILI – Inter-lingual-index (EuroWordNet)

Редактор проекта Asian WordNetWNMS – WordNet Management System

Модель WNMS

Последовательность обработки ресурсов Semantic Web

Пример работы с переводом синсета

Визуализация WordNet в WNMS

Пример полученного соответствия между синсетом WordNet 3.0 “mammoth” и DBpedia

Ресурс DBPedia != Синсет WordNet

• Одному синсету WordNet может соответствовать несколько ресурсов DBPedia(http://dbpedia.org/resource/Leningrad, http://dbpedia.org/resource/Saint_Petersburg и др. по предикату “dbpprop:redirect” - синонимы)

• Статьи Wikipedia (основной источник для DBPedia) могут быть не завершены(“…Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники…”)

• Перевод ресурса DBPedia может и не являться переводом (= английскому варианту или аббревиатуре), например: http://dbpedia.org/resource/Global_Positioning_System – “GPS”@ru

Вариант 1соответствие устанавливается при наличии только одного

значения заглавного слова статьи DBPedia/Wikipedia в WordNet

Получено:- лемм из DBPedia: 25973- синсетов с переводами: 26262

Вариант 2соответствие устанавливается при наличии любого числа значений заглавного слова

(существительного) статьи DBPedia/Wikipedia в WordNet (выставляется значение «vote» в зависимости от числа значений в WordNet)

Получено:- лемм из DBPedia: 32387 - синсетов с переводами: 37406

Спасибо за внимание

Сухоногов Андрей Михайлович

asukhonogov@gmail.com

Яблонский Сергей Александрович

yablonsky.serge@gmail.com

Работа выполнена при финансовой поддержке РФФИ (грант РФФИ 10-07-90005)

Recommended