18

Click here to load reader

разработка методов извлечения информации из веб ресурсовSw

Embed Size (px)

Citation preview

Page 1: разработка методов извлечения информации из веб ресурсовSw

Разработка методов извлечения информации из веб-ресурсов SemanticWeb

для расширения числа переводов англо-русской версии WordNet

Сухоногов А.М.

ФГОУ ВПО ПГУПС[email protected]

Яблонский С.А.

ВШМ СПбГУ[email protected]

Page 2: разработка методов извлечения информации из веб ресурсовSw

RDF/OWL компоненты проекта Linked Open Data (LOD)

Page 3: разработка методов извлечения информации из веб ресурсовSw

DBPedia сегодня (версия 3.5.1)( http://wiki.dbpedia.org/Datasets)

• 367653 переводов на русский язык

The DBpedia knowledge base currently describes more than 3.4 million things, out of which 1.5 million are classified in a consistent Ontology, including 312,000 persons, 413,000 places (including 310,000 populated places), 94,000 music albums, 49,000 films, 15,000 video games, 140,000 organizations (including 31,000 companies and 31,000 educational institutions), 146,000 species and 4,600 diseases. The DBpediadata set features labels and abstracts for these 3.2 million things in up to 92 different languages; 841,000 links to images and 5,081,000 links to external web pages; 9,393,000 external links into other RDF datasets, 565,000 Wikipedia categories, and 75,000 YAGO categories. The DBpedia knowledge base altogether consists of over 1 billion pieces of information (RDF triples) out of which 257 million were extracted from the English edition of Wikipedia and 766 million were extracted from other language editions.

Page 4: разработка методов извлечения информации из веб ресурсовSw

Организация WordNet

WordNet – лексико-семантическая база данных, включающая:

• основную лексику языка (существительные, глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов.

– Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением.

• таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия).

• определение семантических классов – TopOntology

Page 5: разработка методов извлечения информации из веб ресурсовSw

Проекты по извлечению знаний из статей Wikipedia и WordNet

• DBpedia – база знаний, созданная открытым сообществом. В основном, содержит результаты извлечения структурированной информации из Wikipedia, представленные в виде онтологии в форматах Semantic Web (OWL, N3). В проекте DBPedia ведется работа по определению связей (owl:sameAs) с другими известными онтологиями ­– OpenCyc, Freebase, YAGO и др.;

• YAGO – база знаний, полученная при обработке Wikipedia и Princeton WordNet 3.0;

• WikiNet – проект построения многоязычной семантической сети на основе данных из разделов Wikipedia;

• BabelNet – проект построения многоязычной семантической сети на основе данных из разделов Wikipedia и системы машинного перевода.

Page 6: разработка методов извлечения информации из веб ресурсовSw

Лексико-семантические онтологии WordNet

История создания многоязычных WordNet(показаны не все проекты)

Page 7: разработка методов извлечения информации из веб ресурсовSw

Проект «Russian WordNet»Проект включает:•~45 тыс. существительных, образующих ~53 тыс. синсетов:•~29 тыс. глаголов, образующих ~29 тыс. синсетов;•~21 тыс. прилагательных, образующих ~25 тыс. синсетов;•~5 тыс. наречий, образующих ~5 тыс. синсетов;• парадигмы для всех лемм словника;• определение словообразовательных отношений;• выделенную из EuroWordNet Top Ontology, с возможностью расширения;• WordNet Domains с возможностью определения новых доменов;• визуальную среду - редактор Russian WordNet• Internet/Intranet реализацию –http://www.pgups.ru/WebWN/wordnet.uix• OWL/RDFS-описание WordNet и реализацию процедур экспорта/импорта в формат OWL, соответствующий рекомендациям консорциума W3C

Page 8: разработка методов извлечения информации из веб ресурсовSw

Межъязыковой индекс ILI – Inter-lingual-index (EuroWordNet)

Page 9: разработка методов извлечения информации из веб ресурсовSw

Редактор проекта Asian WordNetWNMS – WordNet Management System

Page 10: разработка методов извлечения информации из веб ресурсовSw

Модель WNMS

Page 11: разработка методов извлечения информации из веб ресурсовSw

Последовательность обработки ресурсов Semantic Web

Page 12: разработка методов извлечения информации из веб ресурсовSw

Пример работы с переводом синсета

Page 13: разработка методов извлечения информации из веб ресурсовSw

Визуализация WordNet в WNMS

Page 14: разработка методов извлечения информации из веб ресурсовSw

Пример полученного соответствия между синсетом WordNet 3.0 “mammoth” и DBpedia

Page 15: разработка методов извлечения информации из веб ресурсовSw

Ресурс DBPedia != Синсет WordNet

• Одному синсету WordNet может соответствовать несколько ресурсов DBPedia(http://dbpedia.org/resource/Leningrad, http://dbpedia.org/resource/Saint_Petersburg и др. по предикату “dbpprop:redirect” - синонимы)

• Статьи Wikipedia (основной источник для DBPedia) могут быть не завершены(“…Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники…”)

• Перевод ресурса DBPedia может и не являться переводом (= английскому варианту или аббревиатуре), например: http://dbpedia.org/resource/Global_Positioning_System – “GPS”@ru

Page 16: разработка методов извлечения информации из веб ресурсовSw

Вариант 1соответствие устанавливается при наличии только одного

значения заглавного слова статьи DBPedia/Wikipedia в WordNet

Получено:- лемм из DBPedia: 25973- синсетов с переводами: 26262

Page 17: разработка методов извлечения информации из веб ресурсовSw

Вариант 2соответствие устанавливается при наличии любого числа значений заглавного слова

(существительного) статьи DBPedia/Wikipedia в WordNet (выставляется значение «vote» в зависимости от числа значений в WordNet)

Получено:- лемм из DBPedia: 32387 - синсетов с переводами: 37406

Page 18: разработка методов извлечения информации из веб ресурсовSw

Спасибо за внимание

Сухоногов Андрей Михайлович

[email protected]

Яблонский Сергей Александрович

[email protected]

Работа выполнена при финансовой поддержке РФФИ (грант РФФИ 10-07-90005)