31
СЕМАНТИЧЕСКИЙ ВЕБ И WEB KNOWLEDGE MINING С.А. Яблонский, Т.А. Гаврилова Высшая школа менеджмента Санкт- Петербургского государственного университета Санкт-Петербург

Yablomsky

Embed Size (px)

Citation preview

Page 1: Yablomsky

СЕМАНТИЧЕСКИЙ ВЕБИ

WEB KNOWLEDGE MINING

С.А. Яблонский, Т.А. Гаврилова Высшая школа менеджмента Санкт-

Петербургского государственного университетаСанкт-Петербург

Page 2: Yablomsky
Page 3: Yablomsky
Page 4: Yablomsky
Page 5: Yablomsky
Page 6: Yablomsky

Этапы развития WWW

Page 7: Yablomsky

• Web 1.0 – объединение в сети информации (этап пройден, информация постоянно пополняется);

• Web 2.0 – объединение в сети людей – Social Web (пройден, социальные сети стали реальностью и стремительно растут);

• Web 3.0 – объединение в сети знаний (начинается сейчас);

• Web 4.0 – такое объединение в сети людей и компьютеров, когда и те и другие смогут общаться и получать знания наравне с друг другом (перспектива).

Page 8: Yablomsky
Page 9: Yablomsky

Tim Berners-Lee

Page 10: Yablomsky

Языки представления онтологий

RDF+ RDFS OWL Язык запросов к RDF/OWL

SPARQL

Page 11: Yablomsky

RDFS

• RDFS – язык описания словарей для RDF

• RDF Schema определяет классы, свойства и другие ресурсы.

• RDFS является семантическим расширением RDF.

Page 12: Yablomsky

Перечень классов RDFS Имя класса Пояснениеrdfs:Resource Класс ресурс, включает «всё».

rdfs:Literal Класс литеральных значений, текстовых строкили чисел.

rdf:XMLLiteral Класс XML литералов

rdfs:Class Класс классов.

rdf:Property Класс RDF свойств.

rdfs:Datatype Класс типов данных RDF.

rdf:Statement Класс утверждений.

rdf:Bag Класс неупорядоченных контейнеров.

rdf:Seq Класс упорядоченных контейнеров.

rdf:Alt Класс контейнеров-альтернатив.

rdfs:Container Класс RDF контейнеров.

rdfs:ContainerMembershipProperty Класс свойств «членства» в контейнерах, rdf:_1,rdf:_2, ..., все они являются подсвойствамисвойства member( член).

rdf:List Класс RDF списков.

Page 13: Yablomsky

Перечень свойств RDFSИмя свойства Пояснение Домен Диапазонrdf:type Субъект является экземпляром класса. rdfs:Resource rdfs:Classrdfs:subClassOf Субъект является подклассом класса. rdfs:Class rdfs:Classrdfs:subPropertyOf

Субъект является подсвойством свойства. rdf:Property rdf:Property

rdfs:domain Домен свойства сеюъекта. rdf:Property rdfs:Classrdfs:range Диапазон свойства субъекта. rdf:Property rdfs:Classrdfs:label Человекочитаемое название субъекта. rdfs:Resource rdfs:Literalrdfs:comment Текстовое описание ресурса rdfs:Resource rdfs:Literalrdfs:member Член ресурса субъекта. rdfs:Resource rdfs:Resourcerdf:first Первый элемент списка. rdf:List rdfs:Resourcerdf:rest Оставшийся за первым элементом «хвост»

списка.rdf:List rdf:List

rdfs:seeAlso Дополнительная информация о субъекте. rdfs:Resource rdfs:Resourcerdfs:isDefinedBy Определение ресурса субъекта. rdfs:Resource rdfs:Resourcerdf:value Свойство, используемое для

структурированных значенийrdfs:Resource rdfs:Resource

rdf:subject Субъект RDF утверждения (см. реификация). rdf:Statement rdfs:Resourcerdf:predicate Предикат утверждения (см. реификация). rdf:Statement rdfs:Resourcerdf:object Объект RDF утверждения (см. реификация). rdf:Statement rdfs:Resource

Page 14: Yablomsky

RDF• RDF – язык описания метаданных в Сети• Модель данных RDF – ориентированный

граф• RDF граф строится на основе элементарных

высказываний (триплетов)• Форма высказываний – бинарное

отношение (S,P,O)• RDF чрезвычайно выразителен (кто угодно

может сказать что угодно о чем угодно)• RDFS служит для определения словарей

RDF.

Page 15: Yablomsky

Ограничение языка RDF + RDFS

Целостность и непротиворечивость.RDF не запрещает делать бессмысленных утверждений или утверждений не согласующихся с другими. Вся ответственность за проверку целостности ложится на получателей (конечных пользователей) метаданных, т.е. на разработчиков приложений обрабатывающих RDF.

Page 16: Yablomsky

Дополнительно

• упрощенные встроенные в HTML-страницы микроформаты (Microformats),

• RDFa,

• Embedded RDF (eRDF),

• и др., широко используемые в Facebook, Yahoo! Local, блогах.

Page 17: Yablomsky

OWL

• OWL (Web Ontology Language) – язык представления онтологий в Web. Фактически это словарь расширяющий набор терминов определенных RDFS.

• OWL-онтологии могут содержать описания классов, свойств и их экземпляров.

Page 18: Yablomsky

Три диалекта OWL

• OWL Lite (простота)• OWL DL (полнота и разрешимость)• OWL Full (выразительная мощь)

Page 19: Yablomsky

Языки запросов к RDF хранилищам

Представление знаний в машинопонятном формате не имело бы никакого смысла, если бы к этим знаниям нельзя было обращаться, автоматически их обрабатывать и пополнять.

Две близкие задачи:• Извлечение имеющихся в хранилище знаний

запросами к RDF хранилищу - asking, querying.• Применение логического вывода над

имеющимися знаниями (RDF-графами и онтологиями) - reasoning, entailment.

Page 20: Yablomsky

SPARQLСинтаксис запроса (упрощенный)

SELECT <v_list> FROM <onologyURI> WHERE { <template_list>.

FILTER <filter_expr>}

- v_list – список имен переменных- onologyURI – ссылка на онтологию - template_list – список шаблонов- filter_expr – ограничения на значения переменных

Page 21: Yablomsky

OWL-S(http://www.w3.org/Submission/OWL-S/)

Семантический язык разметки веб-сервисов (Web Services).

Позволяет создавать семантические описания веб-сервисов, понятные для семантических веб-агентов (web agents).

Page 22: Yablomsky
Page 23: Yablomsky
Page 24: Yablomsky
Page 25: Yablomsky

RDF/OWL- ресурсы в сети (1)

• FOAF (Friend of a Friend) (http://www.foaf-project.org/)

• SIOC (Semantically-Interlinked Online Communities discussion forums,weblogs,blogrolls/feed subscriptions, mailing lists, shared bookmarks, image galleries - http://sioc-project.org/)

Page 26: Yablomsky

RDF/OWL- ресурсы в сети (2)

• Open GUID (http://openguid.net/)

• SIMILE (Semantic Interoperability of Metadata and Information in unLike Environments -http://simile.mit.edu/)

• NextBio (http://www.nextbio.com/b/nextbio.nb)

Page 27: Yablomsky

RDF/OWL- ресурсы в сети (3)

• Linking Open Data (http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData)

• Wikipedia (http://www.wikipedia.org/)

• Dbpedia (http://dbpedia.org/)

• YAGO (http://www.mpi-inf.mpg.de/yago-naga/yago/)

Page 28: Yablomsky

Linked Open Data (LOD)

Page 29: Yablomsky

Например, проект DBpedia нацелен на извлечение структурированной информации из многоязычной веб-энциклопедии Wikipedia с помощью SPARQL-запросов. На основе обработки сниппетов (snippet) из Wikipedia построена база знаний, где хранят RDF-тройки: subject-predicate-object. Число RDF-троек сегодня превышает 274 миллиона на 30 языках, включая 415,000 категорий Wikipedia и 75,000 категорий YAGO.

Онтология YAGO основана на Wikipedia и WordNet.

Page 30: Yablomsky
Page 31: Yablomsky

Спасибо!Сергей Яблонский

[email protected]