Upload
lidia-pivovarova
View
471
Download
1
Embed Size (px)
Citation preview
СЕМАНТИЧЕСКИЙ ВЕБИ
WEB KNOWLEDGE MINING
С.А. Яблонский, Т.А. Гаврилова Высшая школа менеджмента Санкт-
Петербургского государственного университетаСанкт-Петербург
Этапы развития WWW
• Web 1.0 – объединение в сети информации (этап пройден, информация постоянно пополняется);
• Web 2.0 – объединение в сети людей – Social Web (пройден, социальные сети стали реальностью и стремительно растут);
• Web 3.0 – объединение в сети знаний (начинается сейчас);
• Web 4.0 – такое объединение в сети людей и компьютеров, когда и те и другие смогут общаться и получать знания наравне с друг другом (перспектива).
Tim Berners-Lee
Языки представления онтологий
RDF+ RDFS OWL Язык запросов к RDF/OWL
SPARQL
RDFS
• RDFS – язык описания словарей для RDF
• RDF Schema определяет классы, свойства и другие ресурсы.
• RDFS является семантическим расширением RDF.
Перечень классов RDFS Имя класса Пояснениеrdfs:Resource Класс ресурс, включает «всё».
rdfs:Literal Класс литеральных значений, текстовых строкили чисел.
rdf:XMLLiteral Класс XML литералов
rdfs:Class Класс классов.
rdf:Property Класс RDF свойств.
rdfs:Datatype Класс типов данных RDF.
rdf:Statement Класс утверждений.
rdf:Bag Класс неупорядоченных контейнеров.
rdf:Seq Класс упорядоченных контейнеров.
rdf:Alt Класс контейнеров-альтернатив.
rdfs:Container Класс RDF контейнеров.
rdfs:ContainerMembershipProperty Класс свойств «членства» в контейнерах, rdf:_1,rdf:_2, ..., все они являются подсвойствамисвойства member( член).
rdf:List Класс RDF списков.
Перечень свойств RDFSИмя свойства Пояснение Домен Диапазонrdf:type Субъект является экземпляром класса. rdfs:Resource rdfs:Classrdfs:subClassOf Субъект является подклассом класса. rdfs:Class rdfs:Classrdfs:subPropertyOf
Субъект является подсвойством свойства. rdf:Property rdf:Property
rdfs:domain Домен свойства сеюъекта. rdf:Property rdfs:Classrdfs:range Диапазон свойства субъекта. rdf:Property rdfs:Classrdfs:label Человекочитаемое название субъекта. rdfs:Resource rdfs:Literalrdfs:comment Текстовое описание ресурса rdfs:Resource rdfs:Literalrdfs:member Член ресурса субъекта. rdfs:Resource rdfs:Resourcerdf:first Первый элемент списка. rdf:List rdfs:Resourcerdf:rest Оставшийся за первым элементом «хвост»
списка.rdf:List rdf:List
rdfs:seeAlso Дополнительная информация о субъекте. rdfs:Resource rdfs:Resourcerdfs:isDefinedBy Определение ресурса субъекта. rdfs:Resource rdfs:Resourcerdf:value Свойство, используемое для
структурированных значенийrdfs:Resource rdfs:Resource
rdf:subject Субъект RDF утверждения (см. реификация). rdf:Statement rdfs:Resourcerdf:predicate Предикат утверждения (см. реификация). rdf:Statement rdfs:Resourcerdf:object Объект RDF утверждения (см. реификация). rdf:Statement rdfs:Resource
RDF• RDF – язык описания метаданных в Сети• Модель данных RDF – ориентированный
граф• RDF граф строится на основе элементарных
высказываний (триплетов)• Форма высказываний – бинарное
отношение (S,P,O)• RDF чрезвычайно выразителен (кто угодно
может сказать что угодно о чем угодно)• RDFS служит для определения словарей
RDF.
Ограничение языка RDF + RDFS
Целостность и непротиворечивость.RDF не запрещает делать бессмысленных утверждений или утверждений не согласующихся с другими. Вся ответственность за проверку целостности ложится на получателей (конечных пользователей) метаданных, т.е. на разработчиков приложений обрабатывающих RDF.
Дополнительно
• упрощенные встроенные в HTML-страницы микроформаты (Microformats),
• RDFa,
• Embedded RDF (eRDF),
• и др., широко используемые в Facebook, Yahoo! Local, блогах.
OWL
• OWL (Web Ontology Language) – язык представления онтологий в Web. Фактически это словарь расширяющий набор терминов определенных RDFS.
• OWL-онтологии могут содержать описания классов, свойств и их экземпляров.
Три диалекта OWL
• OWL Lite (простота)• OWL DL (полнота и разрешимость)• OWL Full (выразительная мощь)
Языки запросов к RDF хранилищам
Представление знаний в машинопонятном формате не имело бы никакого смысла, если бы к этим знаниям нельзя было обращаться, автоматически их обрабатывать и пополнять.
Две близкие задачи:• Извлечение имеющихся в хранилище знаний
запросами к RDF хранилищу - asking, querying.• Применение логического вывода над
имеющимися знаниями (RDF-графами и онтологиями) - reasoning, entailment.
SPARQLСинтаксис запроса (упрощенный)
SELECT <v_list> FROM <onologyURI> WHERE { <template_list>.
FILTER <filter_expr>}
- v_list – список имен переменных- onologyURI – ссылка на онтологию - template_list – список шаблонов- filter_expr – ограничения на значения переменных
OWL-S(http://www.w3.org/Submission/OWL-S/)
Семантический язык разметки веб-сервисов (Web Services).
Позволяет создавать семантические описания веб-сервисов, понятные для семантических веб-агентов (web agents).
RDF/OWL- ресурсы в сети (1)
• FOAF (Friend of a Friend) (http://www.foaf-project.org/)
• SIOC (Semantically-Interlinked Online Communities discussion forums,weblogs,blogrolls/feed subscriptions, mailing lists, shared bookmarks, image galleries - http://sioc-project.org/)
RDF/OWL- ресурсы в сети (2)
• Open GUID (http://openguid.net/)
• SIMILE (Semantic Interoperability of Metadata and Information in unLike Environments -http://simile.mit.edu/)
• NextBio (http://www.nextbio.com/b/nextbio.nb)
RDF/OWL- ресурсы в сети (3)
• Linking Open Data (http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData)
• Wikipedia (http://www.wikipedia.org/)
• Dbpedia (http://dbpedia.org/)
• YAGO (http://www.mpi-inf.mpg.de/yago-naga/yago/)
Linked Open Data (LOD)
Например, проект DBpedia нацелен на извлечение структурированной информации из многоязычной веб-энциклопедии Wikipedia с помощью SPARQL-запросов. На основе обработки сниппетов (snippet) из Wikipedia построена база знаний, где хранят RDF-тройки: subject-predicate-object. Число RDF-троек сегодня превышает 274 миллиона на 30 языках, включая 415,000 категорий Wikipedia и 75,000 категорий YAGO.
Онтология YAGO основана на Wikipedia и WordNet.
Спасибо!Сергей Яблонский