31
Методология наполнения онтологий – практика без теории? Рубашкин В.Ш., Пивоварова Л. М. Санкт-Петербургский университет

Методология наполнения онтологий – практика без теории?

Embed Size (px)

DESCRIPTION

Методология наполнения онтологий – практика без теории?. Рубашкин В.Ш., Пивоварова Л. М. Санкт-Петербургский университет. 1. Положение дел: Методология наполнения онтологий была и остается самым слабым звеном онтологической инженерии. - PowerPoint PPT Presentation

Citation preview

Page 1: Методология наполнения онтологий – практика без теории?

Методология наполнения онтологий – практика без теории?

Рубашкин В.Ш., Пивоварова Л. М. Санкт-Петербургский университет

Page 2: Методология наполнения онтологий – практика без теории?

1. Положение дел:

Методология наполнения онтологий была и остается самым слабым звеном онтологической инженерии.

"…One of the main purposes of ontologies is to reduce the knowledge acquisition bottleneck, to acquire knowledge for building ontologies still requires a lot of time and resources. [G-P, с. 112]"

Каждый из "больших" онтологических проектов формулирует и реализует собственный подход к наполнению онтологий, и это само по себе свидетельствует о неблагополучии в данной области.

Даже к большим и пользующимся авторитетом онтологическим системам, таким как CYC или SUMO, при внимательном ознакомлении с их наполнением возникает много вопросов, касающихся логической и терминологической полноты, логической последовательности содержимого и возможности реализовать в полном объеме ту функциональность, которая востребована развитием информационных технологий.

Page 3: Методология наполнения онтологий – практика без теории?

1. Положение дел:

Приходится констатировать, что задача создания открытого для общего и многократного использования (sharable and reusable) информационного ресурса, поставленная еще в начале 90-х,

до сих пор остается не решенной.

NB:Документация, например, по OWL или по редакторам и резонерамНЕ содержит развернутых рекомендаций по методологии

наполнения.

Page 4: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Весьма существенно то, что онтологии не порождают нового знания, а лишь оформляют то понимание терминологии и языковых единиц вообще, которое уже сложилось в коммуникационной системе. Большая часть связей, фиксируемых в онтологиях - это так называемые "знания здравого смысла" (common sense metaphysics), без формализации и использования которых не может быть решена ни одна задача, так или иначе связанная с пониманием текста. Это недокументированные знания, которые почти никогда не вербализуются ни в научных коммуникациях, ни в повседневном общении. Речь идет о содержательно очень простых вещах: скажем, надо формализовать понимание того, что супермаркет или бутик есть вид торговой организации, последняя есть вид специализированной социальной системы (в отличие от города или страны); что супермаркет не станок, не теплоход, не стадион и т.д. (отношение объемной несовместимости); что всякая специализированная социальная система имеет руководителя (директор, начальник, заведующий), что в ней работает персонал с определенным набором социальных ролей и т.п.

Page 5: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Попытки создания регламентирующих документов:

1994Classic Knowledge Representation System Tutorial Deborah L. McGuinness,et al. AT&T Bell Laboratories and University

of Pittsburgh,

Использованный там пример детализирован и превращен в развернутый учебный пример

(2001 Natalya Noy and Deborah McGuinness) Ontology Development 101: A Guide to Creating Your First Ontology,

Так появилась пресловутая "Онтология вина", кочевавшая из документа в документ на протяжении почти десятка лет.

NB: была включена в официальную документацию по OWL - OWL Web Ontology Language Guide

Page 6: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

OWL2:В документацию по OWL2 в качестве приложения включен уже

другой пример наполнения, рассматривающий возможный способ формализации некоторых терминов родства и связанных с ними характеристик:

OWL 2 Web Ontology Language. Primer. W3C Recommendation 27 October 2009.

Бросается в глаза чрезвычайная упрощенность используемых примеров по сравнению с реальными терминосистемами.

Такого рода "игрушечные" примеры скорее служат развернутой иллюстрацией к описанию синтаксиса OWL, чем методическим руководством для систематизации и формализации реальных терминосистем.

Page 7: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Самым полезным на сегодня методическим пособием, показывающим как можно систематизировать большой языковый материал, являются сами "большие" онтологии.

НОПример SUMO-MILO: SUMO_Transport.ppt#5. RoadVehicleTransp_Sumo.doc

Что следовало бы: InTez.exe

Page 8: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Определенное методологическое ядро, пригодное, прежде всего для построения доменных онтологий, тем не менее, сформировалось.

Сложилась определенная практика, предусматривающая следующую последовательность конструктивных действий:

1) Отбор значимых для предметной / проблемной области концептов.

2) Категоризация терминов: 3) Дальнейшая внутрикатегорная систематизация - построение

таксономии.4) Установление нетаксономических отношений

Page 9: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Более детальный вариант такого описания шагов по построению онтологии можно найти в обзоре, приведенном в [G-P, p. 132 и след.].

А) 4 этапа построения онтологии: спецификация, концептуализация, формализация, реализация.

Понимание этих этапов в очень кратком изложении таково.• Спецификация – определение функциональности онтологии.• Концептуализация – структурирование (как можно более

тщательное) доменной терминологии на содержательном уровне.

• Формализация – "преобразует концептуальную модель в формальную или полувычислимую (semi-computable) модель".

• Реализация (implementation) – строит вычислимую модель на языке представления онтологий.

Собственно содержательный этап структурирования терминосистемы – концептуализация.

Page 10: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Концептуализация.Для этого этапа (conceptual modeling) авторы указанной работы

подробно определяют принятую ими последовательность действий:

1) Построение словаря терминов, включая сюда также естественно-языковые определения терминов, синонимы и акронимы.

2) Построение таксономии для концептов. Отмечается необходимость одновременно фиксировать отношение несовместимости (disjoint).

3) Построение ad hoc (т.е., экспертно) графа бинарных (!) отношений между концептами. Отмечается важность точного определения условий заполнения аргументов отношений (domains and ranges).

4) Построение "словаря концептов" – с привязкой к концептам атрибутов и отношений.

Page 11: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

5) Детализация описания бинарных отношений (п. 3). Предусматривается дополнительное указание числа возможных значений (cardinality – 1:1, 1:N), логических характеристик отношения (симметричность, транзитивность) и наличие конверсива.

6) Описание атрибутов: область применимости (domain); тип данных для значения; единица измерения, точность представления, область определения ("от…до…"), - если атрибут числовой; минимальное и максимальное число возможных значений – (0,1), (1,1), (0,N), (1,N).

7) Описание "атрибутов классов" (?).

8) Описание специфичных для области знаний констант.

9) Описание экземпляров: отнесение к классу и указание значений релевантных для класса атрибутов.

Page 12: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Есть еще 2 пункта, которые, по существу, подразумевают переход к следующему этапу ("формализация") и предусматривают формулировку аксиом и правил, так или иначе ограничивающих допустимые описания экземпляров.

[ Логического различия между "аксиомами" и "правилами" обнаружить не удается. Пол всей видимости имеется в виду то различие, что "аксиомы" представляют, так сказать, абсолютные ограничения, обуславливаемые законами природы (На поезде из Европы можно попасть только в Европу – поездка в Азию через Россию с точки зрения авторов, видимо противоречит законам природы), в то время как "правила" представляют административные и юридические ограничения, действительные в определенный период времени (Все круизы из Европы в Коста-Рику организуются компанией Costa Cruises). ]

Page 13: Методология наполнения онтологий – практика без теории?

1. Положение дел: что имеем?

Самая актуальная проблема –язык, среда и дисциплина, обеспечивающие накопление и интеграцию онтологических знаний.

Один из ключевых элементов такой среды – онтология верхнего уровня, обеспечивающая такую интеграцию.

Page 14: Методология наполнения онтологий – практика без теории?

2. Онтология верхнего уровня

Wiki: "Почему онтология верхнего уровня НЕ осуществима" – "Почему онтология верхнего уровня осуществима"

Wiki: Upper ontology (top-level ontology, or foundation ontology) is an

ontology which describes very general concepts that are the same across all knowledge domains. The most important function of an upper ontology is to support very broad semantic interoperability between a large number of ontologies accessible "under" this upper ontology.

Возможное операциональное определение:Онтологическая подсистема, достаточная для последующего присоединения любых доменных онтологий и для представления логических связей между концептами, значимых во всех или хотя бы в нескольких частных онтологиях.

Page 15: Методология наполнения онтологий – практика без теории?

2. Онтология верхнего уровня

Практика построения онтологий верхнего уровня:

"Еще одна, еще одна, еще одна…":

YAGO - Yet Another Great Ontology) YAMATO - Yet Another More Advanced Top-level Ontology

top-level_Survey.xls

TopLevel_Filling.ppt

Viviana Mascardi, Valentina Cordì, Paolo Rosso

A Comparison of Upper Ontologies (Technical Report):

Since all of us have a computer science background, these criteria are more familiar to

us than philosophical ones.

Page 16: Методология наполнения онтологий – практика без теории?

Общие замечания:

1) Два подхода:

• Представление метазнаний (метапонятий)

• Интеграция предметных понятий и связей между ними

(Преобладает сочетание того и другого с разным акцентом)

2) Различие и несопоставимость используемой терминологии мешает обнаружить содержательные совпадения (отсутствие традиции)

3) "Много единиц" Sample facts from the YAGO

4) Проблема логической полноты и последовательности.

“John’s height of 160cm long”

<“John’s height” instance-of height><”height” (role) is-a quality role type><quality instance-of quality role type ><“height” (role) is-played-by length><quality role type is-played-by generic quality type ><length is-a generic quality type><160cm long instance-of length quantity><length quantity is-a quantity>

Имеется в виду:<объект, атрибут(признак), числовое значение, единица измерения>вариант:<объект, атрибут(признак), числовое значение >

2. Онтология верхнего уровня

Page 17: Методология наполнения онтологий – практика без теории?

2. Онтология верхнего уровня

Общие замечания:

Обзор Top-Level онтологий наводит на мысль, что их построение рассматривается скорее как интимное дело эксперта, которое регламентации и методологическому регулированию не подлежит.

Page 18: Методология наполнения онтологий – практика без теории?

Как возникает онтология верхнего уровня:

Построение онтологии, рассчитываемой на многократное применение, предполагает стремление к логической полноте концептуальной системы. При добавлении в онтологию имени некоторого подкласса всегда полезно задаться вопросами:- из какого исходного класса выделен данный подкласс?

- по какому основанию он выделен?

и самое главное:

- какие еще подклассы могут быть выделены по данному основанию из данного исходного класса?

Отвечая на такие вопросы, получаем фрагмент таксономии, который часто выводит за пределы рассматриваемой и непосредственно формализуемой дисциплинарной области.

Page 19: Методология наполнения онтологий – практика без теории?

Как возникает онтология верхнего уровня:Пример.

Центральное положения в системе концептуальной системы лингвистики должен занимать концепт текстовое произведение - текст, представляющий одно законченное сообщение, представляющий содержание одного коммуникационного акта.

ср. SUMO: Text - A &%LinguisticExpression or set of &%LinguisticExpressions that perform a specific function related to &%Communication, e.g. express a discourse about a particular topic).

(Научная статья, монография или диссертация; роман, эссе или губермановский "гарик"; устав гарнизонной и караульной службы, закон о правах потребителей, инструкция по использованию лекарства, рекламный постер,

короткий приказ армейского командира в бою, бытовой диалог …)

предложение, слово, морфема, … - лишь "детали" и "узлы" для построения востребованного социумом "изделия".

Page 20: Методология наполнения онтологий – практика без теории?

Как возникает онтология верхнего уровня:

Далее необходима более детальная функциональная спецификация объектов класса текстовое произведение -

художественное произведение и деловой документ.

деловой документ – подклассы:нормативный документ, научно-технический документ,

организационно-распорядительный документ, ценная бумага.

- Из лингвистики в такие области как литературоведение, юриспруденция, экономика и финансы, управленческая деятельность и т. д.

Page 21: Методология наполнения онтологий – практика без теории?

Как возникает онтология верхнего уровня:Какие еще "произведения", реализующие самостоятельную

коммуникативную функцию, можно указать? Примеры:- симфония, натюрморт, архитектурный ансамбль и даже

лампасы на генеральских бриджах.

Речь идет о разбиении некоторого исходного класса семиотический (ментальный) объект по основанию тип знакового материала с порождение подклассов:

- текстовый объект, музыкальный объект, объект изобразительного искусства, утилитарный объект со знаковыми функциями.

Построение такого ряда необходимо для обеспечения полноты таксономической системы и, соответственно, полноты отображения определенного аспекта миропонимания.

С другой стороны, - выход за пределы дисциплинарно ориентированной терминосистемы, как результат последовательной работы по ее формализации.

Page 22: Методология наполнения онтологий – практика без теории?

Что должна содержать Top-Level онтология?

• Один, два, три, …; много, мало, несколько, …; весьма, сверх-, ультра- …; …

• Далеко - близко; раньше – позже; редко –часто; шар, куб, пластина, лист, цилиндрический; больше – меньше; …

• 'логическое И', 'логическое ИЛИ', 'логическое НЕ'; все, существует, некоторые; большинство, меньшая часть, несколько; всегда, иногда; везде, нигде;

• совокупность, стая, стадо, толпа, куча, скопление…; и др.

• Общеязыковые отношения: 'часть-целое', анти-, 'быть предназначенным для', причинна

• Общие термины-категоризаторы (предмет, экземпляр, процесс, действие, отношение, свойство, связь, совокупность и т. п.)

• Индикаторы кореференции ('этот', 'другой', 'такой же'

• Фазовые определители процессов/действий: 'начинать(ся)', 'заканчивать(ся)', 'продолжаться'

Page 23: Методология наполнения онтологий – практика без теории?

Что должна содержать Top-Level онтология?

• Вопросительные элементы: кто, что, кого, кому, где, как, зачем, когда, ли и т. п.).

• Верх дерева признаков, включая системообразующую часть и общие термины каждого из основных направлений научной, художественной и практической деятельности.

• По-видимому, также бытовая и вообще общеязыковая знаменательная лексика, образующая разговорное ядро языка.

Page 24: Методология наполнения онтологий – практика без теории?

Основные противопоставления верхнего уровня(значимы для организации наследования свойств)

Basic distinctions (YAMATO):

(1) Substrate and entity

(2) Entity and property

(3) Physical and abstract

(4) Continuant(Object) vs. Occurrent(Process)

(5) Entity and relation

(6) Representation and non-representation

(1) Space and time are indispensable for things to exist in the world, while these two can exist independently of entities. (2) Any entity cannot exist without any property, e.g., any physical object has necessarily a couple of properties (color, mass, size, etc.). At the same time, any property cannot exist alone. (3) A physical thing as something which needs time and space to exist, and introducesemi-abstract which needs only time to exist. Abstract things are defined as things that need neither time nor space. (4) YAMATO is based on a solid theory of objects, processes and events (5) Typical examples are action and attribute that are sometimes formalized as a relation because an action is often formalized as one between an actor and an object and an attribute as one between an object and a value. But, of course, they are not relations ontologically. They are intrinsically entities included in an ontology.

(6) We need to deal with representation in our ontology, since there apparently exist music, novels, texts, symbols and so on in the real world. Representation and non-representation (object, process, relation, attribute, etc.) are very different from each other. For the representation, it is not easy to identify what their instances are. For example, what is an instance of a piece of music, what is an algorithm, …

Page 25: Методология наполнения онтологий – практика без теории?

Основные противопоставления верхнего уровня(значимы для организации наследования свойств)

Мир естественного (мир природы):

• дискретный – континуум

• агрегатное состояние

• локализованный (self connected object) – нелокализованный

• объект – квазиобъект

• неживое – живое – одушевленное

• масштабирование объектов

Page 26: Методология наполнения онтологий – практика без теории?

Основные противопоставления верхнего уровня

Мир социального (мир культуры)

• эмпирический объект - семиотический объект

(город – теорема)

• объект материальной культуры - социальный индивид

• человек (личность) - социальная система

• жизнеорганизующая социальная система – специализированная социальная система

(город - филармония)• функционально значимый объект - вспомогательный объект

(автомобиль - колесо)

Page 27: Методология наполнения онтологий – практика без теории?

Общие рекомендации по формализации терминосистем

1) Не отдельные термины, а терминосистемы. Формализация должна быть одинаковой для всего ряда однотипных языковых явлений.

2) Опора на хорошо выстроенную онтологию верхнего уровня.

Действия по формализации частных терминосистем:

3) (!) Жесткая поддержка DisjointUnion-дисциплины построения иерархической системы классов – разбиение каждого из исходных классов (Partition) с явным указанием оснований деления. Выявление базовых признаков и других информационно значимых элементов путем содержательного анализа словарных определений.

NB: Две проблемы –связь свойство – значение; несовместимость классов.

Page 28: Методология наполнения онтологий – практика без теории?

Обычная таксономия:

Макротело - красный

- синий- зеленый- …- тяжелый- легкий- …- твердый- жидкий- газ

При этом свойство цвет придется определить как

<owl:ObjectProperty rdf:ID = ”Цвет”><rdf:type rdf:resource="&owl:FunctionalProperty" /><rdfs:domain rdf:resource = ”# Макротело” /><rdfs:range rdf:resource = ”# Макротело”/>

</owl:ObjectProperty>Но такое определение оставляет возможность на вопрос о цвете отвечать

тяжелый или твердый.

Page 29: Методология наполнения онтологий – практика без теории?

Остается возможность сформировать искусственные подклассы:Макротело

- Тела имеющие цвет-- красный

-- синий-- зеленый-- …

- Тела имеющие вес-- тяжелый-- легкий-- …

- Тела, характеризующиеся агрегатным состоянием--твердый-- жидкий-- газ

<owl:ObjectProperty rdf:ID = ”Цвет”><rdf:type rdf:resource="&owl;FunctionalProperty" /><rdfs:domain rdf:resource = ”# Макротело” /><rdfs:range rdf:resource = ”# Тела имеющие цвет”/>

</owl:ObjectProperty>

Page 30: Методология наполнения онтологий – практика без теории?

Еще лучше было бы исключить класс Тела имеющие цвет из области определения domain.

Альтернативный способ решения той же задачи может выглядеть так. Сначала определяем систему базовых признаков, организованных в дерево признаков: InTez.exe

Макротело - цвет

-- красный -- синий

-- зеленый-- …

- вес-- тяжелый-- легкий-- …

- агрегатное состояние-- твердый-- жидкий-- газ

Альтернатива в OWL2 – конструкция DisjojntUnion

Page 31: Методология наполнения онтологий – практика без теории?

4) Логическая реконструкция словарных определений в терминах построенной на этапе 2 системы базовых признаков.

Необходим язык формальных толкований терминов – при этом должна использоваться не только конъюнкция, но и другие логические средства, - например определение через отношение.

«Множественное наследование» как способ представления определения через конъюнкцию можно рассматривать как удобный технологический прием – особенно при наличии системы графического редактирования.

NB: Не энциклопедические определения терминов, а отнесение к системе базовых признаков.

Ср.: «остров - часть суши, окруженная водой» vs SubClassOf ГеографическийОбъект, DisjoinClasses Остров, Полуостров, Залив, Пролив, Мыс, Канал, Риф, Лагуна,

Море и т. п.

5) Логический контроль должен, главным образом не обнаруживать ошибки, а предотвращать их появление.

6) Тщательно составленный и хорошо прокомментированный системный пример (или ядро универсальной онтологии с примерами доменного расширения и достаточным комментарием)