9
На пути к онтологии языкознания Рубашкин В.Ш Санкт-Петербургский университет

лингвонтол

Embed Size (px)

Citation preview

Page 1: лингвонтол

На пути к онтологии языкознания

Рубашкин В.Ш Санкт-Петербургский университет

Page 2: лингвонтол

Зачем?

Существует общий "технологический заказ" на онтологии со стороны как новых, так и уже давно сформировавшихся информационных технологий (ИТ).

Востребованная функциональность онтологий - основные технологии -"потребители":

• Семантический поиск

• Семантический анализ текста (извлечение знаний из текста). Здесь же: поддержка лингвистически ориентированных информационных технологий: системы распознавания;

корректоры текста; диалог на ЕЯ (Call-центры и др.).

• Поддержка corpus-based процедур анализа (в т. ч. для перевода)

• Концептуальный доступ к информационным ресурсам: концептуальные схемы БД, вопросно-ответные системы и др.

• Организация управляемого данными регламентированного диалога (ср. Wikipedia; создание словарей и лингвистических баз данных))

Page 3: лингвонтол

Круг лексики

NB: Не онтология задачи, а онтология предметной области.

• Лингвистические объекты (+ смежные объекты: понятия, социум, психология, логика, нейролингвистика, онтология … ?)

• Свойства лингвистических объектов, отношения между лингвистическими объектами (анафора, согласование, …)

• Процессы – диахрония (деривация, дивергенция, …); исследовательские процедуры (дешифровка, …)

• Законы, правила, модели, теории, исследовательские методы и средства

• Направления и разделы языкознания (глоттохронология, …)

• Прочее (типология языков, участники и процессы языковой коммуникации, …)

NB: Держаться терминологического мейнстрима (ontological commitments)Источники:

- энциклопедические словари

- корпус текстов, частотные словаричастотные_словари_MI_corp.xls

NB: не так много имен собственно лингвистических объектов.

Page 4: лингвонтол

Методология

Общепринятая практика:

• Отбор значимых для предметной / проблемной области концептов.

• Категоризация терминов

• Дальнейшая внутрикатегорная систематизация - построение таксономии.

• Установление нетаксономических отношений

• Построение формальных толкований сложных концептов

Page 5: лингвонтол

Методология

Существенное дополнение -

построение онтологии, рассчитываемой на многократное применение, предполагает стремление к логической полноте концептуальной системы.

При добавлении в онтологию имени некоторого подкласса всегда полезно задаться вопросами:- из какого исходного класса выделен данный подкласс?- по какому основанию он выделен?- и самое главное: какие еще подклассы могут быть выделены по данному основанию из данного исходного класса? (или, лучше, - какой набор подклассов получается разбиением

исходного класса по данному основанию?).

Page 6: лингвонтол

Методология

Пример:

Функционально самодостаточный (исходный) объект в системе лингвистической терминологии - текстовое произведение.

(Текст, представляющий одно законченное сообщение, содержание одного коммуникационного акта, основная коммуникационная единица.)

(ср. SUMO: Text - A &%LinguisticExpression or set of &%LinguisticExpressions

that perform a specific function related to &%Communication, e.g. express a discourse about a particular topic).

(Научная статья, монография или диссертация; роман, эссе или губермановский "гарик"; устав гарнизонной и караульной службы, закон о правах потребителей, инструкция по использованию лекарства, рекламный постер,

короткий приказ армейского командира в бою и т. д., и т. п.)

Другие лингвистические объекты (слова, фонемы, предложения,…) интересны и значимы постольку, поскольку они нужны для построения и детального описания этой основной. Они лишь "детали" и "узлы" для построения востребованного социумом "изделия".

Page 7: лингвонтол

Методология

Вопросы для разработчика – эксперта:

(1) Текстовое произведение -художественное произведение, деловой документ,

публицистическое произведение (функционально-коммуникативный тип текстового произведения)

(2) Деловой документ - научно-технический документ, нормативный документ, организационно-распорядительный документ, ценная бумага (по основной социальной функции делового документа*)

(1) Текстовое произведение (текстовый объект) -музыкальный объект, объект изобразительного искусства, утилитарный объект со знаковыми функциями

Результат – выход за пределы предметной области – обозначение направлений классификации для смежных ПО.

Page 8: лингвонтол

Средства описания

1) Категоризация концептов – объекты, признаки (атрибуты), процессы, (статические) отношения

2) Таксономия ("дерево признаков")

3) Встроенные нетаксономические отношения: часть-целое, локализация, …

4) Язык формальных толкований

Онтология не создает нового знания, а приводит в порядок существующее – часто на уровне трюизмов (морфема – часть слова)

Page 9: лингвонтол

Предварительная систематизация:

ТаблицаТаксономии.doc