Upload
lidia-pivovarova
View
319
Download
2
Embed Size (px)
Citation preview
На пути к онтологии языкознания
Рубашкин В.Ш Санкт-Петербургский университет
Зачем?
Существует общий "технологический заказ" на онтологии со стороны как новых, так и уже давно сформировавшихся информационных технологий (ИТ).
Востребованная функциональность онтологий - основные технологии -"потребители":
• Семантический поиск
• Семантический анализ текста (извлечение знаний из текста). Здесь же: поддержка лингвистически ориентированных информационных технологий: системы распознавания;
корректоры текста; диалог на ЕЯ (Call-центры и др.).
• Поддержка corpus-based процедур анализа (в т. ч. для перевода)
• Концептуальный доступ к информационным ресурсам: концептуальные схемы БД, вопросно-ответные системы и др.
• Организация управляемого данными регламентированного диалога (ср. Wikipedia; создание словарей и лингвистических баз данных))
Круг лексики
NB: Не онтология задачи, а онтология предметной области.
• Лингвистические объекты (+ смежные объекты: понятия, социум, психология, логика, нейролингвистика, онтология … ?)
• Свойства лингвистических объектов, отношения между лингвистическими объектами (анафора, согласование, …)
• Процессы – диахрония (деривация, дивергенция, …); исследовательские процедуры (дешифровка, …)
• Законы, правила, модели, теории, исследовательские методы и средства
• Направления и разделы языкознания (глоттохронология, …)
• Прочее (типология языков, участники и процессы языковой коммуникации, …)
NB: Держаться терминологического мейнстрима (ontological commitments)Источники:
- энциклопедические словари
- корпус текстов, частотные словаричастотные_словари_MI_corp.xls
NB: не так много имен собственно лингвистических объектов.
Методология
Общепринятая практика:
• Отбор значимых для предметной / проблемной области концептов.
• Категоризация терминов
• Дальнейшая внутрикатегорная систематизация - построение таксономии.
• Установление нетаксономических отношений
• Построение формальных толкований сложных концептов
Методология
Существенное дополнение -
построение онтологии, рассчитываемой на многократное применение, предполагает стремление к логической полноте концептуальной системы.
При добавлении в онтологию имени некоторого подкласса всегда полезно задаться вопросами:- из какого исходного класса выделен данный подкласс?- по какому основанию он выделен?- и самое главное: какие еще подклассы могут быть выделены по данному основанию из данного исходного класса? (или, лучше, - какой набор подклассов получается разбиением
исходного класса по данному основанию?).
Методология
Пример:
Функционально самодостаточный (исходный) объект в системе лингвистической терминологии - текстовое произведение.
(Текст, представляющий одно законченное сообщение, содержание одного коммуникационного акта, основная коммуникационная единица.)
(ср. SUMO: Text - A &%LinguisticExpression or set of &%LinguisticExpressions
that perform a specific function related to &%Communication, e.g. express a discourse about a particular topic).
(Научная статья, монография или диссертация; роман, эссе или губермановский "гарик"; устав гарнизонной и караульной службы, закон о правах потребителей, инструкция по использованию лекарства, рекламный постер,
короткий приказ армейского командира в бою и т. д., и т. п.)
Другие лингвистические объекты (слова, фонемы, предложения,…) интересны и значимы постольку, поскольку они нужны для построения и детального описания этой основной. Они лишь "детали" и "узлы" для построения востребованного социумом "изделия".
Методология
Вопросы для разработчика – эксперта:
(1) Текстовое произведение -художественное произведение, деловой документ,
публицистическое произведение (функционально-коммуникативный тип текстового произведения)
(2) Деловой документ - научно-технический документ, нормативный документ, организационно-распорядительный документ, ценная бумага (по основной социальной функции делового документа*)
(1) Текстовое произведение (текстовый объект) -музыкальный объект, объект изобразительного искусства, утилитарный объект со знаковыми функциями
Результат – выход за пределы предметной области – обозначение направлений классификации для смежных ПО.
Средства описания
1) Категоризация концептов – объекты, признаки (атрибуты), процессы, (статические) отношения
2) Таксономия ("дерево признаков")
3) Встроенные нетаксономические отношения: часть-целое, локализация, …
4) Язык формальных толкований
Онтология не создает нового знания, а приводит в порядок существующее – часто на уровне трюизмов (морфема – часть слова)
Предварительная систематизация:
ТаблицаТаксономии.doc