22
20.09.2013 Извлечение справочных данных из технических текстов на естественных языках

Извлечение справочных данных из технических текстов на естественных языках

Embed Size (px)

DESCRIPTION

ТехИнвестЛаб.ру продолжает исследования в области автоматизированного извлечения информации из инженерных текстов на естественном языке. В презентации демонстрируются результаты обработки определений из нефте-газового словаря и построения справочных данных на их основе. Проект выполнялся с использованием софта ABBYY Compreno, разработанного и настроенного для работы с инженерными данными компанией ABBYY.

Citation preview

Page 1: Извлечение справочных данных из технических текстов на естественных языках

20.09.2013

Извлечение справочных данных из технических текстов на естественных языках

Page 2: Извлечение справочных данных из технических текстов на естественных языках

2

Первые попытки: Моделирование требований

Проект ОАО Росэнергоатом, июль 2011– Методология ручной обработки

технических заданий– Специальный софт для преобразования в

модель данных ISO 15926– Обработка типового ТЗ на АЭС:

• Размер выборки: 12 абзацев текста• Идентификация содержания: 16 требований, 3

классификатора• Модель: 96 объектов, 35 отношений

Page 3: Извлечение справочных данных из технических текстов на естественных языках

3

Семантическое моделирование технических документов

Методология TabLan, март 2012– Методология ручной обработки

технической документации (English)– Используя подмножество языка Gellish

http://sourceforge.net/apps/trac/gellish/

– Отображение на расширенный набор шаблонов ISO 15926-7

– Использует открытое расширение.15926 Editor для трансформации в модель данных ISO 15926

Можно скачать с http://techinvestlab.ru/TabLan/

Page 4: Извлечение справочных данных из технических текстов на естественных языках

4

Уроки моделирования документов

• Перспективы:– Верификация требований– Автоматизированная настройка IT систем

(классификаторы и справочники для CAD/CAM/PLM/ERP/и т.п.)

– Поддержка интеграции данных (генерация библиотек справочных данных)

– Трассировка требований к проектным решениям– Верификация проектных решений

• Проблемы:– Затраты ручного труда на моделирование– Большой объём «тупой» подготовительной работы– Необходимость участия специалистов инженерных

областях в работе на новом формальном языке– Фрагментированная IT архитектура в проектных

организациях – препятствие для повторного использования моделей

Page 5: Извлечение справочных данных из технических текстов на естественных языках

5

Необходимые условия для автоматизации моделирования

технических документов• Использование самых современных

достижений в компьютерной обработке естественного языка (синтаксис и семантика)

• Использование самых современных достижений онтологического моделирования естественного языка

• Обучение на образцах из специального корпуса естественного языка

• Контролируемый инженерный язык (по образцу Gellish) как промежуточная модель

• Формальное преобразование моделей в модели ISO 15926 и их верификация

Page 6: Извлечение справочных данных из технических текстов на естественных языках

Эксперименты сABBYY Compreno

Technology That Translates from Human

into Computer Language http://www.abbyy.ru/science/techno

logies/business/compreno

Page 7: Извлечение справочных данных из технических текстов на естественных языках

ComprenoAABBYY Syntactic and Semantic Parser выполняет точный и подробный анализ текстов на русском и английском языках, создавая прочный фундамент для решения главной задачи приложения на высоком уровне.

JОбласть применения

●- Интеллектуальный корпоративный поиск

●- Автоматическое реферировании документов

●- Извлечение фактов из больших объемов информации

●- Мониторинг СМИ и социальных сетей с последующим анализом тональности найденных сообщений

●- Другие приложения, включающие анализ текстов

Page 8: Извлечение справочных данных из технических текстов на естественных языках

.15926 Editor: инструментарий ISO 15926

8

Система онтологического программирования:- просмотр, создание, поиск и преобразование данных в форматах стандарта ISO 15926;- поддержка множественности неймспейсов, работа с серверами SPARQL;- консоль онтологического программирования на языке Python;- распознавание онтологических паттернов;Работа будет продолжаться в направлениях:- разработка адапторов для различных инженерных (и не только инженерных) применений;- интерфейсная поддержка exploratory programming; - развитие возможностей онтологического программирования (подъем уровня языка работы с онтологическими данными, разработка верификаторов, reasoners, средств эволюции онтологий и т.д.).Скачать с http://techinvestlab.ru/dot15926Editor/

08.04.23

Page 9: Извлечение справочных данных из технических текстов на естественных языках

9

Пилотный проект• ABBYY Compreno

• Использование самых современных достижений в компьютерной обработке естественного языка (синтаксис и семантика)

• Использование самых современных достижений онтологического моделирования естественного языка

• Обучение парсера ABBYY Compreno на корпусе инженерных текстов• Образцы текстов профессионального подмножества естественного

языка • Моделирование отдельных инженерных текстов• Извлечение инженерной онтологии объектов и отношений

• .15926 Editor• Отображение инженерной онтологии объектов и отношений на

онтологию ISO 15926-2 • Формальное преобразование моделей в модели ISO 15926 и их

верификация• Публикация в семантическом формате справочных данных ISO

15926-8

Page 10: Извлечение справочных данных из технических текстов на естественных языках

Извлечение онтологической информации "Эта система состоит из двух объемов: сухой бокс и

мокрый бокс" (ABBYY Compreno).

08.04.23 10

Page 11: Извлечение справочных данных из технических текстов на естественных языках

Формирование справочных данных на основе онтологического разбора (.15926 Editor)

08.04.23 11

Page 12: Извлечение справочных данных из технических текстов на естественных языках

Извлечение онтологической информации "Внутренние поверхности должны быть гладкими для

уменьшения отложения продуктов коррозии и упрощения дезактивации" (ABBYY Compreno).

08.04.23 12

Page 13: Извлечение справочных данных из технических текстов на естественных языках

Формирование справочных данных на основе онтологического разбора (.15926 Editor)

08.04.23 13

Page 14: Извлечение справочных данных из технических текстов на естественных языках
Page 15: Извлечение справочных данных из технических текстов на естественных языках
Page 16: Извлечение справочных данных из технических текстов на естественных языках
Page 17: Извлечение справочных данных из технических текстов на естественных языках
Page 18: Извлечение справочных данных из технических текстов на естественных языках
Page 19: Извлечение справочных данных из технических текстов на естественных языках
Page 20: Извлечение справочных данных из технических текстов на естественных языках
Page 21: Извлечение справочных данных из технических текстов на естественных языках

Создание системы накопления справочных данных

Начальное наполнение на базе отраслевых глоссариев, тезаурусов, материалов отдельных исследований по стандартизации – обработка словарных определений.

Открытое предоставление специалистам отрасли и широкой публике (проектные, исследовательские, эксплуатационные, надзорные организации, органы стандартизации и т.д.) онтологической информации (интернет-портал).

Публичное обсуждение терминов и коллаборативное пополнение библиотеки заинтересованными лицами через wiki - инструменты.

Расширение библиотеки справочных данных путём обработки корпуса инженерных текстов на естественных языках специализированными инструментами извлечения и преобразования онтологий.

Использование словарей и тезаурусов для автоматизации переводов на иностранные языки, каталогизации (рубрикации, индексирования) в отраслевых и корпоративных электронных библиотеках и иных форматах электронного сбора и хранения знаний.

Использование библиотеки справочных данных для стандартизации терминологии проектной информации в системах CAD/PLM и каталогах и для автоматизированного обмена такой информацией в обменных форматах стандарта ISO 15926.

Page 22: Извлечение справочных данных из технических текстов на естественных языках

Apr 8, 2023 22

TechInvestLab.ru

Левенчук Анатолий ИгоревичБлог: http://ailev.ru

Почта: [email protected]

Агроскин Виктор ВладимировичПочта: [email protected]