Upload
victor-agroskin
View
10.971
Download
2
Embed Size (px)
DESCRIPTION
ТехИнвестЛаб.ру продолжает исследования в области автоматизированного извлечения информации из инженерных текстов на естественном языке. В презентации демонстрируются результаты обработки определений из нефте-газового словаря и построения справочных данных на их основе. Проект выполнялся с использованием софта ABBYY Compreno, разработанного и настроенного для работы с инженерными данными компанией ABBYY.
Citation preview
20.09.2013
Извлечение справочных данных из технических текстов на естественных языках
2
Первые попытки: Моделирование требований
Проект ОАО Росэнергоатом, июль 2011– Методология ручной обработки
технических заданий– Специальный софт для преобразования в
модель данных ISO 15926– Обработка типового ТЗ на АЭС:
• Размер выборки: 12 абзацев текста• Идентификация содержания: 16 требований, 3
классификатора• Модель: 96 объектов, 35 отношений
3
Семантическое моделирование технических документов
Методология TabLan, март 2012– Методология ручной обработки
технической документации (English)– Используя подмножество языка Gellish
http://sourceforge.net/apps/trac/gellish/
– Отображение на расширенный набор шаблонов ISO 15926-7
– Использует открытое расширение.15926 Editor для трансформации в модель данных ISO 15926
Можно скачать с http://techinvestlab.ru/TabLan/
4
Уроки моделирования документов
• Перспективы:– Верификация требований– Автоматизированная настройка IT систем
(классификаторы и справочники для CAD/CAM/PLM/ERP/и т.п.)
– Поддержка интеграции данных (генерация библиотек справочных данных)
– Трассировка требований к проектным решениям– Верификация проектных решений
• Проблемы:– Затраты ручного труда на моделирование– Большой объём «тупой» подготовительной работы– Необходимость участия специалистов инженерных
областях в работе на новом формальном языке– Фрагментированная IT архитектура в проектных
организациях – препятствие для повторного использования моделей
5
Необходимые условия для автоматизации моделирования
технических документов• Использование самых современных
достижений в компьютерной обработке естественного языка (синтаксис и семантика)
• Использование самых современных достижений онтологического моделирования естественного языка
• Обучение на образцах из специального корпуса естественного языка
• Контролируемый инженерный язык (по образцу Gellish) как промежуточная модель
• Формальное преобразование моделей в модели ISO 15926 и их верификация
Эксперименты сABBYY Compreno
Technology That Translates from Human
into Computer Language http://www.abbyy.ru/science/techno
logies/business/compreno
ComprenoAABBYY Syntactic and Semantic Parser выполняет точный и подробный анализ текстов на русском и английском языках, создавая прочный фундамент для решения главной задачи приложения на высоком уровне.
JОбласть применения
●- Интеллектуальный корпоративный поиск
●- Автоматическое реферировании документов
●- Извлечение фактов из больших объемов информации
●- Мониторинг СМИ и социальных сетей с последующим анализом тональности найденных сообщений
●- Другие приложения, включающие анализ текстов
.15926 Editor: инструментарий ISO 15926
8
Система онтологического программирования:- просмотр, создание, поиск и преобразование данных в форматах стандарта ISO 15926;- поддержка множественности неймспейсов, работа с серверами SPARQL;- консоль онтологического программирования на языке Python;- распознавание онтологических паттернов;Работа будет продолжаться в направлениях:- разработка адапторов для различных инженерных (и не только инженерных) применений;- интерфейсная поддержка exploratory programming; - развитие возможностей онтологического программирования (подъем уровня языка работы с онтологическими данными, разработка верификаторов, reasoners, средств эволюции онтологий и т.д.).Скачать с http://techinvestlab.ru/dot15926Editor/
08.04.23
9
Пилотный проект• ABBYY Compreno
• Использование самых современных достижений в компьютерной обработке естественного языка (синтаксис и семантика)
• Использование самых современных достижений онтологического моделирования естественного языка
• Обучение парсера ABBYY Compreno на корпусе инженерных текстов• Образцы текстов профессионального подмножества естественного
языка • Моделирование отдельных инженерных текстов• Извлечение инженерной онтологии объектов и отношений
• .15926 Editor• Отображение инженерной онтологии объектов и отношений на
онтологию ISO 15926-2 • Формальное преобразование моделей в модели ISO 15926 и их
верификация• Публикация в семантическом формате справочных данных ISO
15926-8
Извлечение онтологической информации "Эта система состоит из двух объемов: сухой бокс и
мокрый бокс" (ABBYY Compreno).
08.04.23 10
Формирование справочных данных на основе онтологического разбора (.15926 Editor)
08.04.23 11
Извлечение онтологической информации "Внутренние поверхности должны быть гладкими для
уменьшения отложения продуктов коррозии и упрощения дезактивации" (ABBYY Compreno).
08.04.23 12
Формирование справочных данных на основе онтологического разбора (.15926 Editor)
08.04.23 13
Создание системы накопления справочных данных
Начальное наполнение на базе отраслевых глоссариев, тезаурусов, материалов отдельных исследований по стандартизации – обработка словарных определений.
Открытое предоставление специалистам отрасли и широкой публике (проектные, исследовательские, эксплуатационные, надзорные организации, органы стандартизации и т.д.) онтологической информации (интернет-портал).
Публичное обсуждение терминов и коллаборативное пополнение библиотеки заинтересованными лицами через wiki - инструменты.
Расширение библиотеки справочных данных путём обработки корпуса инженерных текстов на естественных языках специализированными инструментами извлечения и преобразования онтологий.
Использование словарей и тезаурусов для автоматизации переводов на иностранные языки, каталогизации (рубрикации, индексирования) в отраслевых и корпоративных электронных библиотеках и иных форматах электронного сбора и хранения знаний.
Использование библиотеки справочных данных для стандартизации терминологии проектной информации в системах CAD/PLM и каталогах и для автоматизированного обмена такой информацией в обменных форматах стандарта ISO 15926.
Apr 8, 2023 22
TechInvestLab.ru
Левенчук Анатолий ИгоревичБлог: http://ailev.ru
Почта: [email protected]
Агроскин Виктор ВладимировичПочта: [email protected]