Upload
ontico
View
227
Download
4
Embed Size (px)
Citation preview
Принципы извлечения и структурирования информации
из описательного текста
Евгений Ветров
Пустой Слайд
Data Mining Extraction
Извлечение ХарактеристикСтруктурирование
Семантическая Разметка
The Rock
Demo
Next Challenge
Результат• ~ 0.015 ER• В продакшене (beta)
Первый Шаг
PoS
PoS TaggingПродаю /Verb квартиру /Noun недалеко /Adverb от /Preposition Таганки /Proper_Noun
Семантический анализ предложений
Стилистика ОЧЕНЬ важна
Стилистика. Case #1
Стилистика. Case #2
Divide et Impera• Выделение предложений• Выделение фраз
TokenizationПродаю двухкомнатную квартиру 50 кв.Продаю /wordдвух /numberквартиру /word50 /numberкв /word. /point
Форматирование текста
Punctuation Hell• 10,000 рублей• 2.5 млн• 20,40,30 и 15 м2
Значение где-то рядом
Вариации имени свойстваапартаменты = квартира = кв.кв. = квадратный метркомната = комн. = ком. = к.
Синонимы и акронимы• Словари и Тезаурусы• Частотный Анализ
Частотный анализ
Частотный анализ
Boolean FeaturesПродажа… ипотека
Продажа… ипотека невозможна
Self descriptive values
Исключения из правил• Ленинская площадь 20• на 1-ом этаже спортзал
Верификация результата• Инварианты10 этаж 5 этажного дома• Регрессионный анализ
Типы ошибок извлечения• Характеристика не извлечена• Неправильное значение хар-ки• Несуществующая хар-ка
Наборы данных
• Обучающий набор• Тестовый набор
ИТОГО
• Ориентированность на домен
• Статистика
Спасибо!
Буду рад ответить на ваши вопросы:Евгений Ветров – [email protected]