Технология полнотекстового поиска в мультиязычных ...

ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ

СЕТЕВЫХ РЕСУРСАХ

Д.В. Ландэ1,2, д.т.н., В.В. Жигало2

1Институт проблем регистрации информации НАН Украины

2Информационный центр «ЭЛВИСТИ»

Казань-2012

T E L ' 2 0 1 2«Корпусы национальных языков:модели и технологии»

Несколько слов о технологииНесколько слов о технологииконтент-мониторингаконтент-мониторинга

200 250 360600

35004000

2000 2002 2004 2006 2008 2010

Основные Основные характеристикихарактеристики

Процедура выявления дубликатов:- подключение морфологических словарей;- создание частотных словарей - обучение системы;- подключение словарей переводов;- выявление опорных слов в документах;- сравнение опорных слов.

СТАТИСТИЧЕСКИ-ЛЕКСИКОГРАФИЧЕСКИЙ АЛГОРИТМСТАТИСТИЧЕСКИ-ЛЕКСИКОГРАФИЧЕСКИЙ АЛГОРИТМВЫЯВЛЕННЯ РАЗНОЯЗЫЧНЫХ ДУБЛИКАТОВВЫЯВЛЕННЯ РАЗНОЯЗЫЧНЫХ ДУБЛИКАТОВ

ИЗВЛЕЧЕНИЕ И ИЗВЛЕЧЕНИЕ И ПЕРЕВОД ОПОРНЫХ СЛОВПЕРЕВОД ОПОРНЫХ СЛОВ

Частотный словарьукраинских словоформ Частотный словарь

русских словоформ

Словарь переводоврус. - укр.

Словарь переводовукр. - рус.

Документы Документы

Входной потокВыходной поток

Для русского и украинского языков были использованы свободно доступные электронные словари: ispell с набором более 1 млн. словоформ и «Словники України», c набором более 4 млн. словоформ, а также словарь Зализняка, который насчитывает порядка 100 тыс. слов.

Эксперты дополнили морфологические словари неологизмами, названиями известных фирм, брендов и известными фамилиями, которых не было в исходных словарях.

МОРФОЛОГИЧЕСКИЕ СЛОВАРИМОРФОЛОГИЧЕСКИЕ СЛОВАРИ

Для обучения частотных морфологических словарей взяты электронные публикации новостей, полученные из Интернет с помощью системы контент-мониторинга InfoStream. «Обучение» словарей проводится в несколько этапов. Первый этап - разделение документов на словоформы и сохранение полученных словоформ и номеров соответствующих документов. На втором этапе подсчитывается количество вхождений каждой словоформы, и количество документов в которых она встретилась. Определяется вероятная нормальная форма каждого слова. Для выявления омонимии сохраняются все нормальные формы соответствующие словоформе, т. е. если одной словоформе соответствует сразу несколько нормальных форм, сохраняются подсчитанные частоты со всеми найденными нормальными формами. На третьем этапе происходит заключительный подсчет количества нормальных форм и сохранение результатов в частотный словарь.

ЧАСТОТНЫЕ СЛОВАРИЧАСТОТНЫЕ СЛОВАРИ

«ОБУЧЕНИЕ» ЧАСТОТНОГО СЛОВАРЯ«ОБУЧЕНИЕ» ЧАСТОТНОГО СЛОВАРЯ

При реализации алгоритма происходит считывание текстового документа из входного потока, после чего выполняется выделение словоформ и поиск нормальной формы для каждой из них. В случае контекстной неоднозначности, выбирается наиболее частотная (с наибольшим индексом) по словарю нормальная форма словоформы.

После вычисления соответствующих весовых коэффициентов с помощью формулы Okapi BM25 происходит ранжирование нормализованных слов и выбирается двенадцать наиболее «весомых».

Использовался лишь относительно небольшой, но, по-видимому, самый существенный для данной задачи срез - множество имен существительных, дополненное некоторыми фамилиями, аббревиатурами, названиями компаний.

Полученные двенадцать опорных слов переводятся на другой язык с помощью словарей переводов. Все опорные слова и слова-переводы приписываются к документу.

ОПРЕДЕЛЕНИЕ ОПОРНЫХ СЛОВОПРЕДЕЛЕНИЕ ОПОРНЫХ СЛОВ

Okapi BM25Okapi BM25

В предложенной процедуре индексирования для выделения наиболее значимых термов использовался статистический метод, базирующийся на применении общеизвестного подхода TF IDF, а точнее его модификации Okapi BM25, в которой каждому терму из документа приписывается вес по формуле:

где f(t,D) - частота встречаемости терма t в документе D, |D| - длина документа D, L - средняя длина документа в коллекции текстов, общее количество которых - N, n(t) - количество документов в коллекции, содержащих данный терм, k, b - параметры, выбираемые экспертами.

В системе InfoStream используется механизм поиска дубликатов, который позволяет с помощью опорных слов находить подобные документы, представленные на одном языке. В этом механизме 6 опорных слов исследуемого документа, сравниваются с 12-ю опорными словами каждого из документов корпуса.

ВЫЯВЛЕНИЕ ДУБЛИКАТОВВЫЯВЛЕНИЕ ДУБЛИКАТОВ

Процедура сравнения была дополнена рядом эвристических критериев, например:• общее количество слов в переведенном варианте

не должно отличаться от оригинала более чем на 10%;• количество чисел в документах не должно отличатся

больше чем на два.

ХАРАКТЕРИСТИКИ КОРПУСАХАРАКТЕРИСТИКИ КОРПУСА

Общее количество слов в корпусе составляет более 192,7 млн., из которых 96 млн. из украинских документов, 96.7 млн. – из русских документов. Средняя длина документа в корпусе составляет 195 слов для украинского и 196 слов для русского.Количество источников документов на украинском языке содержащихся в корпусе – 997. Количество источников документов на русском языке – 1768.

ФОРМИРОВАНИЕ ОСНОВНЫХ СЮЖЕТОВФОРМИРОВАНИЕ ОСНОВНЫХ СЮЖЕТОВ

ПОИСКОВЫЙ ИНТЕРФЕЙС – ПОИСКОВЫЙ ИНТЕРФЕЙС – ОБЗОР ОСНОВНЫХ СЮЖЕТОВОБЗОР ОСНОВНЫХ СЮЖЕТОВ

Фрагмент параллельного Фрагмент параллельного корпусакорпуса

Онлайн-интерфейс – Онлайн-интерфейс – сайт сайт http://ling.infostream.uahttp://ling.infostream.ua

Режим поиска – сайт Режим поиска – сайт http://ling.infostream.uahttp://ling.infostream.ua

Описание ресурса – сайт Описание ресурса – сайт http://ling.infostream.uahttp://ling.infostream.ua

Спасибо за Спасибо за внимание!внимание!

Казань-2012

T E L ' 2 0 1 2«Корпусы национальных языков:модели и технологии»

Технология полнотекстового поиска в мультиязычных ...

Documents

Предисловие - edu.postgrespro.ru · ные функции, хранимые функции, триггеры и т. д.; • гибкая система полнотекстового

Опрос. Потребность кредитных кооперативов в дополнительных финансовых ресурсах

НА САЙТ укрany-type-tour.com/Lviv/data/Predlozheniye_dlya... · Лінк на сайт розміщений на ресурсах туристичних компаній

КОНЦЕПЦИЯ ПРОВЕДЕНИЯrps.ru/docs/Концепция проведения.pdf · Расскажите на собственных информационных ресурсах

О ГИДРОЭНЕРГЕТИЧЕСКИХ РЕСУРСАХ РОССИЙСКОЙ ФЕДЕРАЦИИ

П 1.58...разработанные в соответствии с П 1.58.01–2016 «Положение об электронных образовательных ресурсах

#12, Май'2005 :: Мультиязычные веб-приложения, cоздание мультиязычных шаблонов в Smarty

НА САЙТ рус - any-type-tour.comany-type-tour.com/Lviv/data/Predlozheniye_dlya_reklamodatetey_ru.pdf · Ссылка на сайт размещен на ресурсах туристических

Не говорю о : О протоколе IPv6 О том, как это в мире О ресурсах

Оставьте Job сайты в покое! Учимся искать и оценивать кандидатов на проф. ресурсах: GitHub, Stackoverflow, Dribbble,

Франшиза Frisor Barbershop...салона на наших медиа ресурсах - Instagram, Facebook, Youtube с общим охватом более 150 000 подписчиков

Бизнес-проект: Автономные системы освещения на возобновляемых природных ресурсах

Быль о частных облаках и зря потраченных ресурсах. Владимир мельник, СТО Tucha

о полнотекстовых электронных ресурсах, представленных в электронном

rosstat.gov.ru · Web view3.12. Информационное сопровождение в Интернет-СМИ и Интернет-ресурсах, включая организацию

Занятие по энергосбережению · 2014-12-03 · ресурсах все возрастают, и долгое время решался вопрос о том,

Новые возможности полнотекстового поиска в PostgreSQL / Олег Бартунов (Postgres Professional)

ГДЕ НАХОДИТСЯ КЫРГЫЗСКАЯ СОЦИОЛОГИЯ? …lib.knu.kg/wp-content/uploads/2019/07/motukeev_2.pdf · 2019-07-11 · Республики в Интернет-ресурсах

"Специфика верстки мультиязычных веб-приложений", Александр Тевосян, MoscowJS 20

xn--80aaiac8g.xn--p1aihttps://даггау.рф/images/biblioteka... · Web viewОтчет о новых ресурсах. Новые книги по коллекции. За период