Transcript
Page 1: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Откриване на взаимовръзки в

колекции от документи чрез ЛСА

Димитър Вулджев, НПМГ

Иван Стефанов, ПМГ Казанлък д-р Преслав Наков, Сингапурски университет

Page 2: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Какво представлява?

Вход: 30 стенограми от заседания на МС

Резултат: Йорданка Фъндъкова

Българо-албанска комисия за икономическо и търговско

сътрудничество

0,864

Page 3: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Какво представлява?

„Проект на Решение за одобряване на позицията и състава на българската делегация за участие в петата сесия на българо-албанска комисия за икономическо и търговско сътрудничество, която ще се проведе на 24 и 25 март 2011 г. в София.“

Page 4: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Латентен семантичен анализ

Съществуват латентни връзки между отделните думи.

1. Изграждане на честотна матрица;2. Декомпозиране по сингулярни стойности;3. Изчисляване на матрица, която съдържа

векторите на субектите.

Page 5: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Латентен семантичен анализ

Субект = реално съществуващ обект (имена на хора, градове, организации; термини и др.)

Page 6: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Какво получаваме?• Обща приложимост;• Откриване на индиректни (косвени) връзки;• Качество на резултатите ~ размер на

колекцията;

Page 7: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Операции със субекти

• Намиране на връзка между два субекта:o Евклидово разстояние;o Косинусова мярка;o Коефициент на Пиърсън.

• Извеждане на n най-близки по смисъл думи на даден субект;

• Групиране на субекти спрямо латентно значение (k-means);

• Намиране на връзка между документи.

Page 8: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Как да получим по-добри резултати?

• Стоп-думи;• Псевдоними;• Оценка на дума при честотната матрица:

o Брой срещания в док.;o Term Frequency – Inverse Document Frequency;

• Сегментация на думите;• Автоматизирано извличане на субекти (NER).• Повече документи!!!

Page 9: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Реализация• Многонишково изчисление на честотната

матрица;• Използване на ортогонален списък:

o 9674 док. с 74538 думи => 5,37GB; само 410MB ненулеви данни => 0,83GB

• Използване на хеш-таблици;• Четене на файлове чрез потоци;• Използване на високо оптимизирана C++

библиотека за ДСС.

Page 10: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Демонстрация на общата

приложимост…

Page 11: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Компютър срещу хора

Субект 1 Субект 2 Оценка човек

Оценка ЛСА

Кой?

мораториум

Яне Янев 0;0;0;1;0 => 0,2

0,64 ЛСА

Военно-въздушни сили на САЩ

Варна 0;0;0,2;0 => 0,04

0,36 ЛСА

Нефт Енергетика

1;1;1;1;1 => 1

0,86 Човек

Нефт ВЕИ 0,5;0,5;1;0 => 0,4

0,72 ЛСА

Република България

Росен Плевнелиев

1;1;1;1;1 => 1

0,49 Човек

Шеврон Фонд „Изследва-ния“

0,5;0;1;0;0,5 => 0,4

0,68 ЛСА

Page 12: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Демонстрация

Page 13: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Бъдещи перспективи• Провеждане на задълбочено проучване

относно качеството на резултатите с определена колекция от данни (голяма).

• Развиване на възможността за облачни изчисления.

Page 14: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Благодарностина: д-р Преслав Наков, г-ца Николова, Рая Юнакова

(Microsoft), доц. д-р Минчев и УчИМИ

Page 15: Откриване на  взаимовръзки в  колекции от  документи чрез  ЛСА

Благодарим Ви за вниманието!


Recommended