Інтелектуальний аналіз слабоструктурованих даних

Розробка та прототипування систем із Розробка та прототипування систем із елементами інтелектуального аналізу елементами інтелектуального аналізу

слабоструктурованих даних. слабоструктурованих даних. Прогнозування соціальних, Прогнозування соціальних,

економічних, маркетингових та економічних, маркетингових та фінансових трендів. фінансових трендів.

Павлишенко Б.М.Павлишенко Б.М.e-mail: [email protected]: [email protected]: bpavlyshenko.blogspot.comblog: bpavlyshenko.blogspot.com

тел. +380505037290

•Засоби прототипування: R, Python, Java•Для Big Data: Hadoop/MapReduce/Pig/Hive

В основі прототипування інтелектуальних систем є авторські розробки на основі теорії аналізу формальних концептів та теорії частих множин. Використання моделі гратки семантичних концептів дає можливість аналізувати семантично зв’язані множини лексем та будувати асоціативні правила.

Використання квантитативних характеристик інформаційних потоків для прогнозування маркетингових трендів та для аналізу відношення користувачів до тих чи інших товарів чи послуг (Opinion Mining).

Виявлення прогностичного потенціалу асоціативних правил в інформаційних потоках та їх використання у авторегресійних моделях (ARIMA, VAR) для прогнозування, зокрема, фінансових трендів на ринку акцій. Така модель враховує як минулу поведінку самого фінансового часового ряду компанії, так і часову динаміку кількісних характеристик асоціативних правил.

Аналіз спільнот та їх лідерів, які формують аналізовані тренди у соціальних мрежах. Аналіз наявності маніпулятивного формування відношення користувачів до того чи іншого товару чи економічного тренду.

Аналіз причинності на основі тестів Гранжера для виділення основних та підпорядкованих часових рядів, зокрема для інформаційних потоків, економічних показників тощо.

Побудова підсистеми рекомендацій для користувачів. Наприклад, у інтернет-магазині така система аналізує поведінку користувачів, їх покупки, їх відгуки на послуги чи товари. На основі активності користувача формується його семантичний профіль і здійснюється формування пропозицій цьому користувачу із врахуванням активності та рішень інших користувачів із подібними профілями. Такий підхід може суттєво скоротити час пошуку послуг та товарів користувачем та дати йому невідомі, але потрібні пропозиції, які виявлені на основі активності інших подібних користувачів.

Аналіз фінансових твітів

Розроблений пакет “Tweet Miner for Stock Market”

Формування частих множин ключових слів із найбільшим значенням підтримки

Приклади частих множин та величини їх підтримки:{aapl, apple} (0.7357955), {apple, stocks} (0.5227273), {aapl, stock}(0.4687500), {aapl, apple, stock} (0.4289773),


Аналіз фінансових твітівАналіз причинного зв”язку між частими множинами у твітах та курсом акцій Apple.

Отримані результати показують можливість прогнозування курсу акцій на основі інтелектуального аналізу текстових потоків соціальних мереж.

test 1Granger causality testModel 1: V3 ~ Lags(V3, 1:1) + Lags(V2, 1:1)Model 2: V3 ~ Lags(V3, 1:1)Res.Df Df F Pr(>F) 1 87 2 88 -1 10.05 0.002103 **---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

test 2Granger causality testModel 1: V2 ~ Lags(V2, 1:1) + Lags(V3, 1:1)Model 2: V2 ~ Lags(V2, 1:1)Res.Df Df F Pr(>F)1 87 2 88 -1 0.3261 0.5694


Тест Гранжера на причинний зв”язок між кількісними характеристиками повідомлень Twitter та курсом акцій Apple

Прогнозування на основі ARIMA моделі

Прогнозування на основі VAR моделі

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Олімпійський фінал із тенісу (2012)


Прогнозування фаворитів Eurovision 2013


Перед фіналом Eurovision 2013 ми опублікували у блозі прогноз лідера та фаворитів конкурсу, що пізніше співпало із результатами голосування.

Аналіз трендів подорожей



Аналіз трендів подорожей


Маркетинговий аналіз концепту iPhone


Маркетинговий аналіз концепту iPhone


У дослідженні ми аналізуємо наявність можливого зв"язку між суспільною думкою користувачів твітера та прийняттям рішень особами, які мають вагу у суспільстві. Цей аналіз ми проводимо на прикладі обговорень можливого імені народженого у липні 2013 року британського принца. В аналізі використовуються методи кількісної обробки природньої мови, теорії частих множин, алгоритми візуального відображення спільнот користувачів. Проаналізована часова динаміка частот ключових слів. Показано, що основне прогнозоване ім"я було домінуючим у спектрі імен перед офіційним оголошенням імені. При використанні теорії частих множин показано, що повне ім"я із трьох складових імен входило у топ 5 частих множин за величиною підтримки. Показано, що структура динамічно утворених спільнот користувачів, які взяли участь у обговоренні, визначається, лише декількома лідерами, які мають суттєвий вплив на формування позиції інших користувачів.

Прогнозування імені британського принца



Основне прогнозоване ім"я George було домінуючим у спектрі імен перед офіційним оголошенням імені. 10 перших частих множин утворені п”ятьма іменами, три із яких є складовими повного імені принца George Alexander Louis.



Виявлені спільноти користувачів, які формували тренди обговорення

Більше тестових прикладів та результатів досліджень можна знайти у блозі http://bpavlyshenko.blogspot.com

Богдан Павлишенко,доцент факультету електроніки ЛНУ, канд.фіз-мат.наук,e-mail: [email protected] , tel. +380505037290

Дякую за увагу !

Business

Інтелектуальний аналіз слабоструктурованих даних