18
Розробка та прототипування систем Розробка та прототипування систем із елементами інтелектуального із елементами інтелектуального аналізу слабоструктурованих аналізу слабоструктурованих даних. Прогнозування соціальних, даних. Прогнозування соціальних, економічних, маркетингових та економічних, маркетингових та фінансових трендів. фінансових трендів. Павлишенко Б.М. Павлишенко Б.М. e-mail: [email protected] e-mail: [email protected] blog: bpavlyshenko.blogspot.com blog: bpavlyshenko.blogspot.com тел. +380505037290

Інтелектуальний аналіз слабоструктурованих даних

Embed Size (px)

DESCRIPTION

Інтелектуальний аналіз слабоструктурованих даних. Прогнозування соціальних, економічних, маркетингових та фінансових трендів у соціальних мережах.

Citation preview

Page 1: Інтелектуальний аналіз слабоструктурованих даних

Розробка та прототипування систем із Розробка та прототипування систем із елементами інтелектуального аналізу елементами інтелектуального аналізу

слабоструктурованих даних. слабоструктурованих даних. Прогнозування соціальних, Прогнозування соціальних,

економічних, маркетингових та економічних, маркетингових та фінансових трендів. фінансових трендів.

Павлишенко Б.М.Павлишенко Б.М.e-mail: [email protected]: [email protected]: bpavlyshenko.blogspot.comblog: bpavlyshenko.blogspot.com

тел. +380505037290

Page 2: Інтелектуальний аналіз слабоструктурованих даних

•Засоби прототипування: R, Python, Java•Для Big Data: Hadoop/MapReduce/Pig/Hive

В основі прототипування інтелектуальних систем є авторські розробки на основі теорії аналізу формальних концептів та теорії частих множин. Використання моделі гратки семантичних концептів дає можливість аналізувати семантично зв’язані множини лексем та будувати асоціативні правила.

Використання квантитативних характеристик інформаційних потоків для прогнозування маркетингових трендів та для аналізу відношення користувачів до тих чи інших товарів чи послуг (Opinion Mining).

Виявлення прогностичного потенціалу асоціативних правил в інформаційних потоках та їх використання у авторегресійних моделях (ARIMA, VAR) для прогнозування, зокрема, фінансових трендів на ринку акцій. Така модель враховує як минулу поведінку самого фінансового часового ряду компанії, так і часову динаміку кількісних характеристик асоціативних правил.

Page 3: Інтелектуальний аналіз слабоструктурованих даних

Аналіз спільнот та їх лідерів, які формують аналізовані тренди у соціальних мрежах. Аналіз наявності маніпулятивного формування відношення користувачів до того чи іншого товару чи економічного тренду.

Аналіз причинності на основі тестів Гранжера для виділення основних та підпорядкованих часових рядів, зокрема для інформаційних потоків, економічних показників тощо.

Побудова підсистеми рекомендацій для користувачів. Наприклад, у інтернет-магазині така система аналізує поведінку користувачів, їх покупки, їх відгуки на послуги чи товари. На основі активності користувача формується його семантичний профіль і здійснюється формування пропозицій цьому користувачу із врахуванням активності та рішень інших користувачів із подібними профілями. Такий підхід може суттєво скоротити час пошуку послуг та товарів користувачем та дати йому невідомі, але потрібні пропозиції, які виявлені на основі активності інших подібних користувачів.

Page 4: Інтелектуальний аналіз слабоструктурованих даних

Аналіз фінансових твітів

Розроблений пакет “Tweet Miner for Stock Market”

Page 5: Інтелектуальний аналіз слабоструктурованих даних

Формування частих множин ключових слів із найбільшим значенням підтримки

Приклади частих множин та величини їх підтримки:{aapl, apple} (0.7357955), {apple, stocks} (0.5227273), {aapl, stock}(0.4687500), {aapl, apple, stock} (0.4289773),

Аналіз фінансових твітів

Page 6: Інтелектуальний аналіз слабоструктурованих даних

Аналіз фінансових твітівАналіз причинного зв”язку між частими множинами у твітах та курсом акцій Apple.

Отримані результати показують можливість прогнозування курсу акцій на основі інтелектуального аналізу текстових потоків соціальних мереж.

Page 7: Інтелектуальний аналіз слабоструктурованих даних

test 1Granger causality testModel 1: V3 ~ Lags(V3, 1:1) + Lags(V2, 1:1)Model 2: V3 ~ Lags(V3, 1:1)Res.Df Df F Pr(>F) 1 87 2 88 -1 10.05 0.002103 **---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

test 2Granger causality testModel 1: V2 ~ Lags(V2, 1:1) + Lags(V3, 1:1)Model 2: V2 ~ Lags(V2, 1:1)Res.Df Df F Pr(>F)1 87 2 88 -1 0.3261 0.5694

Аналіз фінансових твітів

Тест Гранжера на причинний зв”язок між кількісними характеристиками повідомлень Twitter та курсом акцій Apple

Прогнозування на основі ARIMA моделі

Прогнозування на основі VAR моделі

Page 8: Інтелектуальний аналіз слабоструктурованих даних

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Page 9: Інтелектуальний аналіз слабоструктурованих даних

Олімпійський фінал із тенісу (2012)

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Page 10: Інтелектуальний аналіз слабоструктурованих даних

Прогнозування фаворитів Eurovision 2013

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Перед фіналом Eurovision 2013 ми опублікували у блозі прогноз лідера та фаворитів конкурсу, що пізніше співпало із результатами голосування.

Page 11: Інтелектуальний аналіз слабоструктурованих даних

Аналіз трендів подорожей

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Page 12: Інтелектуальний аналіз слабоструктурованих даних

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Аналіз трендів подорожей

Page 13: Інтелектуальний аналіз слабоструктурованих даних

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Маркетинговий аналіз концепту iPhone

Page 14: Інтелектуальний аналіз слабоструктурованих даних

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Маркетинговий аналіз концепту iPhone

Page 15: Інтелектуальний аналіз слабоструктурованих даних

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

У дослідженні ми аналізуємо наявність можливого зв"язку між суспільною думкою користувачів твітера та прийняттям рішень особами, які мають вагу у суспільстві. Цей аналіз ми проводимо на прикладі обговорень можливого імені народженого у липні 2013 року британського принца. В аналізі використовуються методи кількісної обробки природньої мови, теорії частих множин, алгоритми візуального відображення спільнот користувачів. Проаналізована часова динаміка частот ключових слів. Показано, що основне прогнозоване ім"я було домінуючим у спектрі імен перед офіційним оголошенням імені. При використанні теорії частих множин показано, що повне ім"я із трьох складових імен входило у топ 5 частих множин за величиною підтримки. Показано, що структура динамічно утворених спільнот користувачів, які взяли участь у обговоренні, визначається, лише декількома лідерами, які мають суттєвий вплив на формування позиції інших користувачів.

Прогнозування імені британського принца

Page 16: Інтелектуальний аналіз слабоструктурованих даних

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Прогнозування імені британського принца

Основне прогнозоване ім"я George було домінуючим у спектрі імен перед офіційним оголошенням імені. 10 перших частих множин утворені п”ятьма іменами, три із яких є складовими повного імені принца George Alexander Louis.

Page 17: Інтелектуальний аналіз слабоструктурованих даних

Приклади проведених тестових досліджень семантичних концептів у повідомленнях Twitter

Прогнозування імені британського принца

Виявлені спільноти користувачів, які формували тренди обговорення

Page 18: Інтелектуальний аналіз слабоструктурованих даних

Більше тестових прикладів та результатів досліджень можна знайти у блозі http://bpavlyshenko.blogspot.com

Богдан Павлишенко,доцент факультету електроніки ЛНУ, канд.фіз-мат.наук,e-mail: [email protected] , tel. +380505037290

Дякую за увагу !