23
© Findwise 2015-01-23 Sentiment Analysis Demo Marcin Goss, Natalia Głowacka

Wprowadzenie do analizy sentymentu

Embed Size (px)

Citation preview

© Findwise 2015-01-23

! When using first time: 1. Save as a .potx

PowerPoint template into “My templates”.

2. Make sure you have Helvetica, Univers and Calibri installed.

Findwise fonts and other templates are found in the global SugarSync shared folder: Wisenet/Assets/templates For questions or feedback contact: Frida Erhard.

Sentiment Analysis Demo

Marcin Goss, Natalia Głowacka

Analiza wydźwięku

• Jakie jest nastawienie autora tekstu

• W całym tekście

• W poszczególnych zdaniach

• W stosunku do obiektów / pojęć występujących w tekście

• Kiedy potrzebujemy automatycznej analizy wydźwięku?

• Wiele tekstów

• Teksty nie są otagowane

• Istniejące tagi są niewystarczające

Analiza wydźwięku - nastawienie

• Właściciel nastawienia

• Cel / aspekt nastawienia

• Typ nastawienia

• Lubienie, optymizm, wartościowanie, zaufanie, znajomość

• Polarność

• Wartość nastawienia

• Lubie / nie lubie (+neutralne)

• 50%

• Wystąpienie nastawienia

„Zupełnie nie podobał mi się kolor ścian w salonie”

Aspekty

gastronauci.pl (RIP)

Aspekty

opineo.pl

Przykłady zastosowań

• Film – czy ta recenzja jest pozytywna czy negatywna

• Produkt – co inni ludzie myślą o nowym iPhonie

• Rynek – jakie są komentarze klientów o naszej firmie? Jakie są ich komentarze na temat konkurencji

• Polityka – jakie jest nastawienie ludzi w stosunku do konkretnego kandydata albo w stosunku do proponowanej reformy

• Przewidywanie – jaki będzie wynik wyborów albo czy czeka nas hossa na rynku mieszkaniowym patrząc na tweety wszystkich użytkowników.

Podejścia

• Metody słownikowe

• Budowane ręcznie / (pół)automatycznie

• Metody statystyczne

• Zbiory trenujące

• Różne rodzaje zmiennych opisujących (features)

• Słowa

• Wspólwystępowanie słów

• Interpunkcja

• Składnia

• Emoticony

• itd

Podejścia

• Analiza na poziomie językowym

• http://nlp.stanford.edu/sentiment/

Demo Findwise

• Podejście słownik + reguły

• Kilka tysięcy artykułów z popularnego serwisu informacyjnego

• 3 kategorie tekstów

• Kultura

• Sport

• Technologia

• Klasyfikacja dokumentów oraz osób w nich występujących

• Demo Findwise - podejście słownikowe

• Podejście słownikowe — dlaczego?

• Ilość danych w korpusie

• Szerszy dostępny kontekst

• Kategorie słownictwa 1 - POZ, NEG, MOC, SLA, NIE

• Wartości

• Kategorie słownictwa 2 - sport, technologia, kultura

• Demo Findwise - podejście słownikowe

• Fazy:

• Lista podstawowa słów w jednej kategorii, rozszerzenie (seed words)

• Oczyszczanie listy wyjściowej

• Sprawdzenie w praktyce (387 słów)

• Rozszerzenie listy (1359 słów): listy frekwencyjne

• Reguły negacji

• Podział na zdania pojedyncze

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

• Pozytywne o Wartości dodatnie wydźwięku

o Fajny: 5, Ambitny 6

• Negatywne o Wartości ujemne wydźwięku

o Brudny: -4, Brutalny -6

• Negacja o Wartość ujemna, jeżeli sąsiaduje ze słowem pozytywnym.

Wartośc dodatnia jeżeli sąsiaduje ze słowem negatywnym.

o „nie skoczył idealnie”, „nie jest kiepski”

• Wzmacniające/osłabiające o Mnożnik do pozostałych sformułowań:

o Całkowicie: 190%, Nieco: 30%

Słowniki – wykorzystanie

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

„ale zdecydował się dostarczyć również ciekawe modele TV dla zwolenników technologii LED LCD.”

Zdecydował – MOC – 180%

Ciekawy – POZ – 6

Technologia – POZ – 2

Zdecydował * (Ciekawy + Technologia) = 14,40

Obliczanie wydźwięku, przykłady

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

„z nie do końca poprawnie zabezpieczonymi aplikacjami webowymi.”

Nie – NIE – (6 / -6)

Poprawny – POZ – 4

Nie + Poprawny= -2

Obliczanie wydźwięku, przykłady

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

„co czyni maszyny podatne na infekcje wirusami oraz złośliwym oprogramowaniem”

Wirus – NEG – (-8)

Złośliwy – NEG – (-6)

Wirus + Złośliwy = -14

Obliczanie wydźwięku, przykłady

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

o Obliczanie wartości wydźwięku dla fraz

• Lokalne działanie negacji

• Lokalne działanie fraz wzmacniających i osłabiających

• Przypisywanie wydźwięku do osób występujących w tekście

o Wydźwięk dokumentu jest średnią z wydźwięków jego fraz

o Wydźwięk w stosunku do osób to średni wydźwięk fraz, w których ta osoba wystąpiła

Dodatkowe założenia

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

o Zdanie (szczególnie wielokrotnie złożone) jest zbyt dużym fragmentem, by nazwać działanie sformułowań wzmacniających „lokalnym”.

• „Janek był bardzo słaby, ale o Kamilu nic nie wiem.”

o Słownik spójników

• ale, i, oraz, lub, , , ;

o Fraza musi zawierać czasownik nie będący bezokolicznikiem

• Morfologik

„Toyota jest duża, ładna i szybka, ale to Honda wygrała w tym roku nagrodę Szopena.”

Podział na frazy

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

o Zdanie (szczególnie wielokrotnie złożone) jest zbyt dużym fragmentem, by nazwać działanie sformułowań wzmacniających „lokalnym”.

• „Janek był bardzo słaby, ale o Kamilu nic nie wiem.”

o Słownik spójników

• ale, i, oraz, lub, , , ;

o Fraza musi zawierać czasownik nie będący bezokolicznikiem

• Morfologik

„Toyota jest duża, ładna i szybka, ale to Honda wygrała w tym roku nagrodę Szopena.”

Podział na frazy

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

o Zdanie (szczególnie wielokrotnie złożone) jest zbyt dużym fragmentem, by nazwać działanie sformułowań wzmacniających „lokalnym”.

• „Janek był bardzo słaby, ale o Kamilu nic nie wiem.”

o Słownik spójników

• ale, i, oraz, lub, , , ;

o Fraza musi zawierać czasownik nie będący bezokolicznikiem

• Morfologik

„Toyota jest ładna, duża i szybka, ale”

„to Honda wygrała w tym roku nagrodę Szopena”

Podział na frazy

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

o Wykrywanie osób w tekście

o Filotrowanie dokumentów po wartości wydźwięku

o Sortowanie dokumentów po wartości wydźwięku

o Wydźwięk skierowany na osobe w dokumencie

o Wydźwięk całego dokumentu

o Wydźwięk poszczególnych fraz

o Podgląd słów wpływających na ocenę wydźwięku

Demo - funkcjonalność

• Parsowanie drzewa zdania — większa dokładność obliczania orientacji semantycznej.

• Duża zależność słownika od kontekstu — może nie być tak skuteczny po wprowadzeniu działu polityka albo moda.

• Słowa do dodania — osadzenie słownika w słowniku?

Demo Findwise - ewaluacja

List levels

Click tab to decrease list level or shift + tab to increase list level.

Or use these buttons:

• http://nlp.stanford.edu/sentiment/

• http://www.lct-master.org/files/MullenSentimentCourseSlides.pdf

• https://class.coursera.org/nlp/lecture

• http://morfologik.blogspot.com/

Lektury

© Findwise 2015-01-23

[email protected]