30

Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa

Embed Size (px)

Citation preview

Hadoop ekosistem u praksi

Socijalne mreže - unapređenje prodaje i servisa

Vladimir Marković, Banca Intesa BeogradDarko Marjanović, Things SolverMiloš Milovanović, Things Solver

• Uvod (10 minuta)• Vizija i domen• Pet realnih scenarija korišćenja

• Hadoop ekosistem (10 minuta)• POC (25 minuta)• Zaključak (5 minuta)

Agenda

Uvod

• Identifikovanje problema • Vizija• Strateški cilj i zahtevi• POC domen• Pet realnih scenarija korišćenja

Identifikovanje problemaSocijalne mreže

Tekuće stanje

Poslovni problem

• Izbor i pregled objavljenih postova se izvodi ručno ili polu ručno• Marketing specijalista pretražuje postove po ključnim rečima• Objavljeni postovi se klasifikuju ručno i ne smeštaju se u bazu postova• Sentiment postova se ne deli u organizaciji• Mali broj korisnika je upoznat sa „stanjem“ u etru

• Broj postova raste skoro eksponecijalno• Marketing specijalsta identifikuje i klasifikuje samo one postove koji

mogu biti nađeni pomoću njegovih veština u raspoloživom vremenu• Domen pretrage je limitiran samo na blogere od interesa

• Dozvoljavaju pojedincu i kompaniji da iskaže svoje mišljenje• Ljudi objavljuju informacije, o sebi , prijateljima, šta vole ili ne, daju

mišljenja o servisima i proizvodima

Vizija

Big Data

Podrška poslovnim korisnicima

DWH/BI

• Hvatanje potencijalnih korisnika i „inbound marketing“ u realnom vremenu

• Community intelligence insight and „outbound marketing“• Influence marketing• Sentiment analiza objavljenih postova

• Struktuiranje i ocena postova• Distribucija postova svim zainteresovanim stranama• Integracija sa WF, call centar, aCI, razvojem proizvoda

• Uspostavljanje Hadoop okruženja• Prikupljanje, klasifikovanje i čuvanje postova od interesa

Strateški cilj i zahteviStrateški cilj

Poslovni zahtevi

Metrike

• Unapređenje procesa pretrage i prikupljanja postova na interentu• Unapređenje procesa izbora postova od interesa• Olakšati i unaprediti generisanje znanja i inicijativa• Real-time decision making

• FTE vs operativni troškovi• Broj inicijativa izvedenih na osnovu generisanog znanja i informacija• Prosečno vreme od objave posta do preduzimanja akcije

IT ciljevi• Upoznavanje sa novim tehnologijama Big Data & Hadoop• Usvajanje znanja o text mining i machine learning

• Umanjenje reputacionig rizika• Unapređenje razvoja korisničkih servisa i proizvoda• Odgovor na pitanje „Ko su naši klijenti?“

POC domen

Hadoop okruženje

Big data servisi

DWH/BI

• Twitter Live Stream Loader (TwLSL)• Twitter Post Selector (TwPS)• RSS Loader (RSSL)

• Real Time Data Mart (RTDM) – relaciona baza na MS SQL Server 2012• ETL: Hadoop HDFS à RTDM (SSIS)• Razvoj web aplikacije Social Sentiment & Sales (3S web application) -

ASP.NET AJAX

• Instalacija Hadoop okruženja na 4 radne stanice• HDFS, YARN, MapReduce, Tez. Nagios, Ganglia, Hive, Pig, Flume,...

Case 1: Decreasing reputational risk

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM

• Officer (using 3S web application)• searches published posts and finds the post• subscribes to comments, followers, likes, dislikes on the post• marks as extremly risky• redirects the post to marketing manager

• Marketing manager takes actions• All stakeholders can see reports on Information Delivery Portal• The report is refreshed automatically

Case 2: Capturing prospects

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM

• Officer (using 3S web application)• searches published posts and finds the post• redirects to Internet Sales Department

• Sales Adviser has decided to send personilzed ad• initiates the requestof personalized ad• Advertising Service sends to Twitter request for ad for specific Twitter user

or the post page (all readers of the post can see ad)• The ad contains unique identifier and response can be calculated• Pairing with customer is more likely, if the twitter user has allowed

cookie, and has used our e-bank application

Case 3: Service improvement

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM

• Officer (using 3S web application)• searches published posts and finds the post• redirects to IT Department & Product Development Department

• Web log is loaded into Hadoop ştorage (HDFS)• IT analyzes log (path log analysis) to check usage scenario• Development department initiates RfC

Case 4: Marketing campaign feedback

Case 5: Community and sales

• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETLin RTDM

• Officer (using 3S web application)• searches published posts and finds the post• redirects the post to CRM

• CRM initiates load of all followers of the author• Followers Service creates graph using

Twitter API • Clustering Service analyzes the graph and

determines the group of people „closest“ to satisfied customer (example red group)

• CRM prepares campaign• Adverising Service sends to Twitter request

for ad for the group of the followers

Hadoop okruženje

• HDFS• MapReduce• YARN• Obrada podataka na Hadoop-u• Hadoop i društvene mreže

Hadoop• Hadoop je open-source softver Apache fondacije.

• Služi za skladištenje i procesiranje velikih količina podataka.

• Napisan je u Java programskom jeziku.

• Osnovne komponente su: • Hadoop Common• HDFS• MapReduce• YARN

HDFSHDFS ili Hadoop distribuirani fajl sistem baziran na Java programskom jeziku,pruža pouzdan i skalabilan način za skladištenje velikih količina podataka.

MapReduce

HDFS

Data

MAP

MAP

MAP

REDUCE

REDUCE

Results

MapReduce je algoritam koji omogućava distribuiranu, paralelnu obradu velikih količina podataka naklasteru.

YARN• ResourceManager

• Scheduler – Alokacija resursa• ApplicationsManager – Prihvatanje poslova …

• Nove aplikacije na Hadoop-u (Real Time, Interactive…)• Veća iskorišćenost resursa

Hadoopobradapodataka● ApacheHive predstavljaDWHinfrastrukturunaHadoopokruženjukojaomogućava

analizuvelikihkoličinapodataka● Lakoseintegrišesaostalimtehnologijamaudatacentru● Omogućavapisanje“SQLlike”upita● HCatalogkomponentaprikazujepodatke tabelarno

● ApachePig jeplatformazaETLproceseiobraduvelikihkoličinapodatakanaHadoopokruženju

● KoristisezalakopisanjeMapReduceposlova● SadržiPigLatinupitnijezikzaobradupodataka● IntegrišesesaostalimalatimaHadoopokruženja

Društvene mreže• Polustrukturirani podaci, koji su u obično u JSON formatu

• Podatke sa društvenih mreža karakteriše i velika brzina generisanja

POC

• Gruba skica arhitekture• Twitter Live Stream Loader• Twitter Post Selector

• Appache Pig Loader• Hive Filter

• Prezentacioni sloj• SSIS ETL i Real Time Data Mart• 3S - AJAX.NET web aplikacija

Gruba skica arhitekture

Twitter Live Stream Loader

• Twitter Streaming API daje programerima pristuptwitter podacima, u realnom vremenu

• Flume je alat koji omogućava efikasno prikupljanjepodataka sa različitih izvora, i njihovo skladištenje uHDFS. Može se reći da se sastoji iz tri komponente:Source koji je definiše izvor podataka, Channel kojidefiniše kanal kojim podaci putuju i Sink koji definišedestinaciju podatka

Twitter PostSelector

Zadatak:● Kreiranje šeme za Twitter podatke● Učitavanje,strukturiranje iupisivanje

podatakautabele● Izdvajanje postova od interesa

Hive filterraw-tweets filtered-tweets

cron job (15 min)

Pig Loaderjson

Zahtevi:● Konzistentnost● Automatizovanost● Pouzdanost● Fleksibilnost

Apache Pig Loader

ETL (LTD) MapReduce transformacija sirovih podataka:• učitavanje podataka• transformacija• strukturiranje

Pig Latin +

Elephantbird

Hivetabela

Hivefilter

● Filtriranjepostova:○ pojeziku○ poključnimrečima○ pokorisniku○ pogeolokaciji○ ….

● Određivanjekategorijepostova● Blokiranje(ignorisanje) poključnimrečima

HiveQL(filter, category)

Real Time Data MartqRelaciona baza u 3NF (MS SQL Server 2012)qIzvor za 3S web aplikacijuqObjavljene strukture kroz BI alateqMogućnost izrade naprednih analiza i uparivanja sa klijentom

Social Sentiment & Sales (3S)

Takeaction – redirectthepost

Postassessment

Zaključak● Bigdatakao koncept i hadoop kao okruženje zaslužuju pažnju,kako zbog mogućnosti

čuvanja i obrade velike količine podataka različitih tipova i formata,tako i zbog mnoštva alatai gotovih komponenti koje seuglavnom nelicenciraju.

● Sektorigde preovladavaju struktuirani podaci klasični DHW/BIsistemi mogu pružiti više odhadoop sistema

● Sektori ukojima preovladavaju nestruktuirani podaci ili ogromne količine stuktuiranihpodataka (veličite PB),hadoop kao platforma može naći svoju primenu

● Bigdataprojektom uBankaIntezi pokazano jedakompanije,zavisno odsvoje potrebe,mogu imati uisto vreme i klasičanDWH/BIi hadoop sistem koji su udruženi utzv.hadoopekosistem.

● Trebauvekimatinaumudaobasistemaimasvojuulogu,aliobaimajuisticilj– podrškauodlučivanjuiunapređenjeposlovanja

● Genijalnostbigdatakonceptanisuizgrađeneogromne„planine“podatakavećpogledsvrha