Upload
darko-marjanovic
View
601
Download
1
Embed Size (px)
Citation preview
Hadoop ekosistem u praksi
Socijalne mreže - unapređenje prodaje i servisa
Vladimir Marković, Banca Intesa BeogradDarko Marjanović, Things SolverMiloš Milovanović, Things Solver
• Uvod (10 minuta)• Vizija i domen• Pet realnih scenarija korišćenja
• Hadoop ekosistem (10 minuta)• POC (25 minuta)• Zaključak (5 minuta)
Agenda
Uvod
• Identifikovanje problema • Vizija• Strateški cilj i zahtevi• POC domen• Pet realnih scenarija korišćenja
Identifikovanje problemaSocijalne mreže
Tekuće stanje
Poslovni problem
• Izbor i pregled objavljenih postova se izvodi ručno ili polu ručno• Marketing specijalista pretražuje postove po ključnim rečima• Objavljeni postovi se klasifikuju ručno i ne smeštaju se u bazu postova• Sentiment postova se ne deli u organizaciji• Mali broj korisnika je upoznat sa „stanjem“ u etru
• Broj postova raste skoro eksponecijalno• Marketing specijalsta identifikuje i klasifikuje samo one postove koji
mogu biti nađeni pomoću njegovih veština u raspoloživom vremenu• Domen pretrage je limitiran samo na blogere od interesa
• Dozvoljavaju pojedincu i kompaniji da iskaže svoje mišljenje• Ljudi objavljuju informacije, o sebi , prijateljima, šta vole ili ne, daju
mišljenja o servisima i proizvodima
Vizija
Big Data
Podrška poslovnim korisnicima
DWH/BI
• Hvatanje potencijalnih korisnika i „inbound marketing“ u realnom vremenu
• Community intelligence insight and „outbound marketing“• Influence marketing• Sentiment analiza objavljenih postova
• Struktuiranje i ocena postova• Distribucija postova svim zainteresovanim stranama• Integracija sa WF, call centar, aCI, razvojem proizvoda
• Uspostavljanje Hadoop okruženja• Prikupljanje, klasifikovanje i čuvanje postova od interesa
Strateški cilj i zahteviStrateški cilj
Poslovni zahtevi
Metrike
• Unapređenje procesa pretrage i prikupljanja postova na interentu• Unapređenje procesa izbora postova od interesa• Olakšati i unaprediti generisanje znanja i inicijativa• Real-time decision making
• FTE vs operativni troškovi• Broj inicijativa izvedenih na osnovu generisanog znanja i informacija• Prosečno vreme od objave posta do preduzimanja akcije
IT ciljevi• Upoznavanje sa novim tehnologijama Big Data & Hadoop• Usvajanje znanja o text mining i machine learning
• Umanjenje reputacionig rizika• Unapređenje razvoja korisničkih servisa i proizvoda• Odgovor na pitanje „Ko su naši klijenti?“
POC domen
Hadoop okruženje
Big data servisi
DWH/BI
• Twitter Live Stream Loader (TwLSL)• Twitter Post Selector (TwPS)• RSS Loader (RSSL)
• Real Time Data Mart (RTDM) – relaciona baza na MS SQL Server 2012• ETL: Hadoop HDFS à RTDM (SSIS)• Razvoj web aplikacije Social Sentiment & Sales (3S web application) -
ASP.NET AJAX
• Instalacija Hadoop okruženja na 4 radne stanice• HDFS, YARN, MapReduce, Tez. Nagios, Ganglia, Hive, Pig, Flume,...
Case 1: Decreasing reputational risk
• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM
• Officer (using 3S web application)• searches published posts and finds the post• subscribes to comments, followers, likes, dislikes on the post• marks as extremly risky• redirects the post to marketing manager
• Marketing manager takes actions• All stakeholders can see reports on Information Delivery Portal• The report is refreshed automatically
Case 2: Capturing prospects
• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM
• Officer (using 3S web application)• searches published posts and finds the post• redirects to Internet Sales Department
• Sales Adviser has decided to send personilzed ad• initiates the requestof personalized ad• Advertising Service sends to Twitter request for ad for specific Twitter user
or the post page (all readers of the post can see ad)• The ad contains unique identifier and response can be calculated• Pairing with customer is more likely, if the twitter user has allowed
cookie, and has used our e-bank application
Case 3: Service improvement
• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETL in RTDM
• Officer (using 3S web application)• searches published posts and finds the post• redirects to IT Department & Product Development Department
• Web log is loaded into Hadoop ştorage (HDFS)• IT analyzes log (path log analysis) to check usage scenario• Development department initiates RfC
Case 5: Community and sales
• The post is caught by TwLSL, transformed by TwPS, stored in Hadoop storage,sent by BI ETLin RTDM
• Officer (using 3S web application)• searches published posts and finds the post• redirects the post to CRM
• CRM initiates load of all followers of the author• Followers Service creates graph using
Twitter API • Clustering Service analyzes the graph and
determines the group of people „closest“ to satisfied customer (example red group)
• CRM prepares campaign• Adverising Service sends to Twitter request
for ad for the group of the followers
Hadoop• Hadoop je open-source softver Apache fondacije.
• Služi za skladištenje i procesiranje velikih količina podataka.
• Napisan je u Java programskom jeziku.
• Osnovne komponente su: • Hadoop Common• HDFS• MapReduce• YARN
HDFSHDFS ili Hadoop distribuirani fajl sistem baziran na Java programskom jeziku,pruža pouzdan i skalabilan način za skladištenje velikih količina podataka.
MapReduce
HDFS
Data
MAP
MAP
MAP
REDUCE
REDUCE
Results
MapReduce je algoritam koji omogućava distribuiranu, paralelnu obradu velikih količina podataka naklasteru.
YARN• ResourceManager
• Scheduler – Alokacija resursa• ApplicationsManager – Prihvatanje poslova …
• Nove aplikacije na Hadoop-u (Real Time, Interactive…)• Veća iskorišćenost resursa
Hadoopobradapodataka● ApacheHive predstavljaDWHinfrastrukturunaHadoopokruženjukojaomogućava
analizuvelikihkoličinapodataka● Lakoseintegrišesaostalimtehnologijamaudatacentru● Omogućavapisanje“SQLlike”upita● HCatalogkomponentaprikazujepodatke tabelarno
● ApachePig jeplatformazaETLproceseiobraduvelikihkoličinapodatakanaHadoopokruženju
● KoristisezalakopisanjeMapReduceposlova● SadržiPigLatinupitnijezikzaobradupodataka● IntegrišesesaostalimalatimaHadoopokruženja
Društvene mreže• Polustrukturirani podaci, koji su u obično u JSON formatu
• Podatke sa društvenih mreža karakteriše i velika brzina generisanja
POC
• Gruba skica arhitekture• Twitter Live Stream Loader• Twitter Post Selector
• Appache Pig Loader• Hive Filter
• Prezentacioni sloj• SSIS ETL i Real Time Data Mart• 3S - AJAX.NET web aplikacija
Twitter Live Stream Loader
• Twitter Streaming API daje programerima pristuptwitter podacima, u realnom vremenu
• Flume je alat koji omogućava efikasno prikupljanjepodataka sa različitih izvora, i njihovo skladištenje uHDFS. Može se reći da se sastoji iz tri komponente:Source koji je definiše izvor podataka, Channel kojidefiniše kanal kojim podaci putuju i Sink koji definišedestinaciju podatka
Twitter PostSelector
Zadatak:● Kreiranje šeme za Twitter podatke● Učitavanje,strukturiranje iupisivanje
podatakautabele● Izdvajanje postova od interesa
Hive filterraw-tweets filtered-tweets
cron job (15 min)
Pig Loaderjson
Zahtevi:● Konzistentnost● Automatizovanost● Pouzdanost● Fleksibilnost
Apache Pig Loader
ETL (LTD) MapReduce transformacija sirovih podataka:• učitavanje podataka• transformacija• strukturiranje
Pig Latin +
Elephantbird
Hivetabela
Hivefilter
● Filtriranjepostova:○ pojeziku○ poključnimrečima○ pokorisniku○ pogeolokaciji○ ….
● Određivanjekategorijepostova● Blokiranje(ignorisanje) poključnimrečima
HiveQL(filter, category)
Real Time Data MartqRelaciona baza u 3NF (MS SQL Server 2012)qIzvor za 3S web aplikacijuqObjavljene strukture kroz BI alateqMogućnost izrade naprednih analiza i uparivanja sa klijentom
Zaključak● Bigdatakao koncept i hadoop kao okruženje zaslužuju pažnju,kako zbog mogućnosti
čuvanja i obrade velike količine podataka različitih tipova i formata,tako i zbog mnoštva alatai gotovih komponenti koje seuglavnom nelicenciraju.
● Sektorigde preovladavaju struktuirani podaci klasični DHW/BIsistemi mogu pružiti više odhadoop sistema
● Sektori ukojima preovladavaju nestruktuirani podaci ili ogromne količine stuktuiranihpodataka (veličite PB),hadoop kao platforma može naći svoju primenu
● Bigdataprojektom uBankaIntezi pokazano jedakompanije,zavisno odsvoje potrebe,mogu imati uisto vreme i klasičanDWH/BIi hadoop sistem koji su udruženi utzv.hadoopekosistem.
● Trebauvekimatinaumudaobasistemaimasvojuulogu,aliobaimajuisticilj– podrškauodlučivanjuiunapređenjeposlovanja
● Genijalnostbigdatakonceptanisuizgrađeneogromne„planine“podatakavećpogledsvrha