Upload
3camp
View
268
Download
1
Embed Size (px)
DESCRIPTION
Nasze wieloTORowe doświadczenia w technologicznym safari: Python, Anaconda, RabbitMQ i pożerające wszystko Celery… Czyli Big Data i social commerce na przykładzie aplikacji MioSpot.
Citation preview
Big Data na zakupach
Artur Senk, OKE Poland
Tech.3camp.pl01.10.2014
Rok założenia: 1996 r.
Zatrudnienie: 50 osób
Siedziba: Gdańsk
Technologie telewizyjne (.NET)
oraz…
- start: kwiecień 2013
Net - Trends
Przewidywanie trendówna podstawie danych zebranych
z Internetu i danych statystycznych
NET-TRENDS: CIAŁO
Big Data
Data Mining
Trendy
Crawlery
Scrapery
Net-Trends
MIOSPOT: GŁOWA
Zakupy
Alerty
Aplikacje mobilne
Celebryci
Social Network
Big Data Shopping
Czy robienie zakupów może być jeszcze
bardziej, bardziej, wiele bardziejprzyjemne?
TARGET USERSCZEGO PRAGNĄ…?
… NAPRAWDĘ CHCECIE WIEDZIEĆ?
MioSpotBridges the gap between Retailers and People. Active system that brings buyers and sellers together.
© istockphoto.com
MioSpotSocial Commerce
Bringing Celebs,Friends and Fans together.miospot.com
PRODUKTY, CELEBRYCI I ZNAJOMI
ODKRYWAJ PRODUKTY
OBSERWUJ INNYCH
- wiele bibliotek do przetwarzania danych
- czytelność kodu (readability)
- szybkość tworzenia nowych funkcjonalności
Środowisko: Python (3.3)
- Django – framework Pythona
- Gunicorn – Python WSGI HTTP Server
- nginx – HTTP (static) oraz (genialne!) proxy
- PostgreSQL (9.3) – znana i dopracowana baza
- Solr – full-text search server napisany w Javie
Środowisko: główne elementy
- Git (własny serwer z GitLab), git-flow, tagi
- Jenkins + Selenium – CI, after-commit jobs
- Fabric – szybki deploy
- Anaconda – kompletna dystrybucja Pythona
Środowisko: dodatki
RSS Feeds artykuły
zdjęcia
ŹRÓDŁA DANYCH
Net-Trends
- TOR – wirtualny routing na poziomie TCP, ukrywanie IP serwerów pobierających
- Celery –kolejki zadań – rozproszone i skalowalne
Pobieranie danych #1
- ElasticSearch - search engine, ELK stack:ElasticSearch + Logstash + Kibana
- Redis – zaawansowany key-valuecache/store, wyniki tasków
Pobieranie danych #2
- prawie 10TB danych (spakowanych!)
- bazy danych po kilkaset GB
- 1 000 000 000 rekordów w tabeli
Trochę statystyk
TAR + XZ -> 40-krotna kompresja
Big Data + Big Dev = Data
Dziękuję za uwagę.
Dzięki!