Big DataDov Nimratz
О чем будем говорить• Что включает в себя BigData• Примеры • Claud – основа BigData
CPU
CPU
CPU
Mem
Mem
Mem
Virtualization
CPU Memory Network Hardware
Big DataContent Analytic Reporting Social media
CloudComputing Storage Communication
Claud computing• Большая стоимость оборудования• Проблемы с защищенностью данных• Энергонезависимость• Техобслуживание устройств и программ• Обновления мощностей и версий программ
4 V BigData
Activity data• Аналитика от поисковых систем• Аналитика от платежных систем• Анализ сайтов компании SEO
• Ценность ориентированной рекламы – высокая конверсия
Conversation data• Facebook, Tweeter, Skype• Феномен ICQ • Влияние на политику – новые реалии• Боты на зарплате и цена ”лайка”
Content data• Netflix – и проблема провайдеров• Torrent & p2p• Что может рассказать Content и как из этого получить выгоду?• Как Content может повлиять?
Sensor data• Датчики погоды• Регистраторы движения• Сенсоры безопасности
Internet of things data• Что может ваш телевизор рассказать о вас?• А холодильник?
Example of usage• Find me ”this”• Election/politic• Map & Traffic • Content oriented advertisement • Anti terrorism & fraud • Sport • Medicine• Optimize sites SEO• Data as a Person
SpaceX plans worldwide satellite Internet• 4,425 satellites in 2019• latencies 25 - 35ms• up to 1Gbps per user• FREE access
SpaceX received $1 billion in funding from Google and Fidelity Investments in January 2015 to support satellite manufacturing and space transport.
Специфические вопросы Claud • Модели сетевых сервисов• Обработка очень больших массивов данных - MapReducer• CAP теорема, требование ACID• Синхронизация• Обнаружение дефекта• NoSQL• Collaboration work – защита доступа к данным
IaaS, PaaS, SaaS
• Инфраструктура как услуга (IaaS);
• Платформа как услуга (PaaS);
• Программа как услуга (SaaS).
MapRediuce
CAP theorem Возможно обеспечить не более двух из трёх следующих свойств:• Согласованность данных (consistency) — во всех вычислительных
узлах в один момент времени данные не противоречат друг другу;• Доступность (availability) — любой запрос к распределённой
системе завершается корректным откликом;• устойчивость к разделению (partition tolerance) — расщепление
распределённой системы на несколько изолированных секций не приводит к некорректности отклика от каждой из секций.
СА согласованность + доступность• данные согласованы во всех узлах и обеспечена доступность • жертвует устойчивостью к распаду на секции. • Кластерные системы управления БД или распределённая служба
каталогов LDAP
СР согласованность + разделение• обеспечивает целостный результат и способна функционировать
в условиях распада• может не выдавать отклик на запрос. • требует обеспечения дублирования изменений во всех узлах
системы• «Пессимистическая блокировка»
АР доступность + разделение• не гарантируется целостность, • выполнены условия доступности и устойчивости к распаду на
секции. • большинство NoSQL-систем принципиально не гарантируют
целостности данных• «целостных в конечном итоге»
ACID требования к системе• Atomicity — Атомарность• Consistency — Согласованность• Isolation — Изолированность• Durability — Долговечность
Синхронизация событийP1
P2
P3
P1 1
2
1
2
4
3
5
6
6
7 8
9
Обнаружение дефектов – Зачем?• Петафлопс = 10 в 15 степени FLOPS /секунду
• MTTF (Mean Time To Failure — среднее время до отказа) 1 000 000 часов
Tianhe-2
33,86 петафлопс
16 тысяч узлов
720 метров кв.
1 мл / 16 тыс = 62,5 часа
Методы обнаружения дефекта• Послать всем пинг• Дерево• Токен по кругу• Если нет ответа, попробовать через соседей
Casandra
HBase
Защита доступа к данным• Токен на запись/чтение• Dead Lock• Moderator & Election protocol
Куда развивается Big Data• Internet every ware• IOT in many devices• Und user device – only human interface• Cyber security• Private Agent on network• Augmented Reality• From information to suggestion• No server Cloud – AWS Lambda Event driven Compute
Thank you
Dov NimratzSkype: dovnmrE-mail: [email protected]