25
BIG DATA Новый вызов. Будзко В.И. заместитель директора по научной работе Института проблем информатики РАН, д.т.н., член- корреспондент Академии криптографии РФ “В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в зависимости от качества их аналитики” Вирджиния Рометти - IBM CEO 2 марта 2012 года

BIG DATA Новый вызов

  • Upload
    chione

  • View
    65

  • Download
    4

Embed Size (px)

DESCRIPTION

“В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в зависимости от качества их аналитики” Вирджиния Рометти - IBM CEO 2 марта 2012 года. BIG DATA Новый вызов. Будзко В.И. - PowerPoint PPT Presentation

Citation preview

Page 1: BIG DATA Новый вызов

BIG DATAНовый вызов.

Будзко В.И.заместитель директора по научной работе

Института проблем информатики РАН, д.т.н., член-корреспондент Академии

криптографии РФ

“В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в

зависимости от качества их аналитики”Вирджиния Рометти - IBM CEO 2 марта 2012 года

Page 2: BIG DATA Новый вызов

Рост цифровых данных и доступной памяти

Page 3: BIG DATA Новый вызов

Прогноз роста данных до 2015 года

Гло

баль

ный

объе

м д

анны

х в

экза

байт

ах

Процентное соотношение

Управленческие решения, традиционно определяемые

данными организации

К 2015 году количество устройств, объединенных в сеть вдвое будет превышать население земли.Всем

этим сенсорным данным присуща неопределенность

Суммарное число позиций в средствах массовой информации превышает население земли. Эти данные крайне неопределенны по

представлению и содержанию

Page 4: BIG DATA Новый вызов

Обвал данных• Каждый день в мире производится 2,5 квинтильона

(1018) байтов данных. 90% данных созданы за последние два года.

• Каждый час Wal-Mart совершает 1 миллион сделок, пополняя базу данных на 2,5 петабайта (1015)- в 170 раз больше объема данных Библиотеки Конгресса США.

• Объем отправлений, доставляемых американской Почтовой службой за один год, равен 5 петабайтам, а Google обрабатывает такой же объем данных всего за один час.

• Суммарный объем всей существующей на земле информации составляет несколько больше одного зеттабайта (1021).

Page 5: BIG DATA Новый вызов

Новый взгляд – старые принципы• В какой степени доступные данные отражают реальное состояние

моделируемой предметной области? Полнота.

• Насколько правильно данные описывают предметную область? Точность.

• Система высокой доступности данных: доступные данные достаточной полноты и точности обработаны и вовремя получен аналитический продукт. (Своевременный отбор данных и своевременное получение аналитического продукта)

выявление (Discovery),

отбор (Discrimination),

переработка (Distillation),

доведение в нужном представлении (Delivery/Dissemination).

Page 6: BIG DATA Новый вызов

В информационно-аналитической АИС получение аналитического информационного продукта возможно только при использовании структурированных данных.

Если для решения аналитической задачи требуется привлечь неструктурированные или слабо структурированные данные, то требуется разработать средство их преобразования в структуру.

После преобразования речи в текст по тексту определяется смысловое содержание сказанного и преобразовывается в некоторый структурированный формат.

Page 7: BIG DATA Новый вызов

Словосочетание Большие Данные появилось в конце 1990-ых среди ученых, у которых отсутствовала возможность сохранить или проанализировать огромные и возрастающие данные, произведенные все более и более сложными цифровыми технологическими средствами, применяемыми при решении задач физики элементарных частиц, экономики, климатологии, астрофизики.

Page 8: BIG DATA Новый вызов

К середине 2000-ых проводились интенсивные исследования Больших Данных в таких компаниях как Google, Yahoo, Amazon и Netflix, в которые поступали возрастающие объемы данных из Web. Google разработал в 2004 году структуры MapReduce.В 2008 году в результате исполнения проекта Apache была реализована система Hadoop (как общедоступное изделие) для параллельной обработки больших файлов в одном пакете. Hadoop, использует структуру MapReduce и файловую систему, чтобы действовать как хранилище данных.

Page 9: BIG DATA Новый вызов

Файл-ориентированного подхода Hadoop оказалось недостаточно, требовалась функция базы данных. NoSQL решения BigTable Google в 2006 и разработка Amazon Dynamo – в 2007 стали первыми реализациями в этом направлении. Общедоступные продукты - Amazon SimpleDB, Cassandra, MongoDB и Terrastore. Маркетологи вендоров аппаратного и программного обеспечения начали перемаркировывать многие продукты и решения на Большие Данные. Реляционные и другие традиционные подходы обработки бросались в "общий котел".

Page 10: BIG DATA Новый вызов

Традиционные данные составляют меньше чем 10% цифровой информации, которой управляет бизнес

Page 11: BIG DATA Новый вызов

BI / Reporting

BI / Reporting

Exploration / Visualization

FunctionalApp

IndustryApp

Predictive Analytics

Content Analytics

Analytic Applications

Стратегия IBM Big Data : приблизить аналитику к данным

IBM Big Data Platform

Systems Management

Application Development

Visualization & Discovery

Accelerators

Information Integration & Governance

HadoopSystem

Stream Computing

Data Warehouse

Новые аналитические приложения выдвигают требования к платформе big data:

• Объединять и управлять всем разнообразием (Variety), скоростью (Velocity) и объемом (Volume), достоверностью (Veracity) и обоснованностью (Validity) данных

• Применять передовую аналитику к информации в ее исходной форме

• Визуализировать все доступные данные для специального анализа

• Среда проектирования для создания новых аналитических приложений

• Оптимизация рабочей нагрузки и планирование

• Безопасность и управление

Page 12: BIG DATA Новый вызов

Ускоренный data miningУскоренный data mining

Изображения и видео

Простые и сложные текстыПростые и сложные тексты

Text(listen, verb),

(radio, noun)

АкустикаАкустика

ГеоаналитикаГеоаналитика

ПрогнозыПрогнозы

Продвинутые математические моделиПродвинутые математические модели

СтатистикаСтатистикаpopulation

tt asR ),(

Analytic Accelerators Designed for VarietyБолее умная аналитика!!!

Page 13: BIG DATA Новый вызов
Page 14: BIG DATA Новый вызов
Page 15: BIG DATA Новый вызов

Big Data

Content Analytics

Технологии IBM

Business Analytics

Databases / Data Warehouses

2880 Processing Cores

16 Terabytes Memory (RAM) – 20TB Disk

Системные спецификации

90 IBM P750 Servers

80 Teraflops (80 trillion operations per second)

Workload Optimized Systems

Watson – взгляд изнутри

Cores x 20 + 1 = 57600 + 2880 = 60480 On Oncology Task

Инт

ел

лек

туал

ьнос

тьИ

нфор

мир

уем

ость

Page 16: BIG DATA Новый вызов

1. Любые виды источников1. Любые виды источников

2. Любая скорость потока данных от источника2. Любая скорость потока данных от источника

3. Принятие решения – в потоке (миллисекунды)3. Принятие решения – в потоке (миллисекунды)

IBM получает заказ на разработку технологии:

2002

Page 17: BIG DATA Новый вызов

17

Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ

доступных данныхЭффективно с точки зрения затрат управлять и анализировать все доступные данные,

в их первозданном виде – структурированные,

неструктурированные, потоковые

ERPCRM RFID

Website

Network Switches

Social Media

Billing

Page 18: BIG DATA Новый вызов

StreamsStreams

BigInsBigIns

DEDE NZ NZ

Декларативные языкиДекларативные языки

Готовые средства разработки

Готовые средства разработки

ИнструментыИнструменты

Языки программирования 3-го поколения: Языки программирования 3-го поколения: Java, Java, C/C++, Python, Perl C/C++, Python, Perl Языки программирования 3-го поколения: Языки программирования 3-го поколения: Java, Java, C/C++, Python, Perl C/C++, Python, Perl

КоннекторыКоннекторы

SPSS(Декларативный язык PMML)

SPSS(Декларативный язык PMML)

Cognos BICognos BI

Общая схема компонентов платформы Big DataВсего около 900 «кирпичей»

Page 19: BIG DATA Новый вызов

Современная схема принятия решений:

Что делают люди?Подтверждение решения

Принятиерешения

Цифровая реальность

CEO

Область интересов

Обсуждение области интересов

Поиск в области интересов

Креативная команда

Обучение в области интересов

Big Data

Детализацияобласти интересов

Задания интегральной инфо потребности

Page 20: BIG DATA Новый вызов

Угрозы и проблемы

1. Отставание:• кадры,• подготовка кадров,• технологическая платформа,• постановка задач,• и пр.Только МО США ежегодно выделяет на исследования в области Больших данных 300 млн. долларов.Big Data –национальная программа США.

Page 21: BIG DATA Новый вызов

Угрозы и проблемы

2. Доступность наших источников:• Интернет, социальные сети (Twitter, Faceook,

Одноклассники и пр). Основатель социальной сети Facebook Марк Цукерберг – 15 млрд. долларов

• мобильные телефоны, планшеты, смартфоны и пр. • облачные вычисления и хранилища,• технологические достижения в открытой публикации

или по эл почте,• и пр.

Page 22: BIG DATA Новый вызов

Угрозы и проблемы

3. Отсутствие наработок по информационнойбезопасности Больших данных.

4. Огромный объем «неведанного» ПО, даже в открытых кодах, затрудняет выполнение соответствующих исследований.

Page 23: BIG DATA Новый вызов

Сокращение отставания СССР в области информатизации•1968 год. Письмо Дородницина в ЦК.

Решение по ЕС ЭВМ. Инициатива М.Р. Шура-Бура и В.К. Левина о построении ЕС ЭВМ, программно совместимой с IBM/360.

•1972 год. Решение Ю.В. Андропова

•1973-1975 годы. Работа коллектива специалистов (КГБ, МО, НИЦЭВТ, НИИ "Восход", НИИАА под вывеской МНИИПИ АСУ ГХ) по освоению продуктов IBM на площадке ОКБА Минхимпром

Page 24: BIG DATA Новый вызов

Отечественные аналогиПродукт IBM

(прототип)Отечественный

аналогИсполнитель

IMS/360 ОКА НИЦЭВТ

CICS КАМА НИЦЭВТ

OS/360 ОС/ЕС НИЦЭВТ

GIS УНИС Центр ПрограммСистем

Позднее НИИ «Восход» выпустил аналог ADABAS – ДИСОДНИИАА выпустил аналог IDMS - СЕТЬ

Катализатор повышения профессионализма. Собственные разработки.

Page 25: BIG DATA Новый вызов

Что делать?

Учиться, учиться, учиться…

Спасибо за внимание