BIG DATA Новый вызов

Preview:

DESCRIPTION

“В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в зависимости от качества их аналитики” Вирджиния Рометти - IBM CEO 2 марта 2012 года. BIG DATA Новый вызов. Будзко В.И. - PowerPoint PPT Presentation

Citation preview

BIG DATAНовый вызов.

Будзко В.И.заместитель директора по научной работе

Института проблем информатики РАН, д.т.н., член-корреспондент Академии

криптографии РФ

“В ближайшие 5 лет все компании на рынке разделятся на победителей и побежденных в

зависимости от качества их аналитики”Вирджиния Рометти - IBM CEO 2 марта 2012 года

Рост цифровых данных и доступной памяти

Прогноз роста данных до 2015 года

Гло

баль

ный

объе

м д

анны

х в

экза

байт

ах

Процентное соотношение

Управленческие решения, традиционно определяемые

данными организации

К 2015 году количество устройств, объединенных в сеть вдвое будет превышать население земли.Всем

этим сенсорным данным присуща неопределенность

Суммарное число позиций в средствах массовой информации превышает население земли. Эти данные крайне неопределенны по

представлению и содержанию

Обвал данных• Каждый день в мире производится 2,5 квинтильона

(1018) байтов данных. 90% данных созданы за последние два года.

• Каждый час Wal-Mart совершает 1 миллион сделок, пополняя базу данных на 2,5 петабайта (1015)- в 170 раз больше объема данных Библиотеки Конгресса США.

• Объем отправлений, доставляемых американской Почтовой службой за один год, равен 5 петабайтам, а Google обрабатывает такой же объем данных всего за один час.

• Суммарный объем всей существующей на земле информации составляет несколько больше одного зеттабайта (1021).

Новый взгляд – старые принципы• В какой степени доступные данные отражают реальное состояние

моделируемой предметной области? Полнота.

• Насколько правильно данные описывают предметную область? Точность.

• Система высокой доступности данных: доступные данные достаточной полноты и точности обработаны и вовремя получен аналитический продукт. (Своевременный отбор данных и своевременное получение аналитического продукта)

выявление (Discovery),

отбор (Discrimination),

переработка (Distillation),

доведение в нужном представлении (Delivery/Dissemination).

В информационно-аналитической АИС получение аналитического информационного продукта возможно только при использовании структурированных данных.

Если для решения аналитической задачи требуется привлечь неструктурированные или слабо структурированные данные, то требуется разработать средство их преобразования в структуру.

После преобразования речи в текст по тексту определяется смысловое содержание сказанного и преобразовывается в некоторый структурированный формат.

Словосочетание Большие Данные появилось в конце 1990-ых среди ученых, у которых отсутствовала возможность сохранить или проанализировать огромные и возрастающие данные, произведенные все более и более сложными цифровыми технологическими средствами, применяемыми при решении задач физики элементарных частиц, экономики, климатологии, астрофизики.

К середине 2000-ых проводились интенсивные исследования Больших Данных в таких компаниях как Google, Yahoo, Amazon и Netflix, в которые поступали возрастающие объемы данных из Web. Google разработал в 2004 году структуры MapReduce.В 2008 году в результате исполнения проекта Apache была реализована система Hadoop (как общедоступное изделие) для параллельной обработки больших файлов в одном пакете. Hadoop, использует структуру MapReduce и файловую систему, чтобы действовать как хранилище данных.

Файл-ориентированного подхода Hadoop оказалось недостаточно, требовалась функция базы данных. NoSQL решения BigTable Google в 2006 и разработка Amazon Dynamo – в 2007 стали первыми реализациями в этом направлении. Общедоступные продукты - Amazon SimpleDB, Cassandra, MongoDB и Terrastore. Маркетологи вендоров аппаратного и программного обеспечения начали перемаркировывать многие продукты и решения на Большие Данные. Реляционные и другие традиционные подходы обработки бросались в "общий котел".

Традиционные данные составляют меньше чем 10% цифровой информации, которой управляет бизнес

BI / Reporting

BI / Reporting

Exploration / Visualization

FunctionalApp

IndustryApp

Predictive Analytics

Content Analytics

Analytic Applications

Стратегия IBM Big Data : приблизить аналитику к данным

IBM Big Data Platform

Systems Management

Application Development

Visualization & Discovery

Accelerators

Information Integration & Governance

HadoopSystem

Stream Computing

Data Warehouse

Новые аналитические приложения выдвигают требования к платформе big data:

• Объединять и управлять всем разнообразием (Variety), скоростью (Velocity) и объемом (Volume), достоверностью (Veracity) и обоснованностью (Validity) данных

• Применять передовую аналитику к информации в ее исходной форме

• Визуализировать все доступные данные для специального анализа

• Среда проектирования для создания новых аналитических приложений

• Оптимизация рабочей нагрузки и планирование

• Безопасность и управление

Ускоренный data miningУскоренный data mining

Изображения и видео

Простые и сложные текстыПростые и сложные тексты

Text(listen, verb),

(radio, noun)

АкустикаАкустика

ГеоаналитикаГеоаналитика

ПрогнозыПрогнозы

Продвинутые математические моделиПродвинутые математические модели

СтатистикаСтатистикаpopulation

tt asR ),(

Analytic Accelerators Designed for VarietyБолее умная аналитика!!!

Big Data

Content Analytics

Технологии IBM

Business Analytics

Databases / Data Warehouses

2880 Processing Cores

16 Terabytes Memory (RAM) – 20TB Disk

Системные спецификации

90 IBM P750 Servers

80 Teraflops (80 trillion operations per second)

Workload Optimized Systems

Watson – взгляд изнутри

Cores x 20 + 1 = 57600 + 2880 = 60480 On Oncology Task

Инт

ел

лек

туал

ьнос

тьИ

нфор

мир

уем

ость

1. Любые виды источников1. Любые виды источников

2. Любая скорость потока данных от источника2. Любая скорость потока данных от источника

3. Принятие решения – в потоке (миллисекунды)3. Принятие решения – в потоке (миллисекунды)

IBM получает заказ на разработку технологии:

2002

17

Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ

доступных данныхЭффективно с точки зрения затрат управлять и анализировать все доступные данные,

в их первозданном виде – структурированные,

неструктурированные, потоковые

ERPCRM RFID

Website

Network Switches

Social Media

Billing

StreamsStreams

BigInsBigIns

DEDE NZ NZ

Декларативные языкиДекларативные языки

Готовые средства разработки

Готовые средства разработки

ИнструментыИнструменты

Языки программирования 3-го поколения: Языки программирования 3-го поколения: Java, Java, C/C++, Python, Perl C/C++, Python, Perl Языки программирования 3-го поколения: Языки программирования 3-го поколения: Java, Java, C/C++, Python, Perl C/C++, Python, Perl

КоннекторыКоннекторы

SPSS(Декларативный язык PMML)

SPSS(Декларативный язык PMML)

Cognos BICognos BI

Общая схема компонентов платформы Big DataВсего около 900 «кирпичей»

Современная схема принятия решений:

Что делают люди?Подтверждение решения

Принятиерешения

Цифровая реальность

CEO

Область интересов

Обсуждение области интересов

Поиск в области интересов

Креативная команда

Обучение в области интересов

Big Data

Детализацияобласти интересов

Задания интегральной инфо потребности

Угрозы и проблемы

1. Отставание:• кадры,• подготовка кадров,• технологическая платформа,• постановка задач,• и пр.Только МО США ежегодно выделяет на исследования в области Больших данных 300 млн. долларов.Big Data –национальная программа США.

Угрозы и проблемы

2. Доступность наших источников:• Интернет, социальные сети (Twitter, Faceook,

Одноклассники и пр). Основатель социальной сети Facebook Марк Цукерберг – 15 млрд. долларов

• мобильные телефоны, планшеты, смартфоны и пр. • облачные вычисления и хранилища,• технологические достижения в открытой публикации

или по эл почте,• и пр.

Угрозы и проблемы

3. Отсутствие наработок по информационнойбезопасности Больших данных.

4. Огромный объем «неведанного» ПО, даже в открытых кодах, затрудняет выполнение соответствующих исследований.

Сокращение отставания СССР в области информатизации•1968 год. Письмо Дородницина в ЦК.

Решение по ЕС ЭВМ. Инициатива М.Р. Шура-Бура и В.К. Левина о построении ЕС ЭВМ, программно совместимой с IBM/360.

•1972 год. Решение Ю.В. Андропова

•1973-1975 годы. Работа коллектива специалистов (КГБ, МО, НИЦЭВТ, НИИ "Восход", НИИАА под вывеской МНИИПИ АСУ ГХ) по освоению продуктов IBM на площадке ОКБА Минхимпром

Отечественные аналогиПродукт IBM

(прототип)Отечественный

аналогИсполнитель

IMS/360 ОКА НИЦЭВТ

CICS КАМА НИЦЭВТ

OS/360 ОС/ЕС НИЦЭВТ

GIS УНИС Центр ПрограммСистем

Позднее НИИ «Восход» выпустил аналог ADABAS – ДИСОДНИИАА выпустил аналог IDMS - СЕТЬ

Катализатор повышения профессионализма. Собственные разработки.

Что делать?

Учиться, учиться, учиться…

Спасибо за внимание

Recommended