22
Обработка больших данных в интересах бизнеса

Логическая витрина для доступа к большим данным

Embed Size (px)

Citation preview

Page 1: Логическая витрина для доступа к большим данным

Обработка больших данныхв интересах бизнеса

Page 2: Логическая витрина для доступа к большим данным

1Бизнес и данные

Мы накопили много информации. В средней организации может насчитываться, например:

Основные данные:клиенты, товары,активы, и др.

~ 100 000 единиц

Транзакционные данные:первичные документы,задачи, звонки и др.

~ 1 000 000 единиц

Данные бизнес-процессов:АСУТП, измерения,операции и др.~ 1 000 000 000 ед.

Мир вокруг нас наполнен данными.

С помощью данных мы познаем мир.На основе данных работает бизнес.Но… можно увеличить выгоду от данных на порядок!

Page 3: Логическая витрина для доступа к большим данным

2IoT, M2M, Big Data

Но этого мало. Благодаря развитию цифровых устройствлюбое предприятие или организация ежедневно получаетмиллиарды единиц информации о состоянии своих активов,телеком-оператор – о приоритетах абонентов, и так далее.

90% всех данных в мире создано за последние 10 лет.Объем данных удваивается каждые два года,и этот интервал сокращается.Взрывной рост объема данныхбудет продолжаться с ускорением.Как мы используем эту информацию?Переходит ли количество в качество?

http://rg.ru/2013/05/14/infa-site.html

Page 4: Логическая витрина для доступа к большим данным

3Главный вопрос

ПОЧЕМУ ПОЛЬЗА ОТ ЭТИХ ДАННЫХ

НЕ ПРОПОРЦИОНАЛЬНА ИХ ОБЪЕМУ?

ПОЧЕМУ МЫ НЕ ОЩУЩАЕМ КАЧЕСТВЕННЫХ ИЗМЕНЕНИЙ

К ЛУЧШЕМУ ОТ ИХ ИСПОЛЬЗОВАНИЯ

НИ В ОБЩЕСТВЕ, НИ В БИЗНЕСЕ?

Page 5: Логическая витрина для доступа к большим данным

4Ответы на главный вопрос

I. Потому, что эти данные мало используются.Это происходит потому, что:• Данные слабо связаны между собой, разрозненны.• Отсутствуют адекватные программные инструменты и методики их обработки.• Для использования данных требуется серьезная аналитическая работа.

II. Потому, что бизнес (за редким исключением) не ставит задач, которые можно решить с их помощью,не хочет, не умеет работать с проблемами через данные.Это происходит потому, что:• Многие не знают, что подобные задачи вообще решаемы.• Отсутствует мотивация или ответственность за эффективное развитие бизнеса.• Любой человек инстинктивно боится сложностей, стремится все упростить.

Page 6: Логическая витрина для доступа к большим данным

5Связность данных и выгода

Почему связность данных так важна?Мы утверждаем, что зависимость между связностью данных и выгодой от их использования имеет приблизительно такой вид:

Порядок получаемойвыгоды, тыс. руб.(условно)

Число связанныхисточников(условно)

10100

1000

10000

1 2 3 4

Конкретные цифры варьируютсяв зависимости от вида бизнесаи конкретных условий, но

Каждый новый уровень связностидобавляет порядок или более к размеру выгоды от использования данных

Page 7: Логическая витрина для доступа к большим данным

6Пример зависимости выгоды от связности данных

Проиллюстрируем это на простом примере –работе с персоналом с точки зрения корпоративной безопасности.

1. Данные о сотруднике в корпоративнойсистеме. Можно поставить задачи,следить за работой, начислить зарплату.

Порядок выгоды: десятки тысяч рублей.

2. Данные о сотруднике в соцсети.Можно узнать о его мотивации и личныхкачествах, использовать эту информациюв управлении персоналом.

Порядок выгоды: сотни тысяч рублей.

3. Данные о сотруднике в картотеках судебных дел и БД судебных приставов. Можно предотвратить прием на работунедобросовестного сотрудника, вовремявыявить его личные проблемы.

Порядок выгоды: миллионы рублей.

4. Данные о регистрации юр. лиц.Можно предотвратить открытиесотрудником собственной фирмы на имядруга/родственника, работу противинтересов компании с использованиемее ресурсов, клиентов, поставщиков.

Порядок выгоды: десятки млн. рублей.… а еще есть биллинг корпоративного телефона и многое другое.

Page 8: Логическая витрина для доступа к большим данным

7Уровень задач и выгода

Легко заметить, что простые задачи относятся к операционному уровню – текущему управлению и краткосрочному анализу; более сложные задачи соответствуют стратегическому анализус целью достижения долгосрочного эффекта от оптимизации; наконец, самые сложные задачи связаны с прогнозированием дляпредотвращения нежелательных событийили использования желательных.

Таким образом,

Уровень выгоды от использования данныхнапрямую зависит отмасштаба поставленной цели.

Порядок получаемойвыгоды, тыс. руб.(условно)

10100

1000

10000

Задачи

оперативного

управления

Задачи

операционного

анализа

Задачи

стратегического

анализа

Задачи

прогнозирования

Page 9: Логическая витрина для доступа к большим данным

8Примеры решаемых задач

1. Контроль промышленного оборудования с целью предотвращения аварий,составление оптимальных программ ремонта и модернизации,управление энергоэффективностью.

2. Оптимизация бизнес-процессов на основе достоверной информации о том,как они протекают – практически в любой сфере бизнеса.

3. Анализ и своевременное предотвращение проблем безопасности.4. Анализ хода инвестиционных и иных проектов, предотвращение срывов и потерь.5. Поиск преимуществ и новых потенциальных сделок на рынке.6. Практически любые прогнозные задачи – предсказание поведения систем,

возможных вариантов развития ситуаций.7. Анализ поведения потребителей для формирования адресных, эффективных

маркетинговых предложений.

Анализ связанных больших данных из разных источников можно применять, например, для решения таких задач:

Page 10: Логическая витрина для доступа к большим данным

9Задачи и решения

Для того, чтобы решать такие задачи – нужно,

чтобы бизнес их ставил.

А мы предлагаем для этого соответствующие программные и методические инструменты.

Слово «соответствующий» означает, что эффективность применения инструмента для решения бизнес-задач

обеспечивает превосходство выгоды от использования данныхнад стоимостью их хранения и обработки на 1-2 порядка.

Page 11: Логическая витрина для доступа к большим данным

Требования к инструменту анализа данных

Каким должен быть инструмент, обеспечивающий осмысленную обработку связанных корпоративных данных из разных источников?

1. Он должен позволять аналитику (или даже «Первому Лицу»!) самому «задавать вопросы» данным, не обращаясь к помощи программиста.

2. Он должен позволять изменять модель данных по ходу эксплуатации системы,«отвечать» на те виды вопросов, которые не были предусмотрены заранее.

3. Он должен импортировать, связывать и обрабатывать любые данные любой структуры из любых источников, включая хранилища Big Data и сервисы.

4. Он должен позволять оперативно создавать и подключать новые приложения,расчетные модели и алгоритмы для обработки данных с минимальнымипроизводственными задержками.

5. Он должен хранить формализованные экспертные знания и автоматическиприменять их для анализа поступающей информации.

10

Page 12: Логическая витрина для доступа к большим данным

Big Data как бизнес-инструмент

Технологии Big Data позволяют:• Хранить и параллельно обрабатывать терабайты информации;• Использовать алгоритмы машинного обучения

для решения конкретных бизнес-задач.

Однако, эти технологии:• Применяются для обработки данных однообразной,

несложной структуры;• Ориентированы на обработку данных при помощи фиксированных

алгоритмов, реализуемых императивным программированием;• Не имеют цели предоставить пользователю доступ к исследованию

самих исходных данных.

11

Page 13: Логическая витрина для доступа к большим данным

Архитектура логической витрины данных

Наше решение позволяет использовать преимущества Big Data и устранить их недостатки.Архитектура компонентов нашего решения – логической витрины данных:

Хранилищеинформационноймодели и правил

Интерфейсредактированиямодели и правил

Интерфейспостроениязапросов и вывода ответов

Источникиданных ` … и любые

другие

Логическаявитринаданных

12

Page 14: Логическая витрина для доступа к большим данным

13Сценарий работы решения

Какова стоимость мероприятий,проведенных в прошлом годуна трубопроводах, приборы учета на которых показывают превышение показателем X значения Y?

Информационная модель• Мероприятие• Трубопровод• Прибор учета• Показатель X• …

Какова стоимость…

Шин

а (E

SB) Источник 1

Источник 2

ПО

вит

рины

агрегацияответа

интерпретациязапроса

представлениерезультата

Порядок работы с логической витриной данных.

1. Аналитик делает запрос в терминах своей предметной области.

Витрина:2. Представляет его в виде запроса

к информационной модели.3. Определяет, где находятся данные,

необходимые для ответа на этот запрос.4. Выполняет частные запросы исходных

данных к разным источникам, фильтруя их.5. Получает и интегрирует ответы

в единое представление – граф.6. Выполняет пост-обработку графа,

заключающуюся, например, в применении правил логического вывода для полученияновых знаний на основании новых данных.

7. Выполняет на нем исходный запрос, и возвращает ответ аналитику.

Page 15: Логическая витрина для доступа к большим данным

14Простой пример

Приведем простой демонстрационный пример использования логической витрины данных.Рассмотрим некий промышленный комплекс, обладающий огромным количеством оборудования, снабженного различными датчиками и сенсорами, регулярно сообщающими сведения о его состоянии. Для простоты рассмотрим только два агрегата, котел и резервуар, и три датчика: температуры котла и резервуара, а также давления в котле. Эти датчики контролируются АСУ разных производителей и выдают информацию в разные хранилища: сведения о температуре и давлении в котле поступают в HBase, а данные о температуре в резервуаре пишутся в лог-файлы, расположенные в HDFS. Следующая схема иллюстрирует процесс сбора данных.

Page 16: Логическая витрина для доступа к большим данным

15Простой пример

На реальном предприятии мы имели бы дело с таким порядком числа сущностей:

Сущность Порядок числа записей Тип хранилища (пример)

Единицы оборудования Тысячи Система управления мастер-данными

Датчики, сенсоры Сотни тысяч БД PostgreSQL

Показания датчиков Десятки миллиардов в год Файлы в HDFS, HBase

Пусть мы хотим предоставить аналитику возможность делать запросы такого типа:

• Какие единицы маслонаполненного оборудования работали при температуре выше 300 градусов за последнюю неделю?

• Какое оборудование находится в состоянии, выходящем за пределы рабочего диапазона?

Выполнение любого из них требует связывания данных из разных источников, в том числе из находящихся за пределами нашего модельного примера.

Page 17: Логическая витрина для доступа к большим данным

16Простой пример

Рассмотрим пример простого запроса, на который можно найти ответ в нашем наборе информации. Пусть аналитик интересуется оборудованием, установленные на котором сенсоры одновременно измерили температуру больше 4000 и давление больше 5 мПа в течение заданного времени.

В этой фразе мы выделили жирным слова, соответствующие сущностям информационной модели: оборудование, сенсор, измерение. Курсивом выделены атрибуты и связи этих сущностей. Наш запрос можно представить в виде такого графа (под каждым типом данных мы указали хранилище, в котором они находятся):

Page 18: Логическая витрина для доступа к большим данным

17Простой пример

Схема выполнения запроса такова. Сначала нужно отфильтровать измерения температуры за заданный период со значением больше 4000 C, и измерения давления со значением больше 5 мПа; затем нужно найти среди них те, которые выполнены сенсорами, установленные на одной и той же единице оборудования, и при этом выполнены одновременно. Именно так и будет действовать витрина данных.

Аналитик через несколько секунд получит ответ на вопрос, на который без витрины смог бы ответить только с помощьюпрограммиста, через несколькочасов или дней труда.Благодаря витрине аналитикможет непосредственноиспользовать данные, выдвигатьи проверять гипотезы.

Page 19: Логическая витрина для доступа к большим данным

18Интерфейс редактирования модели и правил

В интерфейсе редактирования модели и правил задается как концептуальная модель предметной области,в терминах которой аналитик строит запрос, так и сведения о том, в каких источниках находятся данные,соответствующие элементам модели.

Дерево информационной модели Форма редактирования настроек исходных данных

Page 20: Логическая витрина для доступа к большим данным

19Интерфейс запросов и вывода ответов

Аналитик строит запрос при помощи одного из интерфейсов Системы Управления Знаниями.Среди этих интерфейсов – как формальные конструкторы, так и средство поиска на контролируемоместественном языке.

Построение запроса Форма вывода результатов запросана контролируемом языке

Статистика извлечения данных

Page 21: Логическая витрина для доступа к большим данным

20Особенности решения

Технические и функциональные особенности нашего решения:

1. Решение способно интегрировать информацию из «традиционных» массивов данных с информацией,находящейся в хранилищах Big Data.

2. Информация о сущностях одного типа может храниться в любом числе источников одновременно.3. Витрина данных не только компонует и связывает информацию из различных источников,

но и делает логические выводы на ней в соответствии с заданными правилами на основе концептуальной модели предметной области бизнеса и экспертных знаний.

4. В качестве источников данных могут выступать не только хранилища, но и сервисы.За сервисами могут быть «спрятаны» любые сложные расчетные алгоритмы, в т.ч. использующие технологии Big Data (MapReduce, машинное обучение средствами Spark MLlib).Витрина «подает на вход» этих алгоритмов данные, выбранные аналитиком.

5. Запросы к источникам данных могут выполняться не просто асинхронно, но даже при отсутствии онлайн-связи с ними – на этот случай предусмотрен специальный механизм передачи запроса и получения ответа.

6. Результаты выполнения запроса могут не просто выдаваться пользователю в виде таблицы или выгружаться в Excel, но и попадать напрямую в BI-систему в виде набора данных для дальнейшего анализа.

7. Возможен контроль прав доступа пользователей к результатам выполнения запросов.

Page 22: Логическая витрина для доступа к большим данным