Docflow 2015 Панель Аналитика больших данных - Станислав Макаров

19 мая 2015 Москва, Рэдиссон Славянская www.docflow.ru

Панельная дискуссия

Сценарии, примеры и возможности использования технологий аналитики больших данных

19 мая 2015 Москва, Рэдиссон Славянская www.docflow.ru

Ведущий – Станислав Макаров

Big Data: Сомнения и надежды

Часть I. Сомнения

Маркетинговая лихорадка

Big Data! Как много в этом звуке для сердца вендора слилось!

Рисунок: http://www.gensleron.com/work/2013/3/19/a-take-on-tech-big-data.html

http://www.gensleron.com/work/2013/3/19/a-take-on-tech-big-data.html

Сначала напугать заказчика

АААААА!!!

Информация растет!

Каждую минуту!!!

В интернете много подобной инфографики. И ведь не поспоришь…

Зеттабайт и йотабайт – уже мало.Встречаем Бронтобайт и Геопбайт!

http://www.fastcompany.com/3033549/internet-of-things/hps-post-electronic-solution-to-tomorrows-huge-data

http://www.fastcompany.com/3033549/internet-of-things/hps-post-electronic-solution-to-tomorrows-huge-data

Подвергай все сомнению

• Насколько информация уникальна?

• Какую пользу из нее можно извлечь?

• Как долго ее нужно хранить?

Пример: Big Ben и Big Data

Лондон посещает в год 17 млн. туристов.

Каждый делает фото Биг Бена.

Одна фотография занимает примерно 1 МБ.

Итого мы имеем 17 ТБ данных.

Сколько в этом полезной информации?

Big Ben photo: About 254,000,000 results

Биг Бен - ¼ Петабайта

Мультиплицирование информации

Способность людей потреблять информацию нисколько не вырослаВ день можно просмотреть несколько фильмов или прочитать пару сотен страниц

Одни и те же данные хранятся в огромном количестве копийФильмы, песни, книги, фотографии и т.д. и т.п.

Что будет, если дедуплицировать весь интернет?На уровне компаний сокращение объемов хранения бывает в десятки раз.

Мнимые закономерности

В отсутствие надежных моделей, обнаруженные при помощи Big Data закономерности, могут оказаться мнимыми.

Чудес не бывает: Из большой кучи данных теория сама собой не построится.

https://hbr.org/2014/03/google-flu-trends-failure-shows-good-data-big-data/

https://hbr.org/2014/03/google-flu-trends-failure-shows-good-data-big-data/

Изобилие данных

Неконтролируемый доступ к различным источникам вызывает риск того, что человек не может отделить существенную информацию от несущественной.

Умберто ЭКО

Big Data: Сомнения и надежды

Часть II. Надежды

Топ-6 источников информации, анализ которых наиболее востребован

36%

36%

43%

49%

52%

55%

Электронные изображения

Внешние информационные хранилища данных

Данные веб-посещений, веб-аналитика

E-mail

Информация в системе документооборота / ECM-системе

Хранилища различных электронных документов (PowerPoint, таблицы, PDF, XML, т.д).

*Исследование DOCFLOW 2014

Есть запрос рынка на аналитику!

Топ-5 наиболее востребованных типов анализа

*Исследование DOCFLOW 2014

50%

51%

51%

52%

73%

Сличение информации

Изучение трендов, закономерностей, взаимосвязей

Отслеживание веб-статистики посещений

Построение прогнозов, моделирование

Поиск по ключевым словам, фразам в тексте

Почему говорим о Big Data на Docfow?

Docflow – конференция и выставка по управлению информацией и электронным документооборотом. Где тут Big Data?

80-90% полезной для бизнеса информации хранится в неструктурированном виде.

Взрывной рост объемов данных вызван, прежде всего, ростом неструктурированной информации.

Лучше вместе!

Поэтому…

Big Data = Big Content

Источник: http://info.aiim.org/digital-landfill/newaiimo/2012/03/15/big-data-and-big-content-just-hype-or-a-real-opportunity

Джон Манчини,Президент AIIM

http://info.aiim.org/digital-landfill/newaiimo/2012/03/15/big-data-and-big-content-just-hype-or-a-real-opportunity

Комментарии к схеме Манчини

1. Прошлые десятилетия мы концентрировали усилия на регистрации и хранении информации и на ее использовании непосредственно в бизнес-процессе

2. Была проделана большая работа в основном со структурированнойстороны, меньше с неструктурированной. Дело не в ее объеме – у нас не было инструментов для интерпретации неструктурированной информации.

3. Системы вовлеченности породили большие объемы структурированных и неструктурированных данных.

4. Hadoop и NoSQL драматически снизили стоимость обработки огромных массивов данных.

5. Прогресс в семантике, поиске, контентной и текстовой аналитике впервые делает возможным анализ неструктурированной информации.

6. Впервые достигнуто сочетание доступности (благодаря облакам) и понятности (благодаря аналитическим технологиям BI).

Документ больше не «черный ящик»

Документ

Метаданные

Документ

Метаданные

СЭД ничего не знает и не хочет знать о внутренней структуре документа.Работа только с карточкой.

Аналитическая система работает как с метаданными, так и непосредственно с контентом документа.

Это и внушает надежду на прогресс в технологиях ECM.

Назад Вперед

Рабочие вопросы для дискуссии

• Что с Большими данными и аналитикой сегодня в России? Кто и как использует эти технологии на практике?

• Каковы запросы компаний (заказчиков) сегодня в области работы с накопленными данными?

• Каковы зоны внимания в использовании аналитики больших данных для компаний?

• Какие сценарии еще не входят в «привычный спрос», однако уже реализуемы и ведут к ощутимой бизнес-выгоде для компаний?

• Каковы финансовые и организационные выгоды использования технологии? Можно ли рассчитать эффект?

• Что происходит после того, как Большие Данные собраны и проанализированы - насколько эффективно удается использовать полученную информацию для решения бизнес задач компании?

Internet

Docflow 2015 Панель Аналитика больших данных - Станислав Макаров