Upload
stanislav-makarov
View
86
Download
2
Embed Size (px)
Citation preview
19 мая 2015 Москва, Рэдиссон Славянская www.docflow.ru
Панельная дискуссия
Сценарии, примеры и возможности использования технологий аналитики больших данных
19 мая 2015 Москва, Рэдиссон Славянская www.docflow.ru
Ведущий – Станислав Макаров
Big Data: Сомнения и надежды
Часть I. Сомнения
Маркетинговая лихорадка
Big Data! Как много в этом звуке для сердца вендора слилось!
Рисунок: http://www.gensleron.com/work/2013/3/19/a-take-on-tech-big-data.html
Сначала напугать заказчика
АААААА!!!
Информация растет!
Каждую минуту!!!
В интернете много подобной инфографики. И ведь не поспоришь…
Зеттабайт и йотабайт – уже мало.Встречаем Бронтобайт и Геопбайт!
http://www.fastcompany.com/3033549/internet-of-things/hps-post-electronic-solution-to-tomorrows-huge-data
Подвергай все сомнению
• Насколько информация уникальна?
• Какую пользу из нее можно извлечь?
• Как долго ее нужно хранить?
Пример: Big Ben и Big Data
Лондон посещает в год 17 млн. туристов.
Каждый делает фото Биг Бена.
Одна фотография занимает примерно 1 МБ.
Итого мы имеем 17 ТБ данных.
Сколько в этом полезной информации?
Big Ben photo: About 254,000,000 results
Биг Бен - ¼ Петабайта
Мультиплицирование информации
Способность людей потреблять информацию нисколько не вырослаВ день можно просмотреть несколько фильмов или прочитать пару сотен страниц
Одни и те же данные хранятся в огромном количестве копийФильмы, песни, книги, фотографии и т.д. и т.п.
Что будет, если дедуплицировать весь интернет?На уровне компаний сокращение объемов хранения бывает в десятки раз.
Мнимые закономерности
В отсутствие надежных моделей, обнаруженные при помощи Big Data закономерности, могут оказаться мнимыми.
Чудес не бывает: Из большой кучи данных теория сама собой не построится.
https://hbr.org/2014/03/google-flu-trends-failure-shows-good-data-big-data/
Изобилие данных
Неконтролируемый доступ к различным источникам вызывает риск того, что человек не может отделить существенную информацию от несущественной.
Умберто ЭКО
Big Data: Сомнения и надежды
Часть II. Надежды
Топ-6 источников информации, анализ которых наиболее востребован
36%
36%
43%
49%
52%
55%
Электронные изображения
Внешние информационные хранилища данных
Данные веб-посещений, веб-аналитика
Информация в системе документооборота / ECM-системе
Хранилища различных электронных документов (PowerPoint, таблицы, PDF, XML, т.д).
*Исследование DOCFLOW 2014
Есть запрос рынка на аналитику!
Топ-5 наиболее востребованных типов анализа
*Исследование DOCFLOW 2014
50%
51%
51%
52%
73%
Сличение информации
Изучение трендов, закономерностей, взаимосвязей
Отслеживание веб-статистики посещений
Построение прогнозов, моделирование
Поиск по ключевым словам, фразам в тексте
Почему говорим о Big Data на Docfow?
Docflow – конференция и выставка по управлению информацией и электронным документооборотом. Где тут Big Data?
80-90% полезной для бизнеса информации хранится в неструктурированном виде.
Взрывной рост объемов данных вызван, прежде всего, ростом неструктурированной информации.
Лучше вместе!
Поэтому…
Big Data = Big Content
Источник: http://info.aiim.org/digital-landfill/newaiimo/2012/03/15/big-data-and-big-content-just-hype-or-a-real-opportunity
Джон Манчини,Президент AIIM
Комментарии к схеме Манчини
1. Прошлые десятилетия мы концентрировали усилия на регистрации и хранении информации и на ее использовании непосредственно в бизнес-процессе
2. Была проделана большая работа в основном со структурированнойстороны, меньше с неструктурированной. Дело не в ее объеме – у нас не было инструментов для интерпретации неструктурированной информации.
3. Системы вовлеченности породили большие объемы структурированных и неструктурированных данных.
4. Hadoop и NoSQL драматически снизили стоимость обработки огромных массивов данных.
5. Прогресс в семантике, поиске, контентной и текстовой аналитике впервые делает возможным анализ неструктурированной информации.
6. Впервые достигнуто сочетание доступности (благодаря облакам) и понятности (благодаря аналитическим технологиям BI).
Документ больше не «черный ящик»
Документ
Метаданные
Документ
Метаданные
СЭД ничего не знает и не хочет знать о внутренней структуре документа.Работа только с карточкой.
Аналитическая система работает как с метаданными, так и непосредственно с контентом документа.
Это и внушает надежду на прогресс в технологиях ECM.
Назад Вперед
Рабочие вопросы для дискуссии
• Что с Большими данными и аналитикой сегодня в России? Кто и как использует эти технологии на практике?
• Каковы запросы компаний (заказчиков) сегодня в области работы с накопленными данными?
• Каковы зоны внимания в использовании аналитики больших данных для компаний?
• Какие сценарии еще не входят в «привычный спрос», однако уже реализуемы и ведут к ощутимой бизнес-выгоде для компаний?
• Каковы финансовые и организационные выгоды использования технологии? Можно ли рассчитать эффект?
• Что происходит после того, как Большие Данные собраны и проанализированы - насколько эффективно удается использовать полученную информацию для решения бизнес задач компании?