24
Современные методы анализаданных для бизнеса в стиле

современные методы анализа данных для бизнеса в стиле Google(2)

Embed Size (px)

Citation preview

Page 1: современные методы анализа данных для бизнеса в стиле Google(2)

Современные методыанализа данных

для бизнеса в стиле

Page 2: современные методы анализа данных для бизнеса в стиле Google(2)

“Мы тонем в информации, но

задыхаемся от нехватки знаний”

Джон Нейсбит

Page 3: современные методы анализа данных для бизнеса в стиле Google(2)

Информации много не бывает?

Ежедневно:• отправляется более 144.8 млрд. email;• пользователи Twitter публикуют более 340,000 твитов;• пользователи Youtube загружают видео-материалы длительностью более 72

часов; • люди тратят более 272, 000 долларов США на онлайн-шопинг ;

Каждую минуту:• блогеры Tumblr публикуют более 27 ,000 новых постов;• пользователи Instagram публикуют более 3,600 новых фотографий;• в Интернете создается более чем 571 новых web-сайтов;

Каждую секунду:• держатели VISA проводят более 2,500 транзакций.

Транзакционная база клиентов Walmart насчитывает более 2.5 петабайт информации, объем которой растет с каждой минутой!

Данные о данных

Page 4: современные методы анализа данных для бизнеса в стиле Google(2)

“ Когда данных становится слишком

много, меняется отношение к ним.

И проблема именно в этом – в смене

вычислительной парадигмы, в

изменении подходов”

Сергей Карелов

Page 5: современные методы анализа данных для бизнеса в стиле Google(2)

Информация как основной бизнес-ресурс

Что делать с этой информацией?

Варианты:a) Ничего. Хранить и не допускать утечкиb) А что с ней делать? c) Не стоит хранить лишнееd) Ждать, когда эта информация понадобитсяe) Анализировать информацию с целью получения новых знаний

Деятельность в любой отрасли бизнеса сопровождается регистрацией и записью всех подробностей ее деятельности. Как результат, компании накапливают огромные массивы данных.

Page 6: современные методы анализа данных для бизнеса в стиле Google(2)

Анализ

структурированных и

неструктурированных

данных:

для чего и как ?

Page 7: современные методы анализа данных для бизнеса в стиле Google(2)

Сначала было слово… …или все-таки интерес к анализу данных?

1995 год…

Двое студентов-докторантовСтэнфордского Университета ЛарриПейдж и Сергей Брин увлеченыисследованиями в области анализаданных в больших неструктурированныхмассивах информации.

Молодые ученые приходят к выводу онеобходимости нового подхода к поискуинформации в огромных базах данных.

Особенный интерес вызывает новая область знаний, объединяющаястатистику и информационные технологии, которая называется Data Mining.

Начинаются исследования.

Page 8: современные методы анализа данных для бизнеса в стиле Google(2)

8

Что такое Data Mining (DM)?

СтатистикаИнформационные

технологии

Data Mining

Data Mining - это методинтеллектуального анализа данных сцелью извлечения неочевидных илискрытых закономерностей избольших массивов данных.

Методы Data Mining получилиширокое распространение в бизнесе,маркетинге, менеджменте, финансах,образовании, науке, анализемультимедийной информации вИнтернете и пр.

Page 9: современные методы анализа данных для бизнеса в стиле Google(2)

Рождение эпохи

Так родилась новая технология поискаGoogle, а Ларри Пейдж и СергейБрин основали одну из крупнейших вмире компаний, с именем которойассоциируется целая эпоха свободнойинформации, а также поколениелюдей с нестандартным мышлениеми новыми подходами к решениюпроблем.

И это поколение людей, которыеделают бизнес используяинформацию и современныетехнологии, или бизнес в стиле

Page 10: современные методы анализа данных для бизнеса в стиле Google(2)

Преимущества Data Mining

• нахождение неявных, скрытых закономерностей в больших массивах данныхи извлечение неочевидной, скрытой информации;

• классические методы анализа данных уже не соответствуют современнымреалиям. Например, в классической статистике применяются методывыдвижения гипотез, тогда как Data Mining выявляет объективносуществующие классы;

• Data Mining является смежной дисциплиной, объединяющей статистику,анализ данных и IT. Поэтому не предполагает глубокой математическойподготовки специалистов. Ранее отсутствие соответствующей подготовкиспециалиста приводило к поверхностному анализу данных, а важныенеочевидные закономерности в данных «ускользали» от его внимания;

• методы Data Mining развиваются стремительными темпами. Каждый годсовершенствуются программные продукты в этом направлении.

Page 11: современные методы анализа данных для бизнеса в стиле Google(2)

Классические стат. методы анализа данных vs. Data Mining

Человеку, который не знаком с технологией Data Mining, может показаться,что она ничем не отличается от обыкновенной статистики. Но это только напервый взгляд.

На самом деле имеется ряд существенных концептуальных различий.Например, математическая статистика предполагает усреднение значений попроизведенной выборке, вследствие чего работа будет осуществляться сприблизительными показателями. Здесь, несомненно, есть и свои плюсы,особенно если требуется осуществить “грубый” анализ или проверитьзаранее сформулированную гипотезу. Однако для принятия управленческихрешений такой метод подходит не всегда.

В отличие от математической статистики в основу концепции Data Miningположен принцип шаблонов (паттернов) — обнаруженных в процессе сбораинформации закономерностей, свойственных тем или иным подвыборкамданных.

Page 12: современные методы анализа данных для бизнеса в стиле Google(2)

Бизнес этих компаний немыслим без инструментов Data Mining

… и многие другие

Page 13: современные методы анализа данных для бизнеса в стиле Google(2)

Специалисты в сфере Data Mining и Data Analysis пользуются огромным спросом на Западе

“Аналитик данных (Data Scientist): самая «горячая» профессия 21-го века”

Harvard Business Review

“Аналитики данных (Data Scientists) зарабатывают $300,000 в год“

Wall Street Journal

Развитие Data Mining и спрос на специалистов области анализа данных

Page 14: современные методы анализа данных для бизнеса в стиле Google(2)

Перспективные направления Data Mining в казахстанском бизнесе

Основные направления казахстанского бизнеса, гдеиспользование инструментов Data Mining обеспечитконкурентное преимущество:

• Маркетинг

• Банковский сектор

• Страхование

• и многие другие

Page 15: современные методы анализа данных для бизнеса в стиле Google(2)

• Анализ покупательской корзины (анализ сходства). Выявление товаров,которые покупатели стремятся приобретать вместе. Знание покупательскойкорзины необходимо для улучшения рекламы, выработки стратегии созданиязапасов товаров и способов раскладки в торговых залах.

• Исследование временных шаблонов помогает принимать решения осоздании товарных запасов. Оно дает ответы на вопросы типа "Если сегодняпокупатель приобрел видеокамеру, то через какое время он вероятнее всегокупит новые батарейки и пленку?

• Создание прогнозных моделей дает возможность узнавать характерпотребностей различных категорий клиентов с определенным поведением,например, покупающих товары известных дизайнеров или посещающихраспродажи. Эти знания нужны для разработки точно направленных,экономичных мероприятий по продвижению товаров.

Методы Data Mining: Маркетинг

Page 16: современные методы анализа данных для бизнеса в стиле Google(2)

Традиционные маркетинговые исследования предполагают сбор новыхданных о клиенте с помощью опросов, фокус-групп и пр. с целью узнатьопределения факторов, влияющих на потребительское поведение.

Отличие инструментов KDD в том, что выявляются скрытые закономерностипотребительской активности, самые глубокие пласты знаний о поведенииклиента на основе уже имеющихся баз данных. Метод также позволяетсегментировать клиентов, находить клиентов с общими интересами и строитьмодели, прогнозирующие поведение клиента, что позволяет приниматьболее эффективные управленческие решения.

Пример: Интернет-магазин активно использует инструментыData Mining, благодаря которым сайт автоматически предлагает своимклиентам новые товары на основе анализа базы истории покупок. Этот жеалгоритм использует Facebook, Linkedin прочие.

Традиционные маркетинговые исследования vs. Data Mining

Page 17: современные методы анализа данных для бизнеса в стиле Google(2)

Методы Data Mining: Банковский сектор

• Управление кредитными рисками банка. Скоринговые модели дляпрогнозирования дефолта заемщика: application scoring, behavior scoring и пр.Данные модели строятся на данных о кредитной истории действующихклиентов.

• Выявление мошенничества с кредитными карточками (fraud detection).Путем анализа прошлых транзакций, которые впоследствии оказалисьмошенническими, банк выявляет некоторые стереотипы такогомошенничества.

• Сегментация клиентов. Разбивая клиентов на различные категории, банкиделают свою маркетинговую политику более целенаправленной ирезультативной, предлагая различные виды услуг разным группам клиентов.

• Прогнозирование изменений клиентуры. Data Mining помогает банкамстроить прогнозные модели ценности своих клиентов, и соответствующимобразом обслуживать каждую категорию.

Page 18: современные методы анализа данных для бизнеса в стиле Google(2)

• Выявление мошенничества. Страховые компании могут снизить уровеньмошенничества, отыскивая определенные стереотипы в заявлениях овыплате страхового возмещения, характеризующих взаимоотношения междуюристами, врачами и заявителями.

• Анализ риска. Путем выявления сочетаний факторов, связанных соплаченными заявлениями, страховщики могут уменьшить свои потери пообязательствам.

Известен случай, когда в США крупная страховая компания обнаружила, чтосуммы, выплаченные по заявлениям людей, состоящих в браке, вдвоепревышает суммы по заявлениям одиноких людей. Компания отреагировалана это новое знание пересмотром своей общей политики предоставленияскидок семейным клиентам.

Методы Data Mining: Страхование

Page 19: современные методы анализа данных для бизнеса в стиле Google(2)

Другие приложения Data Mining в бизнесе

• выявление лояльности клиентов. Определение характеристик клиентов,которые, один раз воспользовавшись услугами данной компании, с большойдолей вероятности останутся ей верными;

• развитие автомобильной промышленности. При сборке автомобилейпроизводители должны учитывать требования каждого клиента, поэтому имнужен прогноз популярности определенных характеристик и знание того,какие характеристики обычно заказываются вместе;

• политика гарантий. Производителям нужно предсказывать число клиентов,которые подадут гарантийные заявки, и среднюю стоимость заявок;

• поощрение часто летающих клиентов. Авиакомпании могут обнаружитьгруппу клиентов, которых поощрительными мерами можно побудить летатьбольше.

Например, одна авиакомпания обнаружила категорию клиентов, которыесовершали много полетов на короткие расстояния, не накапливая достаточномиль для вступления в их клубы. Поэтому были изменены правила приема вклуб, чтобы поощрять число полетов так же, как и мили.

Page 20: современные методы анализа данных для бизнеса в стиле Google(2)

20

______

______

______

Трансфор-мированные

данные

Закономерностии

паттерны

Target Data

Первичные данные

KnowledgeВалидация и

интерпретация

Интеграция

Понимание

Процесс анализа данных с применением методов Data Mining

База

Данных

Новые сведения

и выводы

Управленческие

решения

Page 21: современные методы анализа данных для бизнеса в стиле Google(2)

Программные продукты для анализа с применением методов Data Mining

• SAS Enterprise Miner (very expensive);

• R (free);

• WEKA - Waikato Environment for Knowledge Analysis (free);

• Rapid Miner (free);

• SPSS Clementine;

• Statistica Data Miner;

• MS SQL Server;

• KnowledgeMiner;

• Polyanalyst;

• KnowledgeSTUDIO;

• и прочие.

Page 22: современные методы анализа данных для бизнеса в стиле Google(2)

Data Mining в Казахстане

• Недостаточная осведомленность и недоверие Компаний

“Главное препятствие на пути Больших Данных – разруха в головах”

Сергей Карелов

• Нехватка специалистов. Университеты пока не готовят специалистов вданном направлении. Кроме того, нет соответствующих курсов, тренингов исеминаров по данной тематике.

• Отсутствие качественных БД. Не у всех компаний существуют возможности исоответствующее ПО для хранения больших массивов данных.

• Необходимость интеграции. Для полноценного и качественного внедренияметодов Data Mining необходима интеграция с инструментами BusinessIntelligence (BI), что может привести к дополнительным затратам.

В Казахстане технология анализа данных Data Mining не пользуетсяпопулярностью. Причины могут быть следующие:

Page 23: современные методы анализа данных для бизнеса в стиле Google(2)

1. Обучение. Существует огромное многообразие тренингов, но неткурсов по прикладной статистике, Data Mining и статистическомупрограммированию в R. Необходимо обучение как для менеджментакомпаний, так и для сотрудников соответствующих отделов.

2. Консалтинг. Назрела необходимость в консалтинге компаний, гденакапливаются крупные массивы данных, по вопроса анализа данных,в том числе и с применением технологии Data Mining.

3. Внедрение. Внедрение методов Data Mining на базе отдельныхпрограммных продуктов, а в последующем - интеграция синструментами BI.

Внедрение Data Mining в Казахстане

Page 24: современные методы анализа данных для бизнеса в стиле Google(2)

Спасибо за внимание!