Data Mining

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Data Mining

Харьковский национальный университет имени В. Н. Каразина Факультет компьютерных наук

Подготовил: доцент каф. искусственного интеллекта и программного обеспечения, к.ф.-м. н. Гахов Андрей Владимирович 2014/2015 уч. год

ПЛАН КУРСА• Введение в Data Mining • Узнаем больше о своих данных • Подготовка данных (preprocesing) • Хранилища данных • Поиск шаблонов в данных • Методы классификации • Методы кластеризации

ВВЕДЕНИЕ В DATA MINING

ЧТО ТАКОЕ DATA MINING

• Data mining (с англ.) - добыча данных

• Data mining - поиск знаний (или интересных шаблонов и закономерностей) в данных

• Data mining - процесс поиска интересных шаблонов и новых знаний из большого количества данных

ПРОЦЕСС ПОЛУЧЕНИЯ ЗНАНИЙ ИЗ ДАННЫХ

ШаблоныData miningХранилищеданных

файлы

Знание

ОСНОВНЫЕ ЭТАПЫ• Очистка данныхудаление шумов и противоречивых данных

• Интеграция данныхобъединение данных из различных источников данных

• Выбор данныхтолько данные, имеющие отношение к поставленной задаче

• Трансформация данныхпредставление данных в формах, удобных для анализа и аггрегаций

• Data mining применение различных методов для выделение шаблонов данных

• Изучение шаблонов идентификация важных шаблонов, содержащих новые знания

• Презентация знаний использование визуализации и других техник представления полученных знаний

КАКИЕ ШАБЛОНЫ МОГУТ БЫТЬ НАЙДЕНЫ?

• описательныеОписательные шаблоны характеризуют свойства данных в анализируемом наборе данных

• предсказывающие Предсказывающие шаблоны позволяют используя анализируемый набор данных делать предсказания для других наборов данных

ОПИСАНИЕ КЛАССА ИЛИ КОНЦЕПЦИИ

Описание некоторого класса или концепции с помощью краткого и выразительного набора терминов

• Такое описание может быть получено:

• при помощи характеризации данных, путем краткого представления данных рассматриваемого класса (target class) в общих терминах

• путем сравнения рассматриваемого класса с одним или несколькими альтернативными классами - дискриминация данных

ПРИМЕР: ХАРАКТЕРИЗАЦИЯ ДАННЫХ

• Менеджер по продажам рассматривает такую задачу: Описать характеристики клиентов, которые потратили больше $5000.

• Результат: возраст 40-50 лет, работающие и имеющие высший кредитный рейтинг

ПРИМЕР: ДИСКРИМИНАЦИЯ ДАННЫХ• Менеджер по продажам рассматривает такую задачу: Сравнить характеристики пользователей, покупающих некоторую группу товаров часто (чаще 2 раз в месяц), и пользователей, которые покупают очень редко (менее 3 раз в год).

• Результат: 80% частых покупателей данной группы товаров имеют возраст 20-40 лет и высшее образование, в то время как 60% нечастых покупателей - пенсионеры или люди до 18 лет и без высшего образования. При более детальном анализе, например, можно сказать, что отличия двух рассматриваемых групп - уровень дохода.

ЧАСТЫЕ ШАБЛОНЫШаблоны, которые часто встречаются в данных:

• подмножества Пример: хлеб и молоко покупаются вместе

• последовательностиПример: сначала покупается ноутбук, потом цифровая камера, а потом карта памяти

• структурные шаблоны (могут включать в себя последовательности и подмножества) Пример: покупается ноутбук вместе с чехлом, потом сканер, принтер или мфу, причем если купили принтер или мфу - то покупается бумага ежемесячно.

ПРИМЕР: АНАЛИЗ АССОЦИАЦИЙ

• Менеджер рассматривает такую задачу: Найти товары, которые часто покупаются вместе.

• Результат:покупка(X, “компьютер”) => покупка(X, “ПО”) [supp = 1%, conf = 50%]т.е. 1% всех покупок включает компьютер и ПО вместе, в 50% случаев при покупке компьютера покупается и ПО.

• supp(A) - относительное количество случаев, когда правило A выполняется (support)

• conf(A=>B) - относительное количество случаев, когда выполняется B после A (confidence). conf(A=>B) = p(B|A)

ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ

• Классификация - процесс поиска модели (или функции), которая описывает и отличает классы или концепции в данных

• Пример: возраст(X, “молодой”) AND доход(X, “высокий”) => class(X, “A”)возраст(X, “молодой”) AND доход(X, “низкий”) => class(X, “B”) возраст(X, “средний”) => class(X, “C”)возраст(X, “старый”) => class(X, “C”)

ПРЕДСКАЗАТЕЛЬНЫЙ АНАЛИЗ ДЛЯ ПОИСКА ШАБЛОНОВ

• Регрессионный анализ - статистическая методология, используемая для численного предсказания.

• При классификации предсказывают сатегории (дискретные и без определенного порядка), а модели регрессии - непрерывные функции

• Пример:

0 3 6 9 12

КЛАСТЕРНЫЙ АНАЛИЗ• Кластерный анализ - процесс анализа данных без использования информации о их классах (например, когда такой информации просто нет)

• Пример:

0 3 6 9 12

ПОИСК АНОМАЛИЙ• Данные могут содержать элементы, которые не отвечают общему поведению или модели данных - аномалии (outliers).

• Пример: 100

КАКИЕ ШАБЛОНЫ ПРЕДСТАВЛЯЮТ ИНТЕРЕСИнтересные шаблоны должны:

• быть легко понимаемы для человека

• быть верными и для тестовых данных с некоторой степенью достоверности (valid)

• быть потенциально полезными в решении рассматриваемой задачи (useful)

• нести новое знание для исследователя (novel)

• давать возможность предпринимать дейсвие на основе полученного знания (actionable)

ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ

Data Mining

Machine LearningСтатистика

Базы данных

Хранилища данных

Информационный поиск

Приложения

HPвычисления

Алгоритмы

Визуализация

Распознание шаблонов

СТАТИСТИКА• Статистика изучает вопросы сбора, анализа, интерпретации и презентации данных

• Статистическая модель - это набор математических функций , описывающий поведение объектов в рассматриваемом классе в терминах случайных переменных и их вероятностные распределения

• Статистические модели могут быть результатом Data Mining

• Статистические методы применяются для проверки и обоснования результатов Data Mining

MACHINE LEARNING

• Machine Learning рассматривает вопросы как компьютер может учиться (или улучшать свою эффективность) основываясь на данных

• Supervised learning - обучение с учителем. Рассматриваются в основном задачи классификации. И с п о л ь з у ю т с я у ж е п о м е ч е н н ы е (классифицированные) данные.

• Unsupervised learning - самостоятельное обучение. Рассматриваются в основном задачи кластеризации.

ОСНОВНЫЕ ПРОБЛЕМЫ DATA MINING

• Разработка методологий

• Взаимодействие с пользователем

• Эффективность и масштабируемость

• Разнообразие типов данных

• Data Mining и общество

РАЗРАБОТКА МЕТОДОЛОГИЙ

Исследователи, разрабатывая новые методы, учитывают следующие аспекты:

• Получение новых типов знаний

• Получение данных в пространствах многих измерений

• Интеграция методов из многих дисциплин

• Обработка зашумленных и неполных данных

ВЗАИМОДЕЙСТВИЕ С ПОЛЬЗОВАТЕЛЕМ

Пользователь играет одну из важных ролей в процессе Data Mining. Основными вопросами исследований являются:

• Как взаимодействовать с системой Data Mining?

• Как интегрировать предметные знания пользователей в процесс Data Mining?

• Как представить и визуализировать результаты?

ЭФФЕКТИВНОСТЬ И МАСШТАБИРУЕМОСТЬ

Вопросы эффективности и масштабируемости всегда рассматриваются при сравнении различных алгоритмов Data Mining.

• Ал г о р и тмы до лжны бы т ь эффе к т и в ными и л е г к о масштабируемыми , чтобы иметь возможность добывать информацию из огромного количества данных. Время выполнения должно быть предсказуемо, ограничено и приемлемо для приложений

• Map/Reduce. Часто применяется техника разделения данных на части , каждая из которых обрабатывается параллельно несколькими процессами (с возможностью взаимодействия). После обработки полученные шаблоны объединяются.

ЛИТЕРАТУРА

• https://ru.wikipedia.org/wiki/Data_mining

• Дюк В.А., Самойленко А.П. Data Mining. Учебный курс

• Ситник В. Ф., Краснюк М. Т. Інтелектуальний аналіз даних (дейтамайнінг): Навч. посібник.

• J. Han, M. Kamber, J. Pei Data Mining: Concepts and Techniques

Data Mining - lecture 1 - 2014

Education

ICT619 Intelligent Systems Topic 6: Data Mining. ICT6192 Data Mining Introduction Business Applications of Data Mining Data Mining Activities

Data Mining and Machine Learningmadhavan/courses/dmml2020... · Madhavan Mukund Data Mining and Machine Learning Lecture 18, Jan{Apr 202012/17. Convolutional neural network Each \window"

Data Mining: Concepts and Techniquesvjit.ac.in/.../Data-Warehousing-Data-Mining-Lecture-notes...UNIT-1.pdfRelational data model, relational DBMS implementation ... Data mining, data

Data Mining Go Over Lecture Notes for Go Over Introduction to Data Mining by Minqi Zhou © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 1

Data Mining: Concepts and Techniques - G.G.U mining 1 30.08.13.pdf · Top-10 most popular data mining algorithms Major issues in data mining. August 30, ... 2013 Data Mining: Concepts

DATA MINING LECTURE 2 - ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η ...tsap/teaching/2015-cse012/slides/datamining-lect3.pdf · Data Mining Result Post-processing ... 6 No NULL 60K No 7 Yes

Business Intelligence Technologies – Data Mining Lecture 4 Classification, Decision Tree 1

Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น text-mining, web-mining, image-mining

Data Mining & Data Warehouse

Big Data & Data Mining

Data Mining

Data Mining - lecture 4 - 2014

1 CSE 881: Data Mining Lecture 10: Support Vector Machines

Data mining - TPA · เทคโนโลยี Data mining ประกอบไปด้วยขั้นตอนเทคโนโลยีอันสลับ เพิ่มมูลค่าข้อมูลทางธุรกิจด้วยData

Data Mining & Texte Mining Partie I : Data Mining Chapitre

Association Rule Mining - cju.ac.krdelab.cju.ac.kr/lecture/datamining/arm.pdf · 2016-10-04 · Data Mining: 2016-2 Association Rule Mining . 1 . Association Rule Mining . 1. What

DATA MINING LECTURE 13

Lecture 2 Data Mining

Datenbanksysteme 3 Sommer 2003 Data Mining - 1 Worzyk FH Anhalt Data Mining Definition, Anwendungsbespiele Data Mining Prozess Data Mining Cup –2001 –2002