27
АНАЛІЗ ДАНИХ Бахрушин Володимир Євгенович, д.ф.-м.н., професор, академік АН вищої школи України Vladimir.Bakhrushin@gm ail.com

Презентація курсу з аналізу даних

Embed Size (px)

DESCRIPTION

Short description of educational course on data analysis (in Ukrainian)

Citation preview

АНАЛІЗ ДАНИХ

Бахрушин Володимир Євгенович,

д.ф.-м.н., професор, академік АН вищої школи України

[email protected]

Мета курсу

Статистичні методи аналізу даних широко використовують при дослідженні різноманітних систем і процесів – природних, технічних, екологічних, економічних, соціальних тощо. Важливе значення вони мають також при розробці програмного забезпечення й аналізі роботи програмних та інформаційних систем.

Метою навчальної дисципліни є ознайомлення студентів (аспірантів) з основами сучасних методів аналізу даних, необхідними для успішної професійної діяльності.

Модулі курсу

1. Основні поняття та завдання аналізу даних. Типи ознак. Описова статистика. Візуалізація даних.

2. Методи перевірки статистичних гіпотез. Однорідність вибірок. Ідентифікація моделей розподілу.

3. Перевірка зв'язку між ознаками.

4. Факторний аналіз.

5. Регресійний аналіз.

6. Класифікація даних.

7. Аналіз часових рядів.

8. Прогнозування часових рядів.

Модуль 1: Тематика

Кількісні, порядкові та якісні ознаки, їх властивості, допустимі операції та приклади застосування;

поняття й основні показники описової статистики;

показники центру розподілу;

показники розкиду даних стосовно центру розподілу;

інші показники описової статистики;

теоретична й емпірична функції розподілу імовірності;

функція щільності розподілу імовірності;

графічне подання даних, основні типи діаграм;

методи та засоби побудови описової статистики;

приклади застосування.

Модуль 1: Приклад завдання

1.Отримати вихідну вибірку. Вона може бути згенерована за допомогою програмних засобів або взята з наявних баз даних (ukrstat.gov.ua, pfts.com.ua, kinto.com.ua. vstup.info тощо).

2.Для отриманої вибірки розрахувати основні параметри описової статистики:

показники центру розподілу;показники розкиду даних стосовно центру;коефіцієнти асиметрії та ексцесу;

4. Побудувати гістограму відносних частот, графіки емпіричної функції розподілу й функції щільності розподілу, діаграму типу “ящик з вусами”.

Модуль 2: Тематика Поняття й основні типи статистичних гіпотез;

типи помилок при статистичному аналізі даних;

статистичні критерії та їх властивості;

параметричні й непараметричні критерії перевірки гіпотез про однорідність двох вибірок;

критерії згоди;

критерії значущості;

параметричні й непараметричні методи перевірки однорідності багатьох вибірок;

приклади реалізації та практичного застосування.

Модуль 2: Приклад завдання

1.Отримати дві вибірки (згенерувати вибірки згідно із заданими вимогами або взяти їх із вказаних баз даних).

2.Перевірити відповідність обох вибірок нормальному закону розподілу.

3.Обрати адекватні методи перевірки гіпотези про однорідність вибірок.

4.Перевірити гіпотезу про однорідність вибірок.

Модуль 2: Приклад завдання

1.Отримати 4 – 6 вибірок (згенерувати вибірки згідно із заданими вимогами, або взяти їх із вказаних баз даних).

2.Перевірити відповідність всіх вибірок нормальному закону розподілу.

3.Обрати адекватні методи перевірки гіпотез про однорідність вибірок.

4.Перевірити гіпотези про однорідність усієї сукупності вибірок.

Модуль 3: Тематика

Поняття та основні види статистичного зв'язку;

перевірка гіпотез про зв’язок між кількісними ознаками;

перевірка гіпотез про зв’язок між порядковими ознаками;

перевірка гіпотез про зв’язок між якісними ознаками;

перевірка гіпотез про зв’язок між змішаними ознаками;

поняття й основні типи множинної кореляції;

приклади реалізації та практичного застосування.

Модуль 3: Приклад завдання

1.Отримати дві вибірки (згенерувати вибірки, між якими є нелінійний статистичний зв’язок заданого типу, або взяти вибірки із вказаних баз даних).

2.Для отриманих вибірок побудувати кореляційне поле

3.Розрахувати коефіцієнт кореляції Пірсона та вибірковий коефіцієнт детермінації.

4.Зробити висновок про наявність та лінійність зв'язку.

Модуль 4: Тематика

Основні завдання факторного аналізу;

техніки факторного аналізу;

метод головних компонент;

метод головних факторів;

інші методи факторного аналізу;

методи обертання факторів;

критерії визначення кількості факторів;

приклади реалізації та практичного застосування.

Модуль 4: Приклад завдання

1.Отримати набір вихідних даних (згенерувати вибірки згідно із вказаними вимогами або взяти вибірки із вказаних баз даних).

2.Для отриманих вибірок побудувати коваріаційну матрицю.

3.Розрахувати власні числа та власні вектори цієї матриці.

4.Визначити кількість головних компонент, потрібну для забезпечення заданої якості моделі.

5.Визначити головні компоненти та матрицю факторного перетворення.

Модуль 5: Тематика

Загальна характеристика методів та завдань регресійного аналізу;

класифікація методів регресійного аналізу; структурна й параметрична ідентифікація

однофакторних регресійних моделей; структурна й параметрична ідентифікація

багатофакторних регресійних моделей; поняття мультиколінеарності та методи її усунення; критерії та методи оцінювання якості регресійних

моделей; приклади реалізації та застосування регресійних

моделей.

Модуль 5: Приклад завдання

1.Отримати набір вихідних даних (згенерувати вибірки згідно із вказаними вимогами або взяти вибірки із вказаних баз даних).

2.Перевірити наявність мультиколінеарності вихідних даних.

3.Визначити структуру моделі.

4.Визначити параметри моделі.

5.Перевірити адекватність побудованої моделі, а також значущість моделі та її складових.

Модуль 6: Тематика

Основні завдання та методи класифікації даних;

поняття й показники якості класифікації;

основні типи класів;

параметричні методи класифікації із навчанням;

параметричні методи класифікації без навчання;

непараметричні методи класифікації із навчанням;

непараметричні методи класифікації без навчання;

міри відстані, подібності та відмінності;

приклади реалізації та практичного застосування.

Модуль 6:Приклад завдання

1.Отримати набір вихідних даних (згенерувати вибірки згідно із вказаними вимогами або взяти вибірки із вказаних баз даних).

2.Побудувати графік функції щільності розподілу й оцінити кількість компонент суміші розподілів та їх параметри.

3.Розробити програмну реалізацію ЕМ алгоритму.

4.Використовуючі розроблене програмне забезпечення та беручі отримані оцінки параметрів як початкове наближення визначити параметри суміші розподілів.

Модуль 7: Тематика

Поняття, класифікація та основні характеристики часових рядів;

основні складові часових рядів та їх моделі; критерії перевірки наявності тренда часових рядів; методи виокремлення та аналізу основних складових

часових рядів; методи згладжування часових рядів; приклади реалізації та практичного застосування.

Модуль 7: Приклад завдання

1.Отримати вихідні дані (згенерувати згідно із заданими вимогами або взяти з наявних баз даних);

2.Для побудованого ряду розрахувати: середній рівень (середнє хронологічне);абсолютні прирости, темпи зростання й темпи

приросту (ланцюгові, базисні стосовно початкового рівня й середні);

відповідні середні значення;коефіцієнти прискорення.

Модуль 7: Приклад завдання

Для побудованого у попередньому завданні часового ряду:

1.Здійснити згладжування методом ковзних середніх з довжинами інтервалу згладжування 3, 7 та 51. Порівняти та пояснити отримані результати.

2.Перевірити гіпотезу про існування тренда за критеріями: серій, що ґрунтується на медіані вибірки; висхідних та спадних серій; Абе.

3.Для досліджуваного часового ряду підібрати модель тренда за допомогою методу найменших квадратів.

Модуль 8: Тематика

Поняття стаціонарності часового ряду;

методи перевірки стаціонарності часових рядів;

основні моделі стаціонарних часових рядів та методи їх ідентифікації;

методи перетворення для отримання стаціонарних часових рядів;

класифікація прогнозів;

показники точності прогнозів;

методи прогнозування часових рядів;

приклади реалізації й практичного застосування.

Модуль 8:Приклад завдання

1.Отримати вихідні дані (згенерувати згідно із заданими вимогами або взяти з наявних баз даних).

2.Перетворити вихідний часовий ряд до стаціонарного (якщо потрібно).

3. Ідентифікувати параметри ARMA моделі отриманого ряду за результатами аналізу АКФ та ЧАКФ.

4.Обрати найкращу модель досліджуваного ряду, використовуючі критерії Акаїке й Шварця.

5.Виконати діагностичну перевірку моделі за результатами аналізу АКФ та ЧАКФ.

6.Побудувати прогноз.

Література1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы

эконометрики. – М.: ЮНИТИ, 1998

2. Бахрушин В.Є. Аналіз даних. – Запоріжжя: ГУ “ЗІДМУ”, 2006.

3. Бахрушин В.Є. Методи аналізу даних. – Запоріжжя: КПУ, 2011.

4. Бахрушин В.Є. Часові ряди. – Запоріжжя: ГУ “ЗІДМУ”, 2006.

5. Брандт З. Анализ данных: Статистические и вычислительные методы для научных работников и инженеров. − М.: Мир, ООО "Издательство АСТ", 2003.

6. Гайдышев И. Анализ и обработка данных: специальный справочник. – С.Пб: Питер, 2001.

7. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х т. – М.: Финансы и статистика, 1987.

Література8. Дубова Т.А. Статистические методы прогнозирования. – М.:

ЮНИТИ, 2003.

9. Дубров А.М. Многомерные статистические методы / А.М. Дуб ров, В.С. Мхитарян, Л.И. Трошин. – М. : Финансы и статистика, 1998.

10. Кобзарь А.И. Прикладная математическая статистика / А.И. Кобзарь. – М. : Физматлит, 2006.

11. Многомерный статистический анализ в экономике / Под ред. В.Н. Тамашевича – М.: ЮНИТИ, 1999.

12. Орлов А.И. Прикладная статистика / А.И. Орлов. – М. : Экзамен, 2006.

13. Статистический анализ данных в системе R / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. – Воронеж: ВГАУ, 2010.

14. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. − М.: ИНФРА−М, 2003.

Джерела Інтернет

1. Биометрика (Томск)

2. Высокие статистические технологии

3. Група з аналізу даних ВКонтакті

4. Комп’ютерний аналіз даних (ЧДУ)

5. Пси-фактор: Статистические методы в психологии и социологии

6. Сторінка проф. Б.Ю. Лемешко

7. Ходасевич Н.Б. Обработка экспериментальных данных на ЭВМ

8. Центр статистических технологий (Санкт-Петербург)

9. BaseGroup Labs: Технологии анализа данных

10.R: Анализ и визуализация данных

11.Statistics with R

12.StatSoft: Электронный учебник по статистике

Деякі публікації автора1. Бахрушин А.В., Бахрушин В.Е. Тестирование гипотез о нелинейных связях с

использованием языка программирования R // Системні технології: Регіональний міжвузівський збірник наукових праць. Дніпропетровськ, 2013. - № 3(86). – С. 168 – 172.

2. Бахрушин В.Є., Ігнахіна М.О. Побудова описової статистики складних систем та графічне зображення даних за допомогою мови програмування R // Складні системи і процеси. – 2012. - № 2. – С. 3 – 13.

3. Бахрушин В.Є., Дудко І. О. Уточнення моделей нормального розподілу на основі мінімізації критерію Колмогорова - Смирнова // Системні технології: Регіональний міжвузівський збірник наукових праць. Дніпропетровськ, 2012. - № 5(82). – С. 95 – 103.

4. Бахрушин В.Є., Дудко І.О. Використання методу k-середніх для ідентифікації моделей неоднорідних розподілів випадкових величин // Вісник НТУ "ХПІ". Сер. Інформатика та моделювання. – Харків: НТУ «ХПІ». – 2012. – № 62 (968). – С. 52 – 57.

5. Бахрушин В.Є. Аналіз динаміки макроекономічних показників України // Держава та регіони. Сер. Економіка та підприємництво. – 2012. – № 4. – С. 5 – 10.

6. Бахрушин В.Є., Ігнахіна М.О. Застосування емпіричних функцій розподілу в дослідженні соціально-економічних систем // Складні системи і процеси. – 2012. - № 1. – С. 103 – 111.

Деякі публікації автора

7. Бахрушин В.Є. Статистичний аналіз ЗНО 2009 – 2011 // Higher Education in Ukraine: Internationalization, Reform, Innovation. International Conference. April 20-21, 2012. Kyiv, Ukraine. Електронне видання:

http://educationconferenceua2012.org.ua/doc/Bakhrushin_UA_Paper.doc 8. Бахрушин В.Є. Статистичний аналіз рейтингів українських університетів // Осв

іта і управління. – 2011. – № 2 – 3. – С. 30 – 37.

9. Бахрушин В.Є., Биткін С.В., Литвин В.М. та ін. Прогнозування динаміки цін на кокс // Складні системи і процеси. – 2011. – № 2. – С. 65 – 69.

10. Бахрушин В.Е. Статистический анализ дифференциальных связей в колебательных системах // Фундаментальные физико-математические проблемы и моделирование технико-технологических систем: Ежегодный сборник научных трудов, вып. 14. Труды второй международной конференции Моделирование нелинейных процессов и систем / Под ред. Л.А. Уваровой. – М.: Янус-К, 2011. – С. 57 – 62.

11. Бахрушин В.Є. Статистичний аналіз університетських рейтингів // Освіта і управління. – 2011. – № 1. – С. 7 – 12.

12. Бахрушин В.Є. Довготривала динаміка індексу ПФТС // Держава та регіони. Сер. Економіка та підприємництво. – 2011. - № 5. – С. 10 – 14.

13. Бахрушин В.Е. Проблемы идентификации моделей распределения случайных величин с применением современного программного обеспечения // Успехи современного естествознания. – 2011. – № 11. – С. 50 – 54.

Деякі публікації автора14. Бахрушин В.Є.

Методы оценивания характеристик нелинейных статистических связей // Системні технології: Регіональний міжвузівський збірник наукових праць. Дніпропетровськ, 2011. - № 2(73). – С. 9 – 14.

15. Бахрушин В.Є., Биткін С.В., Литвин В.М. та ін. Кореляції в динаміці індексу ПФТС й цін на сталь та енергоресурси // Складні системи і процеси. – 2010. – № 2. – С. 78 – 82.

16. Бахрушин В.Е. Статистический анализ университетских рейтингов // Успехи современного естествознания. – 2010, № 12. – С. 118 – 119.

17. Бахрушин В.Е., Журавель С.В., Игнахина М.А. Автоматизация определения результатов тестирования // Управляющие системы и машины. – 2010. – N 2. – С. 10 – 12.

18. Бахрушин В.Е., Павленко В.Е., Петрова С.В. Применение выборочного коэффициента детерминации для построения и анализа кросс-корреляционных функций // Фундаментальные физико-математические проблемы и моделирование технико-технологических систем / Под ред. Ю.М. Соломенцева, Б.Н. Четверушкина, А.В. Боголюбова и др. – М.: МГТУ "СТАНКИН", Янус-К, 2010. – Вып. 13. – С. 4 – 12.

19. Бахрушин В.Е., Журавель С.В., Игнахина М.А. Эмпирические функции распределения результатов тестирования выпускников школ // Управляющие системы и машины. – 2009. – № 2. – С. 82-84.

20. Бахрушин В.Е., Игнахина М.А. Статистичний аналіз неоднорідності товщини епітаксійних шарів кремнієвих композицій // Складні системи і процеси. – 2008. - № 1. – С. 3 – 8.