49
Истраживање података Ненад Митић Математички факултет [email protected]

R274 Istra ivanje podataka 1 - University of Belgradepoincare.matf.bg.ac.rs/~nenad/ip1/1.Uvod.pdf · 2020. 2. 10. · Za konkretnog studenta vrednost atributa 1 znaci da jeˇ on slušao

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Истраживање података

    Ненад Митић

    Математички факултет[email protected]

  • Увод Подаци и карактеристике

    Увод

    Енглески термин: Data miningУводни део

    Садржаj курсаПроцес истраживања податакаПодаци - врсте и типовиОсновне технике ИП

  • Увод Подаци и карактеристике

    Садржаj курса

    Увод у истраживање податакаОсновни подаци и дефинициjеТипови и квалитет податакаМере сличности и различитости

    Процес припреме податакаВизуелизациjа резултатаКласификациjа података

    Основни концепти и алгоритмиАлтерантивни методи класификациjеАлгоритми и перформансеСВМ (машине са потпорним векторима)

  • Увод Подаци и карактеристике

    Садржаj курса (наставак)

    Кластер анализаОсновне техникеНапредне технике

    Правила придруживањаОсновни концепти и алгоритмиНапредни концепти и алгоритми

    Додаци - кратке напоменеДимензиона редукциjаОткривање аномалиjаИстраживање текстуалних податакаПримена истраживања податакаПММЛ (енг. Predictive Model Markup Language)

  • Увод Подаци и карактеристике

    Зашто истраживање података

    Потреба:

    стално се прикупљаjу великеколичине података

    различите области: наука,инжењерство, медицина,пословне примене, ...

    велика количина равнихподатака за обраду

  • Увод Подаци и карактеристике

    Зашто истраживање података (наставак)

    снажниjи рачунари

    добиjање концизних иупотребљивих информациjаза одређени циљ

    пословне апликациjе -квалитетниjе информациjе -предност у односу наконкуренциjу

  • Увод Подаци и карактеристике

    Зашто истраживање података (наставак)

    због количине и просторно-временске природеподатака традиционалне методе за анализу нисупогодне за употребу

    постоjе ’сакривене’ информациjе коjе нису одмах(или лако) уочљиве

    традиционалне методе - велики део података никадаи не стиже до анализе

    ...

  • Увод Подаци и карактеристике

    Дефинициjа истраживања података

    Не постоjи строга дефинициjа. Наjчешће секористе

    процес коjи укључуjе прикупљање података, њиховочишћење, обраду, анализу и добиjање кориснихсазнања о њима

    проналажење скривених информациjа у базиподатака

  • Увод Подаци и карактеристике

    Дефинициjа истраживања података

    нетривиjално издваjање имплицитних, претноднонепознатих и потенциjално корисних информациjа избаза података

    интегрални део откривања знања у базама података(енг. Knowledge Discovery in Databases, KDD)

  • Увод Подаци и карактеристике

    Порекло истраживања података

    Статистика

    Вештачка интелигенциjа

    Машинско учење

    Препознавање образаца

    Технологиjе база података

    Паралелно и дистрибуирано рачунарство

  • Увод Подаци и карактеристике

    Карактеристике истраживања података

    Алгоритамска заснованост

    Сваки алгоритам покашава да укалупи податке у некимодел

    Бира се модел коjи jе наjближи карактеристикамаподатака

    Подаци су у базама података

    Потребна знања из области база података,машинског учења, вероватноће и статистике,вештачке интелигенциjе, препознавања образаца,програмирања, ....

  • Увод Подаци и карактеристике

    Истраживање података - сроднедисциплине

    Издвоjени подаци и чињенице мораjу да се чуваjу,да се њима управља и да буду анализирани

    Big dataPredictive analyticsData Science...

  • Увод Подаци и карактеристике

    Фазе процеса ИП

  • Увод Подаци и карактеристике

    Изазови истраживања података

    Велики броj проблема и могућих решења

    Нема готових рецепата за добиjање резултата

    Велики броj различитих формата/типова податакакоjи утичу на могуће решење

    Интерпретациjа резултата

    Визуелизациjа резултата

    Скалабилност (велика количина улазног материjала)

    Димензионалност (велики броj атрибута)

    Сложени и хетерогени подаци (мултимедиjа,...)

    Квалитет података

  • Увод Подаци и карактеристике

    Изазови истраживања података

    Нарушавање приватности

    Профилисање (нпр. шта ако jе неко погрешноквалификован?)

    Неауторизовано коришћење - заштита таjностиинформациjа

    Потреба за обрадом података коjи се непрекидноприкупљаjу - поток података (енг. data stream)

    Однос према великим подацима (енг.big data)

  • Увод Подаци и карактеристике

    Шта су подаци

    Подаци (енг. data set)

    Скуп обjеката и њихових атрибута

    Атрибути су своjство или карактеристика обjекта

    Пример: температура, боjа аута, величина екрана,итд.

    Атрибути су познати и као променљиве, поља,особине, карактеристике, ....

    Скуп атрибута описуjе обjекат

    Обjекат - користе се и термини слог, пример, ентитет,инстанца, ...

  • Увод Подаци и карактеристике

    Вредност атрибутаВредности атрибута су броjеви или симболи коjису придружени атрибуту

    Разлика између атрибута и њихових вредности

    Исти атрибути могу да буду пресликани уразличите вредности атрибутаПример: дужина може да се мери у метримаили километрима

    Различити атрибути могу да буду пресликани у истискуп вредности, при чему особине вредност атрибутамогу да буду различите

    Пример: вредности за броj година и тежину суцелоброjне, али броj година не може да сесмањуjе док тежина може

  • Увод Подаци и карактеристике

    Дискретни атрибути

    Атрибути могу да буду описани и преко броjавредности коjе садрже

    Дискретни атрибутиИмаjу коначан броj или преброjиво бесконачан скуп вредности

    Пример: поштански броjеви, рачуни, скуп речи у неком

    документу

    Често се приказуjу као целоброjне променљиве

    Бинарни атрибути су специjалан случаj дискретних атрибута

  • Увод Подаци и карактеристике

    Континуирани атрибути

    Континуирани (непрекидни, континуални)атрибути

    Скуп вредности ових атрибута чине реални броjеви

    Пример: температура, висина, тежина, притисак, брзина

    Реалне вредности могу да се мере и представљаjу само преко

    коначног броjа цифара

    Уобичаjено - реални броjеви у покретном зарезу

  • Увод Подаци и карактеристике

    Асиметрични атрибути

    Jедино се присуство не-нула вредности сматразначаjним

    На пример, нека jе обjекат студент чиjи су атрибути

    информациjа да ли jе слушао неки од курсева коjи се држе на

    факултету (1-слушао, 0-ниjе слушао)

    Када су два студента слична по курсевима коjе су слушали?

    Бинарни атрибути код коjих су битне не-нулавредности се зову асиметрични бинарни атрибути

  • Увод Подаци и карактеристике

    Типови атрибута према операциjама

    Тип атрибута може да се одреди према операциjи коjаможе да се примени на атрибут

    Врста операциjе Rbr Операциjа Тип атрибута

    Различитост 1 = i 6= Именски (1)Уређење 2 i ≥ Редни (1,2)Адитивност 3 + i − Интервални (1,2,3)Мултипликативност 4 × i \ Размерни (1,2,3,4)

    Категорички атрибути: именски и редни

    Непрекидни атрибути: интервални и размерни

  • Увод Подаци и карактеристике

    Независни подаци

    Међусобно независни подаци - наjчешћемултидимензионални или текстуални

    Индекс Име Презиме Датум уписа Датумрођења

    Месторођења

    20140021 Милош Перић 06.07.2014 20.01.1995 Београд20140022 Мариjана Савковић 05.07.2014 11.03.1995 Краљево20130023 Сања Терзић 04.07.2013 09.11.1994 Београд20130024 Никола Вуковић 04.07.2013 17.09.199420140025 Мариjана Савковић 06.07.2014 04.02.1995 Краљево20140026 Зорица Миладиновић 06.07.2014 08.10.1995 Врање20130027 Милена Станковић

  • Увод Подаци и карактеристике

    Мултидимензионални подаци

    Наjедноставниjи облик независних податакаСастоjе се од слогова (инстанци, трансакциjа,ентитета, торки, обjекта, вектора-особина,...)Слог се састоjи од поља (атрибути,димензиjе, ...)Примери

    Квантитативни (температура, висина, тежина,притисак, брзина)Категорички (JМБГ, боjа очиjу, поштански броj,радно место)БинарниТекстуални

  • Увод Подаци и карактеристике

    Мултидимензионални подаци

    x11 x21 x

    31 x

    41 ... x

    d1

    x12 x22 x

    32 x

    42 ... x

    d2

    x13 x23 x

    33 x

    43 ... x

    d3

    x14 x24 x

    34 x

    44 ... x

    d4

    x15 x25 x

    35 x

    45 ... x

    d5

    x16 x26 x

    36 x

    46 ... x

    d6

    ... ... ... ... ... ...

    x1n x2n x

    3n x

    4n ... xdn

    Дефинициjа 1. Скуп мултидимензионалних података Dпредставља скуп од n слогова X1, ...,Xn таквих да сваки одслогова Xi садржи скуп од d особина означених са(x1i , ...,x

    di )

  • Увод Подаци и карактеристике

    Ретки подаци

    x11 x31 x

    41 ...

    x12 ...

    x23 ... xd3

    x44 ...

    x15 x35 ...

    x26 ...

    ... ... ... ... ... ...

    x2n ... xdn

  • Увод Подаци и карактеристике

    Међусобно зависни подаци

    Међусобно зависни подаци - имплицитна илиексплицитна зависност између података

    Индекс Име Презиме Датум уписа Датумрођења

    Месторођења

    20140021 Милош Перић 06.07.2014 20.01.1995 Београд20140022 Мариjана Савковић 05.07.2014 11.03.1995 Краљево20130023 Сања Терзић 04.07.2013 09.11.1994 Београд20130024 Никола Вуковић 04.07.2013 17.09.199420140025 Мариjана Савковић 06.07.2014 04.02.1995 Краљево20140026 Зорица Миладиновић 06.07.2014 08.10.1995 Врање20130027 Милена Станковић

  • Увод Подаци и карактеристике

    Међусобно зависни подаци

    Отежано добиjање резултатаРазличити формати

    временске сериjе, дискретни подаци, просторни подаци,графовски и мрежни подаци, ...

    Имплицитна зависностнпр. сви сензори се понашаjу слично и ако се у некомтренутку уочи велико одступање оно jе од интереса заистраживање

    Експлицитна зависностнпр. граф посета неком веб саjту, утицаj лекова на другилек/болест, ...

  • Увод Подаци и карактеристике

    Подаци везани за временске сериjе

    Садрже вредности

    добиjене

    непрекидним

    мерењем кроз време

    Имплицитна

    зависност од

    претходних мерења

    (npr. ЕКГ, мерење

    температуре, ...

  • Увод Подаци и карактеристике

    Подаци везани за временске сериjе

    Издваjање зависности од временских атрибута

    Контекстуална зависност - зависностдефинисана преко садржаjа

    нпр. временски тренутак или позициjа придобиjању податка

    Зависност понашања - вредности коjе суизмерене у одговараjућем контексту

    може да постоjи више оваквих атрибута заjедну инстанцу

  • Увод Подаци и карактеристике

    Подаци везани за временске сериjе

    Дефинициjа 2. Временска сериjа дужине n и димензиjеd садржи d нумеричких карактеристика за сваку од nвременских тачака t1, t2, ...tn. Свака временска тачкасадржи компоненту за сваку од d сериjа, тако да сувредности добиjене у временском тренутку ti jеднакеYi = (y

    1i , ...,y

    di ). Вредност j-те сериjе у временском

    тренутку ti jе y ij

  • Увод Подаци и карактеристике

    Дискретне секвенце и ниске

    Могу да се посматраjу као категоричкиеквивалент временских сериjаКонтекстуални атрибут jе временска тачкаили позициjа у уређењу

    Атрибут коjиодређуjе понашањеjе категоричкогтипа

  • Увод Подаци и карактеристике

    Дискретне секвенце и ниске

    Дефинициjа 3. Дискретна секвенца дужине n идимензиjе d садржи d особина са дискретним вредностимаза сваку од n различитих временских тачака t1, t2, ...tn.Свака од n компоненти Yi садржи атрибуте са дискретнимкарактеристикама (понашањем) коjи су прикупљени у i -тоjвременскоj тачки.

  • Увод Подаци и карактеристике

    Просторни подаци

    Одређуjу просторне локациjе

    Атрибути (наjчешће два) коjи одређуjупростор су контекстуални

    Други атрибути (коjих може да буде више)могу да моделираjу понашање

  • Увод Подаци и карактеристике

    Просторни подаци

    Дефинициjа 4. Слог просторних података са d димензиjасадржи d атрибута коjи приказуjу понашање и jедан иливише контекстуалних података коjи одређуjу локациjу. Скупd димензионих просторних података садржи dдимензионих слогова X1, ...,Xn, и скуп од n локациjаL1, ...Ln, таквих да jе слог Xi придружен локациjи Li .

  • Увод Подаци и карактеристике

    Просторно-временски подаци

    Два типа просторно-временских податакаИ просторни и временски атрибути могу дабуду контекстуални (нпр. мерење вариjациjетемпературе мора кроз време)Временски атрибут jе контекстуалан, апросторни моделира понашање (нпр. анализатраjекториjа)

  • Увод Подаци и карактеристике

    Графовски и мрежни подаци

    Вредности могу дабуду придруженечворовима у мрежи

    Однос измеђувредности података jеприказан преко грана

    У неким случаjевимаатрибути могу да будудодељени чворовима

  • Увод Подаци и карактеристике

    Графовски и мрежни подаци

    Дефинициjа 5. Мрежа G = (N ,A) садржи скуп од Nчворова и скуп грана A, при чему гране из A представљаjурелациjе између чворова. Скуп атрибута Xi може да будепридружен чвору i , или скуп атрибута Yij може да будепридружен грани (i , j).

  • Увод Подаци и карактеристике

    Наjзначаjниjи градивни блокови у ИП

    Подаци

    Правила придруживања

    Класификациjа

    Кластеровање

    Анализа и визуелизациjа резултата

  • Увод Подаци и карактеристике

    Подаци у процесу ИП

    Мултидимензионална база D са n слогова и dатрибута

    Претходна припрема података (препроцесирање)РедукциjаОткривање аномалиjа...

    Представљање у облику матрице података Dдимензиjе n×d

    Релациjе између колона

    Релациjе између врста

    Релациjе између група атрибута у врстама

  • Увод Подаци и карактеристике

    Аномалиjе и елементи ван граница

    Дефинициjа 6. (Откривање аномалиjа) За дату матрицуподатака D одредити редове у матрици коjи су jакоразличити од остатка редова

    Податак jе елемент ван граница (енг. outlier) ако jе узначаjноj мери различит од осталих података

    Синоними: аномалиjа, абнормалност,дискоординациjа, ...

    Пример: откривање упада у рачунарски систем,идентификациjа СПАМ порука, злоупотребакредитних картица, медицинска диjагностика,спровођење закона, ....

  • Увод Подаци и карактеристике

    Правила придруживања

    Наjjедноставниjи облик: ретка бинарна база (0/1, санаjвећим броjем 0)

    Колоне - ставке, врста трансакциjе:(i , j) = 1 −→ трансакциjа i садржи ставку j

    Бр.

    транс.

    хлеб млеко пелене пиво jаjа кола

    1 1 1 0 0 0 0

    2 1 0 1 1 1 0

    3 0 1 1 1 0 1

    4 1 1 1 1 0 0

    5 1 1 1 0 0 1

  • Увод Подаци и карактеристике

    Правила придруживања

    Дефинициjа 7. У датоj бинарноj матрици D величинеn×d посматраjу се сви подскупови колона A такви да свевредности у тим колонама у одговараjућоj врсти имаjувредност 1. Тада важе следеће ознаке:

    A jе скуп ставки

    #(A) означава броj поjављивања скупа ставки A укомплетном скупу

    N представља броj редова у комплетном скупу

    A⇒ B означава да jе скуп ставки B придружен скупуставки A

  • Увод Подаци и карактеристике

    Правила придруживања

    Дефинициjа 8. Нека су A и B два скупа ставки. Тада сеподршка (енг. support) правила придруживања A⇒ B уознаци sup дефинише као количник броjа трансакциjа коjесадрже A и B у односу на укупан броj трансакциjа

    sup(A⇒ B) = #(A∪B)N

    Дефинициjа 9. Нека су A и B два скупа ставки. Тада сепоузданост (поверење, енг. confidence) правилапридруживања A⇒ B у ознаци conf дефинише каоколичник броjа трансакциjа коjе садрже A и B у односу наброj трансакциjа коjе садрже A

    conf (A⇒ B) = #(A∪B)#(A)

  • Увод Подаци и карактеристике

    Правила придруживања

    Задатак jе одредити правила придруживања (енг.association rules) коjа повезуjу атрибуте у истоjинстанци

    Интересантна су правила коjа имаjу одређен нивоподршке и поузданости

    За налажење интересантних правила често се некористе апсолутне фреквенциjе већ χ2 мера

    Елементи матрице не мораjу да буду бинарневредности

  • Увод Подаци и карактеристике

    Правила придруживања

    Бр.

    транс.

    хлеб млеко пелене пиво jаjа кола

    1 1 1 0 0 0 0

    2 1 0 1 1 1 0

    3 0 1 1 1 0 1

    4 1 1 1 1 0 0

    5 1 1 1 0 0 1

    #({млеко, хлеб, пелене})=2

    за {млеко, пелене}⇒{пиво}

    sup({млеко, хлеб, пелене})=2/5

    sup=#({млеко, пелене, пиво})N = 2/5

    conf=#({млеко, пелене, пиво})#({млеко, пелене}) = 2/3

  • Увод Подаци и карактеристике

    Кластеровање

    Груписање врста по ’сличности’

    Кластеровање се у литератури jавља и каокласификациjа без надзора

    x11 x21 x

    31 x

    41 ... x

    d1

    x12 x22 x

    32 x

    42 ... x

    d2

    x13 x23 x

    33 x

    43 ... x

    d3

    x14 x24 x

    34 x

    44 ... x

    d4

    x15 x25 x

    35 x

    45 ... x

    d5

    x16 x26 x

    36 x

    46 ... x

    d6

    ... ... ... ... ... ...

    x1n x2n x

    3n x

    4n ... xdn

  • Увод Подаци и карактеристике

    Класификациjа

    Релациjе између колона - нека колона jе значаjниjа оддругих

    Класификациjа се у литератури jавља и каоКласификациjа под назором

    x11 x21 x

    31 x

    41 ... x

    d1

    x12 x22 x

    32 x

    42 ... x

    d2

    x13 x23 x

    33 x

    43 ... x

    d3

    x14 x24 x

    34 x

    44 ... x

    d4

    x15 x25 x

    35 x

    45 ... x

    d5

    x16 x26 x

    36 x

    46 ... x

    d6

    ... ... ... ... ... ...

    x1n x2n x

    3n x

    4n ... xdn

  • Увод Подаци и карактеристике

    Класификациjа (наставак)

    Дефинициjа 10. (Класификациjа података) За датуматрицу података D из базе D величине n×d и вредностознака класа у интервалу {1, ...,k} коjе су придруженесваком од n слогова (редова) формира се модел затренирање M , коjи може да се користи за предвиђањеознаке класа d-димензионалног слога Y /∈D .

    Модел се формира над подацима за тренингТест подаци /∈D (скуп коjи се користи заформирање модела)

  • Увод Подаци и карактеристике

    Неки примери ИП апликациjа

    Распоређивање производа у радњамаПрепоруке купцимаАномалиjе у веб логовима...

    0.Plus: 0.Reset: 0.Minus: 0.EndRight: 0.StepRight: 0.PlayPauseRight: 0.PlayRight: 0.PauseRight: 0.PlayPauseLeft: 0.PlayLeft: 0.PauseLeft: 0.StepLeft: 0.EndLeft: anm0: 0.11: 0.10: 0.9: 0.8: 0.7: 0.6: 0.5: 0.4: 0.3: 0.2: 0.1: 0.0: