12
Spis treści Przedmowa � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 17 Monika Książek Rozdział I Analiza danych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25 I� Teoria � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25 I�1� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25 I�2� Jednowymiarowa analiza zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � 26 I�3� Analiza zależności zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � 31 I�3�1� Test równości proporcji � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 32 I�3�2� Miary zależności � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 33 I�3�3� Testy niezależności � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 38 I�3�4� Testy i mierniki dla zmiennych porządkowych � � � � � � � � � � � � � � � � � � � � � 40 I�3�5� Analiza zależności dwóch zmiennych jakościowych w warstwach wyznaczanych przez inne zmienne jakościowe � � � � � � � � � 42 I�4� Modele log‑liniowe � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 45 I�5� Zmienne jakościowe jako zmienne objaśniające � � � � � � � � � � � � � � � � � � � � � � � � � � 47 I�5�1�Kodowanie zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 47 I�5�2� Problemy związane z obecnością zmiennych jakościowych w modelu � 50 I�5�3� Interakcje zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 52 I�5�4� Korzyści ze zmiany skali pomiaru zmiennych � � � � � � � � � � � � � � � � � � � � � � 53 I�6� Zmienne jakościowe jako zmienne objaśniane � � � � � � � � � � � � � � � � � � � � � � � � � � � 54 I�6�1� Uogólnione modele liniowe dla zmiennych jakościowych � � � � � � � � � � � � 54 I�6�2� Interpretacja parametrów � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 59 I�6�3� Badanie istotności statystycznej parametrów � � � � � � � � � � � � � � � � � � � � � � � 60 I�6�4� Ocena jakości dopasowania modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 61 II� Przykłady � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 63 II�1� Analiza jednowymiarowa � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 68 II�2� Analiza tabeli 2 × 2 � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 71 II�3� Analiza tabeli 2 × 2 w podgrupach � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 77 II�4� Model log‑liniowy � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 86

Spis treści - Kolegiakolegia.sgh.waw.pl/pl/KAE/struktura/ISiD/struktura/ZAHZiAW/... · 8 1 Statystyki dopasowania ... V 1 DataFlux dfPower Studio ... V 3 SAS Data Integration Studio

  • Upload
    buicong

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Spis treściPrzedmowa � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 17

Monika KsiążekRozdział IAnaliza danych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25I� Teoria � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25

I�1� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25I�2� Jednowymiarowa analiza zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � 26I�3� Analiza zależności zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � 31

I�3�1� Test równości proporcji � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 32I�3�2� Miary zależności � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 33I�3�3� Testy niezależności � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 38I�3�4� Testy i mierniki dla zmiennych porządkowych � � � � � � � � � � � � � � � � � � � � � 40I�3�5� Analiza zależności dwóch zmiennych jakościowych

w warstwach wyznaczanych przez inne zmienne jakościowe � � � � � � � � � 42I�4� Modele log‑liniowe � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 45I�5� Zmienne jakościowe jako zmienne objaśniające � � � � � � � � � � � � � � � � � � � � � � � � � � 47

I�5�1�Kodowanie zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 47I�5�2� Problemy związane z obecnością zmiennych jakościowych w modelu � 50I�5�3� Interakcje zmiennych jakościowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 52I�5�4� Korzyści ze zmiany skali pomiaru zmiennych � � � � � � � � � � � � � � � � � � � � � � 53

I�6� Zmienne jakościowe jako zmienne objaśniane � � � � � � � � � � � � � � � � � � � � � � � � � � � 54I�6�1� Uogólnione modele liniowe dla zmiennych jakościowych � � � � � � � � � � � � 54I�6�2� Interpretacja parametrów � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 59I�6�3� Badanie istotności statystycznej parametrów � � � � � � � � � � � � � � � � � � � � � � � 60I�6�4� Ocena jakości dopasowania modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 61

II� Przykłady � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 63II�1� Analiza jednowymiarowa � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 68II�2� Analiza tabeli 2 × 2 � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 71II�3� Analiza tabeli 2 × 2 w podgrupach � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 77II�4� Model log‑liniowy � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 86

Zaawansowane metody analizy statystycznej�indb 5 11/07/2012 23:34:58

6 Spis treści

II�5� Kodowanie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 93II�6� Binarna regresja logistyczna � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 101II�7� Wielomianowa i porządkowa regresja logistyczna � � � � � � � � � � � � � � � � � � � � � � 111II�8� Uwzględnianie wpływów nieliniowych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 120II�9� Interakcje � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 130

Bibliografia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 137

Iga SikorskaRozdział IIAnaliza zmiennych ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 139I� Model klas ukrytych (LCA) � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 139

I�1� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 139I�2� Zapis modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 144

I�2�1� Założenia modelu klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 147I�2�2� Parametry modelu klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 148

I�3� Estymacja modelu klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 149I�3�1� Estymacja parametrów w SAS � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 153

I�4� Weryfikacja modelu klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 154I�4�1� Braki danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 161I�4�2� Ograniczenia nakładane na parametry � � � � � � � � � � � � � � � � � � � � � � � � � � � 162I�4�3� Liczba klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 163I�4�4� Interpretacja klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 165I�4�5� Homogeniczność i rozróżnialność modeli klas ukrytych � � � � � � � � � � � � 166

I�5� Zmienne grupujące w modelu klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � 168I�6� Zmienne kontrolne w modelu klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � 171

I�6�1� Weryfikacja modelu ze zmiennymi kontrolnymi � � � � � � � � � � � � � � � � � � � 172I�7� Procedury LCA i LTA � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 173I�8� Przykład modelu klas ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 176

II� Model stanów ukrytych (LTA) � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 193II�1� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 193II�2� Zapis modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 193II�3� Estymacja i weryfikacja modelu stanów ukrytych � � � � � � � � � � � � � � � � � � � � � � 198

II�3�1� Braki danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 199II�3�2� Ograniczenia nakładane na parametry � � � � � � � � � � � � � � � � � � � � � � � � � � 199

II�4� Zmienne grupujące w modelu stanów ukrytych � � � � � � � � � � � � � � � � � � � � � � � � 202II�5� Zmienne kontrolne w modelu stanów ukrytych � � � � � � � � � � � � � � � � � � � � � � � � 204II�6� Przykład modelu stanów ukrytych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 206

Bibliografia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 220

Zaawansowane metody analizy statystycznej�indb 6 11/07/2012 23:34:58

7Spis treści

Ewa Frątczak, Małgorzata MianowskaRozdział IIIModele mieszane � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 223I� Podstawy teoretyczne � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 223

I�1� Liniowy model mieszany � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 228I�1�1� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 228I�1�2� Zapis liniowego modelu mieszanego � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 232I�1�3� PROC GLM i PROC MIXED � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 238I�1�4� PROC HPMIXED � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 243I�1�5� Diagnostyka i strategie budowy modelu � � � � � � � � � � � � � � � � � � � � � � � � � � 244

I�2� Uogólniony model mieszany � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 247I�2�1� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 247I�2�2� Zapis uogólnionego liniowego modelu mieszanego � � � � � � � � � � � � � � � � 251I�2�3� Procedura GLIMMIX i metody estymacji � � � � � � � � � � � � � � � � � � � � � � � � � 253

I�3� Nieliniowy model mieszany � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 254I�3�1� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 254I�3�2� Zapis nieliniowego modelu mieszanego � � � � � � � � � � � � � � � � � � � � � � � � � � 254I�3�3� Procedura NLMIXED i metoda estymacji � � � � � � � � � � � � � � � � � � � � � � � � 255

I�4� Podsumowanie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 257II� Przykłady estymacji modeli mieszanych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 259

Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 259II�1� Przykład 1 – model liniowy i liniowy model mieszany � � � � � � � � � � � � � � � � � � � 262II�2� Przykład 2 – liniowy model mieszany z interakcją � � � � � � � � � � � � � � � � � � � � � � 301II�3� Przykład 3 – model hierarchiczny � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 318II�4� Przykład 4 – uogólniony liniowy model mieszany i model nieliniowy � � � � 351II�5� Przykład 5 – estymacja modelu mieszanego w Enterprise Guide � � � � � � � � � 369

Bibliografia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 378

Załącznik 1. Teoria liniowych modeli mieszanych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 3811� Wprowadzenie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 3812� Zapis macierzowy � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 3813� Określenie postaci modeli mieszanych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 383

3�1� Ogólna postać liniowego modelu mieszanego � � � � � � � � � � � � � � � � � � � � � � � 3833�2� Rozkłady warunkowe i brzegowe � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 3843�3� Przykład: Krzywa wzrostu z symetryczną strukturą kowariancji � � � � � � 3863�4� Przykład: Układ podzielonych poletek (Split-Plot Design) � � � � � � � � � � � � 388

4� Estymacja parametrów, predykcja efektów losowych � � � � � � � � � � � � � � � � � � � � � 3924�1� Estymacja β i prognoza u: równania modelu mieszanego � � � � � � � � � � � � � 3924�2� Efekty losowe, grzbietowe oraz kurczenie � � � � � � � � � � � � � � � � � � � � � � � � � � 394

Zaawansowane metody analizy statystycznej�indb 7 11/07/2012 23:34:58

8 Spis treści

4�3� Wszystko o metodzie SWEEP � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 3964�4� Największa wiarygodność i ograniczona największa

wiarygodność dla parametrów kowariancji � � � � � � � � � � � � � � � � � � � � � � � � 3995� Własności statystyczne � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 4056� Wybór postaci modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 407

6�1� Porównania modeli z wykorzystaniem testów ilorazu wiarygodności � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 408

6�2� Porównania modeli z wykorzystaniem kryteriów informacyjnych � � � � 4097� Wnioskowanie i statystyki testujące � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 411

7�1� Wnioskowanie o parametrach kowariancji � � � � � � � � � � � � � � � � � � � � � � � � � 4117�2� Wnioskowanie o efektach stałych i losowych � � � � � � � � � � � � � � � � � � � � � � � 412

8� Prace cytowane w załączniku � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 414

Wioletta Grzenda Rozdział IVWybrane zagadnienia estymacji bayesowskiej � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 419I� Elementy teorii statystyki bayesowskiej � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 420

I�1� Metody bayesowskie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 420I�1�1� Twierdzenie Bayesa � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 422I�1�2� Rozkłady a priori � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 427I�1�3� Wnioskowanie bayesowskie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 432I�1�4� Uwagi ogólne dotyczące metod bayesowskich � � � � � � � � � � � � � � � � � � � � � 435

I�2� Metody Monte Carlo oparte na łańcuchach Markowa � � � � � � � � � � � � � � � � � � � 436I�2�1� Wybrane własności łańcuchów Markowa � � � � � � � � � � � � � � � � � � � � � � � � � 437I�2�2� Algorytm Metropolisa i algorytm Metropolisa–Hastingsa � � � � � � � � � � 442I�2�3� Próbnik Gibbsa � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 444I�2�4� Algorytm próbkowania adaptacyjnego z odrzucaniem � � � � � � � � � � � � � 445I�2�5� Zagadnienia dotyczące wyboru realizacji łańcucha Markowa � � � � � � � � 445I�2�6� Ocena zbieżności łańcuchów Markowa � � � � � � � � � � � � � � � � � � � � � � � � � � � 447I�2�7� Testy zbieżności łańcuchów Markowa � � � � � � � � � � � � � � � � � � � � � � � � � � � � 451

II� Przykłady zastosowań � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 459II�1 Materiał empiryczny � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 460II�2� Model regresji Poissona w ujęciu bayesowskim � � � � � � � � � � � � � � � � � � � � � � � � � 461II�3� Bayesowska estymacja uogólnionych modeli liniowych w systemie SAS � � � 462II�4� Przykłady bayesowskiej estymacji modeli regresji Poissona � � � � � � � � � � � � � � 466

II�4�1� Model Poissona z nieinformacyjnymi rozkładami normalnymi a priori � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 467

II�4�2� Model Poissona z informacyjnym rozkładem normalnym a priori i nieinformacyjnymi rozkładami normalnymi a priori � � � � � 490

Bibliografia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 499

Zaawansowane metody analizy statystycznej�indb 8 11/07/2012 23:34:58

9Spis treści

Kamil KonikiewiczRozdział VData Mining � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5031� Wprowadzenie do aplikacji SAS Enterprise Miner � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5052� Opis danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5123� Podział danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5144� Eksploracja danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5175� Drzewa decyzyjne � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 524

5�1� Postać modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5245�2� Budowa modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5255�3� Dobór zmiennych i przygotowanie danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5305�4� Lasy losowe � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 540

6� Regresja logistyczna � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5416�1� Postać modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5416�2� Przygotowanie danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 542

7� Sieci neuronowe MLP � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5547�1� Postać modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5547�2� Uczenie sieci � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 556

8� Ocena i wybór modelu � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5628�1� Statystyki dopasowania � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5628�2� Przepróbkowanie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5678�3� Scoring � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 570

Bibliografia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 570

Ewa Falkiewicz-Szporer, Łukasz LeszewskiRozdział VIWybrane zagadnienia jakości danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 573I� Podstawowe pojęcia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 574

I�1� Cechy dobrej jakości danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 574I�2� Źródła złej jakości danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 577I�3� Etapy tworzenia i transformacji informacji � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 579

II� Metodologia zarządzania jakością danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 580III� Filary zarządzania jakością danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 584

III�1� Tworzenie otoczenia sprzyjającego jakości danych � � � � � � � � � � � � � � � � � � � � � 585III�2� Rozwiązania organizacyjne � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 586III�3� Zapewnienie standardów w organizacji � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 587III�4� Monitorowanie i mierzenie jakości danych � � � � � � � � � � � � � � � � � � � � � � � � � � � 588III�5� Rola hurtowni danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 591III�6� Technologia i narzędzia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 591

Zaawansowane metody analizy statystycznej�indb 9 11/07/2012 23:34:59

10 Spis treści

IV� Etapy procesu czyszczenia danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 593IV�1� Profilowanie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 594IV�2� Czyszczenie danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 595IV�3� Integracja danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 596IV�4� Wzbogacanie danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 597IV�5� Monitorowanie danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 597

V� Narzędzia i techniki jakości danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 598V�1� DataFlux dfPower Studio � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 599V�2� DataFlux Integration Server � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 602V�3� SAS Data Integration Studio � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 603

VI� Standaryzacja danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 604VI�1� Tworzenie schematów standaryzacyjnych � � � � � � � � � � � � � � � � � � � � � � � � � � � � 606VI�2� Definicje standaryzacyjne � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 609

VII� Przykład zastosowania – implementacja procesów czyszczenia danych � � � � � � � � 610VII�1� Profilowanie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 611VII�2� Standaryzacja � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 614VII�3� Integracja danych � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 615

VIII� Podsumowanie � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 617Bibliografia � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 618

Streszczenia – Abstractcs � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 619Biogramy – Biograms � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 629

Zaawansowane metody analizy statystycznej�indb 10 11/07/2012 23:34:59

Table of contents

Preface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Monika KsiążekChapter I Categorical data analysis � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25 I� Theory � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25

I�1� Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 25 I�2� Unidimentional categorical data analysis � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 26 I�3� Categorical data dependence analysis � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 31

I�3�1� Proportions equality test � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 32 I�3�2� Dependence measures � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 33 I�3�3� Independence tests � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 38 I�3�4� Ordinal data tests and measures � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 40 I�3�5� Stratified categorical data dependence analysis � � � � � � � � � � � � � � � � � � � 42

I�4� Log‑linear models � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 45 I�5� Categorical variables as independent variables � � � � � � � � � � � � � � � � � � � � � � � � � 47

I�5�1� Categorical variables coding � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 47 I�5�2� Problems with categorical independent variables � � � � � � � � � � � � � � � � � 50 I�5�3� Categorical independent variables interactions � � � � � � � � � � � � � � � � � � � 52 I�5�4� Benefits from measurement scale change � � � � � � � � � � � � � � � � � � � � � � � � 53

I�6� Categorical variables as dependent variables � � � � � � � � � � � � � � � � � � � � � � � � � � 54 I�6�1� Generalized linear models for categorical variables � � � � � � � � � � � � � � � 54 I�6�2� Parameters interpretation � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 59 I�6�3� Parameters significance testing � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 60 I�6�4� Model quality assessment � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 61

II� Examples � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 63 II�1� Unidimentional categorical data analysis � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 68 II�2� Analysis of 2 × 2 table � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 71 II�3� Stratified analysis of 2 × 2 table � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 77 II�4� Log‑linear model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 86

Zaawansowane metody analizy statystycznej�indb 11 11/07/2012 23:34:59

12 Table of contents

II�5� Coding � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 93 II�6� Binary logistic regression � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 101 II�7� Multinomial and ordinal logistic regression � � � � � � � � � � � � � � � � � � � � � � � � � 111 II�8� Nonlinear effects inclusion � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 120 II�9� Interactions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 130

Bibliography � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 137

Iga SikorskaChapter II Latent variable analysis � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 139 I� Latent class analysis (LCA) � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 139

I�1� Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 139 I�2� The latent class model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 144

I�2�1� Assumptions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 147 I�2�2� Parameters � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 148

I�3� Estimation of latent class models � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 149 I�3�1� Estimation in SAS � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 153

I�4� Model fit � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 154 I�4�1� Missing data � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 161 I�4�2� Parameter restrictions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 162 I�4�3� Model selection � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 163 I�4�4� Interpretation of latent classes � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 165 I�4�5� Homogenity and latent class separation � � � � � � � � � � � � � � � � � � � � � � � � 166

I�5� Latent class model with grouping variables � � � � � � � � � � � � � � � � � � � � � � � � � � � 168 I�6� Latent class model with covariates � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 171

I�6�1� Verification of extended latent class model � � � � � � � � � � � � � � � � � � � � � � 172 I�7� LCA and LTA procedures � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 173 I�8� Example of latent class model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 176

II� Latent transition analysis (LTA) � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 193 II�1� Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 193 II�2� The latent transition model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 193 II�3� Estimation of latent transition model and model fit � � � � � � � � � � � � � � � � � � � 198

II�3�1� Missing data � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 199 II�3�2� Parameter restrictions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 199

II�4� Latent transition model with grouping variables � � � � � � � � � � � � � � � � � � � � � 202 II�5� Latent transition model with covariates � � � � � � � � � � � � � � � � � � � � � � � � � � � � 204 II�6� Example of the latent transition model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 206

Bibliography � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 220

Zaawansowane metody analizy statystycznej�indb 12 11/07/2012 23:34:59

13Table of contents

Ewa Frątczak, Małgorzata MianowskaChapter III Mixed models � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 223 I� Theoretical basis � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 223

I�1� Linear mixed model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 228 I�1�1� Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 228 I�1�2� Notation of a linear mixed model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 232 I�1�3� PROC GLM, PROC MIXED and estimation methods � � � � � � � � � � � � 238 I�1�4� PROC HPMIXED � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 243 I�1�5� Diagnostics and model building strategies � � � � � � � � � � � � � � � � � � � � � 244

I�2� Generalized linear mixed model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 247 I�2�1� Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 247 I�2�2� Notation of a generalized linear mixed model � � � � � � � � � � � � � � � � � � � 251 I�2�3� PROC GLIMMIX and estimation methods � � � � � � � � � � � � � � � � � � � � � 253

I�3� Nonlinear mixed model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 254 I�3�1� Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 254 I�3�2� Notation of a nonlinear mixed model � � � � � � � � � � � � � � � � � � � � � � � � � � 254 I�3�3� PROC NLMIXED and estimation methods � � � � � � � � � � � � � � � � � � � � � 255

I�4� Conclusions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 257 II� Examples of the mixed models estimation � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 259

Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 259 II�1�Example 1� Linear and linear mixed models � � � � � � � � � � � � � � � � � � � � � � � � � � 262 II�2� Example 2� Linear mixed model with interaction � � � � � � � � � � � � � � � � � � � � � 301 II�3� Example 3� Hierarchical mixed model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 318 II�4� Example 4� Generalized linear mixed and nonlinear mixed models � � � � � 351 II�5� Example 5� Linear mixed model estimation with Enterprise Guide � � � � � 369

Bibliography � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 378

Appendix 1. Linear mixed model theory � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 381 1� Introduction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 381 2� Matrix Notation � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 381 3� Formulation of the Mixed Model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 383

3�1� The General Linear Mixed Model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 383 3�2� Conditional and Marginal Distributions � � � � � � � � � � � � � � � � � � � � � � � � � 384 3�3� Example: Growth Curve with Compound Symmetry � � � � � � � � � � � � � � 386 3�4� Example: Split‑Plot Design � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 388

4� Estimating Parameters, Predicting Random Effects � � � � � � � � � � � � � � � � � � � � 392 4�1� Estimating β and Predicting u: The Mixed Model Equations � � � � � � � � � � � 392 4�2� Random Effects, Ridging, and Shrinking � � � � � � � � � � � � � � � � � � � � � � � � � � � � 394

Zaawansowane metody analizy statystycznej�indb 13 11/07/2012 23:34:59

14 Table of contents

4�3� It’s All in the SWEEP � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 396 4�4� Maximum Likelihood and Restricted Maximum Likelihood

for Covariance Parameters � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 399 5� Statistical Properties � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 405 6� Model Selection � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 407

6�1� Model Comparisons via Likelihood Ratio Tests � � � � � � � � � � � � � � � � � � 408 6�2� Model Comparisons via Information Criteria � � � � � � � � � � � � � � � � � � � � � � � 409 7� Inference and Test Statistics � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 411

7�1� Inference about the Covariance Parameters � � � � � � � � � � � � � � � � � � � � � � 411 7�2� Inference about Fixed and Random Effects � � � � � � � � � � � � � � � � � � � � � � � 412

8� Quoted in Appendix 1 publications � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 414

Wioletta Grzenda Chapter IVSelected Bayesian estimation issues � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 419 I� Elements of the theory of Bayesian statistics � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 420

I�1� Bayesian methods � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 420 I�1�1� Bayes’ theorem � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 422 I�1�2� Prior distribution � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 427 I�1�3� Bayesian inference � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 432 I�1�4� Comments on Bayesian methods � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 435

I�2� Markov Chain Monte Carlo Methods � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 436 I�2�1� The properties of Markov chains � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 437 I�2�2� Metropolis and Metropolis‑Hastings algorithms � � � � � � � � � � � � � � � 442 I�2�3� Gibbs sampler � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 444 I�2�4� Adaptive rejection sampling algorithm � � � � � � � � � � � � � � � � � � � � � � � � 445 I�2�5� The selection of the number of Markov chain samples � � � � � � � � � � � 445 I�2�6� The assessment of Markov chain convergence � � � � � � � � � � � � � � � � � � 447 I�2�7� Markov chains convergence tests � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 451

II� Examples � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 459 II�1� Empirical data � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 460 II�2� Bayesian Poisson regression model � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 461 II�3� Bayesian inference for generalized linear models in SAS � � � � � � � � � � � � � � 462 II�4� Examples of Bayesian Poisson Regression Models � � � � � � � � � � � � � � � � � � � 466 II�4�1� Poisson model with non‑informative normal prior distributions � � � � � 467 II�4�2� P oisson model with informative normal prior distribution and

non‑informative normal prior distributions � � � � � � � � � � � � � � � � � � � � � 490 Bibliography � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 499

Zaawansowane metody analizy statystycznej�indb 14 11/07/2012 23:34:59

15Table of contents

Kamil KonikiewiczChapter V Data Mining � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 503 1� Introduction to SAS Enterprise Miner � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 505 2� Data description � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 512 3� Data division � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 514 4� Data exploration � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 517 5� Decision trees � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 524

5�1�Charactermodel � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 524 5�2� Model construction � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 525 5�3� Selection of variables and data preparation � � � � � � � � � � � � � � � � � � � � � � � � � � � 530 5�4� Random forests � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 540

6� Logistic regression � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 541 6�1�Model notation � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 541 6�2� Data preparation � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 542

7� Neural networks � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 554 7�1�Model notation � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 5547�2�Learningnetwork � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 556

8� Model evaluation and selection � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 562 8�1�Goodness of fi t statistics � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 562 8�2�Resampling � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 567 8�3�Scoring � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 570

Bibliography � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 570

Ewa Falkiewicz-Szporer, Łukasz LeszewskiChapter VI Selected data quality issues � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 573 I� Basic definitions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 574

I�1� Characteristic of good data quality � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 574 I�2� Sources of bad data quality � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 577 I�3� Stages of creating and transforming information � � � � � � � � � � � � � � � � � � � � � 579

II� Data quality management methodology � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 580 III� Pillars of data quality management � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 584

III�1� Creating conducive environment for data quality processes � � � � � � � � � � � 585 III�2� Corporate solutions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 586 III�3� Providing standards in organization � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 587 III�4� Monitoring and data quality measurement � � � � � � � � � � � � � � � � � � � � � � � � � 588 III�5� Role of data warehouse � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 591 III�6� Technology and tools � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 591

Zaawansowane metody analizy statystycznej�indb 15 11/07/2012 23:34:59

16 Table of contents

IV� Stages of data cleansing process � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 593 IV�1� Profiling � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 594 IV�2� Data cleansing � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 595 IV�3� Data integration � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 596 IV�4� Data enrichment � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 597 IV�5� Data monitoring � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 597

V� Data Quality tools and techniques � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 598 V�1� DataFlux dfPower Studio � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 599 V�2� DataFlux Integration Server � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 602 V�3� SAS Data Integration Studio � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 603

VI� Data standardization � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 604 VI�1� Creating standardization schemes � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 606 VI�2� Standardization definitions � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 609

VII� Case study – data quality process implementation � � � � � � � � � � � � � � � � � � � � � � � � � 610 VII�1� Profiling � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 611 VII�2� Standardization � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 614 VII�3� Data integration � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 615

VIII� Summary � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 617 Bibliography � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 618

Chapter’s summaries – Polish and English version � � � � � � � � � � � � � � � � � � � � � � � � � � � 619 Biograms – Polish and English version � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 629

Zaawansowane metody analizy statystycznej�indb 16 11/07/2012 23:34:59