13
Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015 PROJEKT: Analiza kluczowych parametrów turbin wiatrowych Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się w grupach 2-3 osobowych. Aby zaliczyć projekt, należy dostarczyć wydrukowane sprawozdanie z wynikami przeprowadzonej analizy nie później niż do dnia 15 grudnia 2014 r. Niedostarczenie sprawozdania w terminie skutkuje uzyskaniem 0 punktów za projekt i taka też liczba jest brana pod uwagę przy wyliczaniu oceny końcowej. Sprawozdanie powinno być podpisane imionami i nazwiskami, numerami indeksów autorów oraz numerem grupy ćwiczeniowej. Dane do analizy znajdują się w pliku turbiny.xlsx i pochodzą ze strony: http://www.thewindpower.net. Zawierają informacje na temat kluczowych parametrów różnych modeli turbin wiatrowych wykorzystywanych w farmach wiatrowych. Dane zawierają 963 przypadki (różne modele) opisane przez 5 zmiennych (parametry): Manufacturer – producent turbiny; Model – model turbiny; Power (kW) – moc nominalna turbiny; Diameter (m) – średnica turbiny; Availability – dostępność na rynku: Celem jest: 1. Analiza koncentracji, rozrzutu i struktury danych dla zmiennych Power i Diameter. 2. Analiza i porównanie koncentracji i rozproszenia tych samych zmiennych, ale w kategoriach określonych przez zmienną Availability. Analiza struktury danych w kategoriach poprzez wykonanie skategoryzowanych wykresów pudełkowych (na podstawie mediany i kwartyli) i skategoryzowanych histogramów. a. Kategoria I: turbiny wycofane z produkcji (Old), b. Kategoria II: turbiny aktualnie produkowane (Under production), c. Kategoria III: turbiny znajdujące się dopiero w budowie (Under dev.). 3. Wskazanie nazw 3 producentów, których turbiny są najliczniej reprezentowane w załączonych danych na podstawie histogramu przedstawiającego liczbę turbin wykonanych przez każdego producenta (nazwy producentów = kategorie określone w zmiennej Manufacturer) 4. Zilustrowanie zależności pomiędzy mocą turbiny a jej średnicą przy pomocy wykresu rozrzutu. Określenie równania dla prostej regresji. Wyniki otrzymane w każdym z punktów należy skomentować. Analizę koncentracji danych wykonuje się poprzez wyliczenie: Wartości średnich; Przedziałów ufności dla wartości oczekiwanej; Minimalnych i maksymalnych wartości zmiennych; Mediany i kwartyli (Q1 i Q3); Analizy rozrzutu/rozproszenia danych przez wyliczenie: a. Miar zmienności, czyli np. rozstępu, wariancji, odchylenia standardowego; Analizy struktury zbioru danych poprzez wykonanie: b. Histogramów (rozkłady empiryczne); c. Wykresów pudełkowych – ilustrujących rozmieszczenie danych wokół mediany lub wokół średniej.

Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

PROJEKT: Analiza kluczowych parametrów turbin wiatrowych

Projekt jest wykonywany z wykorzystaniem pakietu statystycznego STATISTICA. Praca odbywa się

w grupach 2-3 osobowych. Aby zaliczyć projekt, należy dostarczyć wydrukowane sprawozdanie

z wynikami przeprowadzonej analizy nie później niż do dnia 15 grudnia 2014 r. Niedostarczenie

sprawozdania w terminie skutkuje uzyskaniem 0 punktów za projekt i taka też liczba jest brana pod

uwagę przy wyliczaniu oceny końcowej. Sprawozdanie powinno być podpisane imionami i nazwiskami,

numerami indeksów autorów oraz numerem grupy ćwiczeniowej.

Dane do analizy znajdują się w pliku turbiny.xlsx i pochodzą ze strony: http://www.thewindpower.net.

Zawierają informacje na temat kluczowych parametrów różnych modeli turbin wiatrowych

wykorzystywanych w farmach wiatrowych. Dane zawierają 963 przypadki (różne modele) opisane

przez 5 zmiennych (parametry):

Manufacturer – producent turbiny;

Model – model turbiny;

Power (kW) – moc nominalna turbiny;

Diameter (m) – średnica turbiny;

Availability – dostępność na rynku:

Celem jest:

1. Analiza koncentracji, rozrzutu i struktury danych dla zmiennych Power i Diameter.

2. Analiza i porównanie koncentracji i rozproszenia tych samych zmiennych, ale w kategoriach

określonych przez zmienną Availability. Analiza struktury danych w kategoriach poprzez

wykonanie skategoryzowanych wykresów pudełkowych (na podstawie mediany i kwartyli)

i skategoryzowanych histogramów.

a. Kategoria I: turbiny wycofane z produkcji (Old),

b. Kategoria II: turbiny aktualnie produkowane (Under production),

c. Kategoria III: turbiny znajdujące się dopiero w budowie (Under dev.).

3. Wskazanie nazw 3 producentów, których turbiny są najliczniej reprezentowane w załączonych

danych na podstawie histogramu przedstawiającego liczbę turbin wykonanych przez każdego

producenta (nazwy producentów = kategorie określone w zmiennej Manufacturer)

4. Zilustrowanie zależności pomiędzy mocą turbiny a jej średnicą przy pomocy wykresu rozrzutu.

Określenie równania dla prostej regresji.

Wyniki otrzymane w każdym z punktów należy skomentować.

Analizę koncentracji danych wykonuje się poprzez wyliczenie:

• Wartości średnich;

• Przedziałów ufności dla wartości oczekiwanej;

• Minimalnych i maksymalnych wartości zmiennych;

• Mediany i kwartyli (Q1 i Q3);

Analizy rozrzutu/rozproszenia danych przez wyliczenie:

a. Miar zmienności, czyli np. rozstępu, wariancji, odchylenia standardowego;

Analizy struktury zbioru danych poprzez wykonanie:

b. Histogramów (rozkłady empiryczne);

c. Wykresów pudełkowych – ilustrujących rozmieszczenie danych wokół mediany lub

wokół średniej.

Page 2: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Zależności pomiędzy zmiennymi dobrze ilustrują wykresy rozproszenia. STAISTICA wylicza dla każdego

wykresu rozproszenia równanie prostej regresji opisujące zależność liniową występującą pomiędzy

zmiennymi.

Aby wykonać powyższe zadania, należy się zapoznać z instrukcją opisaną w kolejnych punktach.

1.1.1.1. Importowanie danych z arkuszy xlsImportowanie danych z arkuszy xlsImportowanie danych z arkuszy xlsImportowanie danych z arkuszy xlsxxxx do pakietu STATISTICA.do pakietu STATISTICA.do pakietu STATISTICA.do pakietu STATISTICA.

W menu głównym STATISTIKI należy wejść w Plik/Otwórz:

Wybrać odpowiedni plik i następnie zaznaczyć Import wybranego arkusza:

Zaznaczyć arkusz, który zawiera dane (w przypadku pliku turbiny.xlsx arkusz ten nazywa się „dane”)

i potwierdzić wybór wciskając OK. Pojawia się okno, w którym należy zaznaczyć, żeby program wziął

nazwy zmiennych z 1 wiersza i potwierdzić wybór przyciskiem OK:

Może się pojawić okno, w którym należy wskazać, aby program wczytywał tekst jako etykiety

tekstowe:

Page 3: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Prawidłowo wczytane dane powinny wyglądać następująco:

Statystyki opisoweStatystyki opisoweStatystyki opisoweStatystyki opisowe

Do analizy koncentracji i rozrzutu wykorzystujemy parametry statystyki opisowej. Aby je wyliczyć dla

wybranej zmiennej należy wybrać z menu głównego STATISTIKI Statystyka/Statystyki podstawowe i

tabele:

W wyniku tego działania pojawia się okno, w którym należy wybrać Statystyki opisowe, a wybór

potwierdzić wciskając OK:

Page 4: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Wyświetla się nowe okno, w którym należy wskazać zmienną, dla której chcemy wyznaczyć parametry

statystyki opisowej. Wyboru zmiennej dokonuje się poprzez wciśnięcie przycisku Zmienne,

znajdującego się w lewym górnym rogu tego okna:

Interesujące nas zmienne należy wybrać z listy zmiennych (można na raz wybrać kilka), a wybór

potwierdzić wciskając OK:

Page 5: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

W zakładce Więcej dokonujemy wyboru interesujących nas parametrów statystyki opisowej i aby

uzyskać wynik wciskamy przycisk Statystyki:

W wyniku tej operacji powinno się wyświetlić okno z wyznaczonymi wartościami wskazanych przez

nas parametrów:

Page 6: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Aby wrócić do okna ze Statystykami opisowymi należy powiększyć zminimalizowane okno znajdujące

się w lewym dolnym rogu ekranu:

W oknie tym w zakładce Podstawowe znajdują się przyciski służące do generowania Histogramu

i wykresu pudełkowego (nazwany jako Wykres ramka-wąsy):

Page 7: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Po wciśnięciu przycisku Histogram wyświetlą się histogramy dla wybranych zmiennych. Natomiast

w związku z tym, że występuje kilka rodzajów wykresów pudełkowych, przed ich wyświetleniem należy

wskazać typ wykresu pudełkowego, jaki ma zostać wygenerowany. Dokonuje się tego w zakładce

Opcje:

Page 8: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Po wyborze opcji należy wrócić do zakładki Podstawowe i wcisnąć przycisk Wykres ramka-wąsy.

Najlepiej zrobić to wybierając każdą zmienną osobno.

Histogramy i wykresy pudełkowe skategoryzowane

Aby móc porównać strukturę danych w różnych kategoriach pomocne są wykresy skategoryzowane.

Wykonuje się je z poziomu okna Statystyki opisowe, wchodząc do zakładki W. skategoryzowane:

W celu wykonania skategoryzowanych histogramów należy wcisnąć przycisk Histogramy

skategoryzowane, a następnie wskazać przynajmniej jedną zmienną grupującą, czyli tą która zawiera

informację o kategoriach (np. zmienną Availability):

Page 9: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Po wciśnięciu OK, pokazuje się okienko, w którym należy dokonać wyboru kodów zmiennej grupującej:

Jeśli interesują nas wszystkie kategorie, wciskamy przycisk Wszystko, a następnie zatwierdzamy

wybór OK:

W wyniku tego działania pojawią się histogramy dla każdej kategorii określonej przez zmienną

grupującą, w tym przypadku przez zmienną Availability. W taki sam sposób wykonujemy wykresy

pudełkowe, pamiętając o odpowiednim ustaleniu opcji wykresu w zakładce Opcje.

Wyznaczanie parametrów tylko dla wybranej kategorii

Aby wyliczyć parametry statystyki opisowej dla wybranej kategorii (na przykład tylko dla kategorii

‘Under production’, określonej w zmiennej Availability), przy wyznaczaniu parametrów statystyki

opisowej należy skorzystać z przycisku Select cases:

Page 10: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Po wciśnięciu tego przycisku należy zaznaczyć opcje Włącz warunki selekcji, oraz zdefiniować

przypadki, które mają być poddane analizie poprzez wpisanie odpowiedniego warunku. Na rysunku

przedstawionym poniżej warunek jest opisany jako: v5 = ‘Under production’, co oznacza, że interesują

nas tylko te przypadki, dla których zmienna numer 5 (variable 5) przyjmuje wartość ‘Under production’:

Page 11: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Po wciśnięciu przycisku OK, następuje powrót do okna Statystyki podstawowe, w którym przycisk

Select cases zostaje podświetlony na niebiesko, co oznacza, że zostały określone warunki selekcji

przypadków. Po wyznaczeniu wszystkich interesujących nas parametrów statystyki opisowej dla

kategorii ‘Under production’, wciskając ponownie przycisk Select cases możemy zmienić kategorię na

inną, odpowiednio definiując interesujące nas przypadki.

Ustalenie najliczniejszej kategorii

Najbardziej liczną kategorię można wskazać na różne sposoby, jednym z nich jest wykonanie

histogramu dla zmiennej, która zawiera informacje o kategoriach, czyli np. aby wskazać, który

producent produkuje najwięcej turbin, należy wykonać histogram dla zmiennej Manufacturer. Aby to

zrobić wybieramy z menu głównego Wykresy/Histogramy:

Page 12: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Pojawia się okno Histogramy 2W, w którym musimy dokonać wyboru zmiennej, a także określić kody,

dla których powstanie histogram (kodami będą nazwy producentów). Należy również odznaczyć

dopasowanie rozkładu normalnego, ponieważ histogram będzie wykonywany dla kategorii cechy

jakościowej.

Po wciśnięciu OK pojawia się histogram przedstawiający liczebność turbin wykonywanych przez

kolejnych producentów. Najechanie kursorem na wybrany słupek umożliwi nam odczytanie

producenta, na którego dana liczebność przypada.

Wykres rozrzutu

W celu zilustrowania zależności pomiędzy zmiennymi, np. pomiędzy średnicą a mocą, wykonuje się

wykres rozrzutu. Wykres ten wykonuje się wybierając w menu głównym Wykresy/Wykresy rozrzutu:

Pojawia się okno Wykres rozrzutu 2W, w którym poprzez naciśnięcie przycisku Zmienne należy określić

zmienne X i Y, czyli np. Diameter i Power:

1

2

3 4

5

Page 13: Stochastyczne Metody Analizy Danychhome.agh.edu.pl/~mmd/_media/dydaktyka/smad/instrukcja_do_projektu.pdf · Stochastyczne Metody Analizy Danych Elektrotechnika, semestr zimowy 2014/2015

Stochastyczne Metody Analizy Danych

Elektrotechnika, semestr zimowy 2014/2015

Po zatwierdzeniu wyboru zmiennych poprzez OK, wciskamy jeszcze raz OK w oknie Wykresy rozrzutu

2W, uzyskując w ten sposób wykres rozrzutu ukazujący zależność pomiędzy wybranymi zmiennymi:

Nad tym wykresem znajduje się równanie opisujące czerwoną prostą, dopasowaną do zmienności

danych, nazywaną prostą regresji.

1

2

3

4

5