ВИДІЛЕННЯ ТРЕНДОВИХ СКЛАДОВИХ ЧАСОВОГО РЯДУ...

Preview:

DESCRIPTION

13 січня 2011 року виступ на конференції ІПМЕ ім.Г.Є.Пухова або Гусениця-SSA в українському національному гріді ;) Відео доступне тут - http://taltek.info/ipme_ssa_grid.html

Citation preview

1

ВИДІЛЕННЯ ТРЕНДОВИХ СКЛАДОВИХ

ЧАСОВОГОРЯДУГ АЗОСПОЖИВАННЯ

МЕТОДОМ“ ”-SSA ГУСЕНИЦЯ В

УКРАЇНСЬКОМУ НАЦІОНАЛЬНОМУ

ГРІДІ : Асистент кафедри КН .НазаревичОБ.

: ., . . . Науковий керівник проф дтн . .ЩербакЛМ

12-13 січня 2011 ІПМЕ ім. Г.Є.Пухова НАН України (с) Oleg.Nazarevych@taltek.info

Тернопільський національний технічний університет імені ІванаПулюя

' Кафедра комп ютерних наук

22

Предметна область досліджень

• Аналіз річних часових рядів (газоспоживання міста)

• Методом “Гусениця”-SSA виділення трендових складових: сезонна і циклічні компоненти та стохастичний залишок (адитивна модель)

• Оцінка складності реалізації алгоритму даного методу, обчислювальний експеримент в Українському національному грід (УНГ)

33

Мета доповіді

• Постановка задачі на основі SVD-розкладу (перший крок методу “Гусениця”-SSA)

• Аналіз результатів чисельного експерименту оцінки алгоритмічної складності

• Розглянути три програмних реалізації алгоритму SVD: на базі Matlab на HPC, R+RSSA (на одному ядрі) та як грід-задачу

44

Структура, характерні властивості топології споживачів при формуванні статистики

• Річний часовий ряд, 2008рік, 366днів, N=8784год• Агрегація даних - 1 година, розмірність м3

• Газорозподільна станція (ГРС), що подає газ для обласного центру (не має великих промислових об'єктів)

• Витратомірний комплекс Флоутек (витрати приведені до нормальних умов)

• Межі допустимої відносної похибки ±1.0%• Два види споживачів: побутові газові прилади та

газові котельні (опалення міста взимку)

55

– Приклад виділення адитивної складової сезонноготренду

Главные компонентыOnly for SSA Q Gaz Ternopil 2008 by hours.csv; Перем:Var1;

РАЗЛОЖ.-K=8113,Цент.(Нет);

1(92.739%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

188988

487611

786235

1084858

1383481

2(1.239%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-240145

-121878

-3612

114654

232920

3(1.183%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-197127

-98817

-507

97802

196112

4(1.179%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-200858

-93337

14184

121705

229225

5(0.495%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-102938

-51331

275

51882

103488

6(0.495%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-105505

-52860

-215

52430

105075

7(0.303%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-112724

-43405

25913

95232

164551

8(0.263%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-138167

-72400

-6633

59134

124901

9(0.133%)

33

6

67

2

10

08

13

44

16

80

20

16

23

52

26

88

30

24

33

60

36

96

40

32

43

68

47

04

50

40

53

76

57

12

60

48

63

84

67

20

70

56

73

92

77

28

80

64

-74381

-33026

8329

49684

91040

Главные компонентыOnly for SSA Q Gaz Ternopil 2008 by hours.csv; Перем:Var1;

РАЗЛОЖ.-K=8113,Цент.(Нет);

1(92.739%) - 2(1.239%) 2(1.239%) - 3(1.183%) 3(1.183%) - 4(1.179%)

4(1.179%) - 5(0.495%) 5(0.495%) - 6(0.495%) 6(0.495%) - 7(0.303%)

7(0.303%) - 8(0.263%) 8(0.263%) - 9(0.133%) 9(0.133%) - 10(0.074%)

L=672(28дн) головні компоненти та їх поєднання

L=168(тиждень) виділений тренд та залишок

66

Приклад виділення сезонних та циклічних складових тренду, що визначають динаміку часового ряду

Sin-модульована компонента Т=12год

Sin-модульована компонента Т=24год

Sin-модульована компонента Т=8год

Сезонна складова

77

Адитивна модель газоспоживання

0( , ) ( ) ( ) ( , )kk

t A t B t t

0 ( )A t

kk

B

- сезонний тренд

- циклічні складові (наприклад, з періодом 6,12,24,168 годин частково sin-модульовані)

- стохастичний залишок( , )t

88

1 – ПРИКЛАД сума циклічних

0( ) ( ) ( ) ( )Y t A t t X t 0 ( )A t

( )X t

( )t

99

2 – ПРИКЛАД окремо циклічні

( )X t

0( ) ( ) ( ) ( )TT

Y t A t B t X t 12 ( )B t

24 ( )B t

8 ( )B t

0 ( )A t

1010

Програмна реалізаціяОбчислювальні ресурси, використані в дослідженні:

• Linux кластер Суперкомпютерного центру НТУУ “КПІ” (TOP-1 України, http://hpcc.org.ua/ganglia/)

• Windows кластер НТУУ “КПІ” (http://hpcc.org.ua/index.php/Cluster, ліцензійний MATLAB @ 56 ядрах Intel Xeon E5345)

• Ресурси віртуальної організації (ВО) academia (http://grid.org.ua/voms/ , найбільші кластери України)

• R-CRAN + RSSA грід сайту ТНТУ (ng.tntu.edu.ua) (http://gridmon.bitp.kiev.ua/clusdes.php?host=ng.tntu.edu.ua&port=2135)

1111

Розкладу N=8784, L=N/2, k=NMatlab 2009b (Intel Xeon 8 ядер, 8Гб ОЗП)

1212

1

10

100

1000

Результат тестування SVDS(X,K) у Matlab 2009b на Xeon 2 х CPU 4 сores, 8Gb RAM

Суперкомп’ютерний центр НТУУ “КПІ”

K – кількість рангованих власних векторів (100-4300)

Час виконання: K=100 – 2хв … K=4300 – 229хв (N=8784, L=N/2)Загальна тривалість тесту (сума часу по точках) ~91 год.

Час виконання Ln(Т), хв

1313

0.1

10

1000

100000

nutrlan 992.97 981.21 398.67 95.91 27.95 8.56 4.2 1.29 0.42

propack 1022.79 876.57 780.56 668.19 159.45 47.58 19.45 5.04 1.58

svd 741.72 741.98 743.84 736.87 738.65 742.67 766.04 762.9 763.29

eigen 383.92 382 382 382 374.05 384.3 381 382 383

4392 3000 2000 1000 500 300 200 100 50

Час

Log

(T

), с

ек

Кількість власних чисел (головних компонент)

Порівняння витраченого часу [R+RSSA] (для одного ядра L=N/2)

1414

1

10

100

1000

nutrlan 147.3 100.6 67.1 33.58 16.83 10.12 6.771 3.419 1.743

propack 294.5 201.2 134.1 67.1 33.58 20.18 13.47 6.771 3.419

svd 294.5 201.2 134.1 67.1 33.61 20.21 13.51 6.08 3.452

eigen 147.3 147.3 147.3 147.3 147.3 147.3 147.3 147.3 147.3

4392 3000 2000 1000 500 300 200 100 50

Порівняння 'використаної пам яті [R+RSSA] (для одного ядра L=N/2)

Пам

'ять

Log

(M

),

Mb

Кількість власних чисел (головних компонент)

15

Приклад запуску грід задачі на грід вузлі ТНТУ - ng.tntu.edu.ua

1616

ВИСНОВКИ

• Складність алгоритму

• При зменшенні дискретизації та збільшенні інтервалу спостереження – експоненційно зростають вимоги до обчислювальних ресурсів (часу та пам'яті)

• Перспектива використання ресурсів (від HPC до УНГ)

• Перспектива зменшення складності – алгоритм (R+Rssa)

• Дослідити використання гібридних HPC(GRID) CPU+GPU• Запропоновано найбільш ефективну за часом та ресурсами

пам'яті реалізацію R+RSSA, але необхідність перезбирання і адаптацію під MPI (в загальному роботу в ГРІД)

3O N

1717

Література

1. Golyandina N.E., Nekrutkin V.V., Zhigljavsky A.A. (2001). Analysis of Time Series Structure: SSA and related technique, Chapman & Hall / CRS, Boca Raton, 306 p.

2. http://www.mathworks.com/products/parallel-computing/

3. A. Korobeynikov (2010), "Computation- and space-efficient implementation of SSA", Statistics and Its Interface", 3, 357-368

1818

1

10

100

1000

!Дякуюза увагу Запитання –

Oleg.Nazarevych@taltek.info

ВИДІЛЕННЯТРЕНДОВИХСКЛАДОВИХ ЧАСОВОГОРЯДУ Г АЗОСПОЖИВАННЯ

“ ”-SSA МЕТОДОМ ГУСЕНИЦЯ В УКРАЇНСЬКОМУНАЦІОНАЛЬНОМУ

ГРІДІ

Тернопільський національний технічний

університет імені Івана Пулюя

' Кафедра комп ютерних наук

12-13 січня 2011 ІПМЕ ім. Г.Є.Пухова НАН України (с) Oleg.Nazarevych@taltek.info

19

Додаткові слади

Слайди для відповідей на запитання

2020

Статистика грід сайту ТНТУ

Грід сайт ТНТУ ім.Пулюя

(ng.tntu.edu.ua)

2121

ВО academia

22

Зменшуємо складність алгоритму O(N^3) -> O(k N log(N))

Математичний пакет – R (CRAN)

Бібліотека RSSA [3]

Переваги:

- Швидкість виконання зменшується в 10-15 раз при повному розкладі

Недолік:

- працює для одного ядра, не підктримує розприбілених обчислень (напр. MPI)

2323

Метод “Гусениця”-SSA

Нехай N - довжина часового ряду, розглянемо відрізок 2<L<N/2, який будемо називати «вікно»,

або «довжина гусениці».

Апріорі, якщо N має тренд чи періодичну повторюваність, то і L буде мати її теж.

Розглянемо даний відрізок послідовно як вікно, що переміщується з кроком 1:

(f0,f1…fL-1), (f1,f2…fL), … ,(f(K-1) ,fK…f(N-1)) . Запишемо у вигляді траєкторної матриці.Складемо із векторів вложення траєкторну матрицю L×K, де K = N−L+1, N – довжина ряду, L – довжина вікна (гусениці)Тепер маємо повторюваність, можемо спробувати побачити структуру вкладених векторів.

Використаємо такий підхід:• Розкладемо всю траєкторну матрицю наелементарні частини (суму елементарних матриць)і впорядковані по їх вкладу розклади• Якщо розклад буде “вдалим”, зможемо згрупувати елементарні матриці, наприклад: трендова складова, циклічна тощо.• На далі просумуємо матриці в середині кожної групи і повернемося від суми елементарних матриць до матриць розкладу ряду на тренд, циклічну складову та залишок.• Для траєкторної матриці використаємо сингулярний розклад з точки зору статистики, якщо розглядати вектор вкладень як вибірку, сингулярний розклад з точністю до центрування, еквівалентний аналізу головний компонент (МГК або PCA))

24

Тренд при різних значеннях L=24(доба), 168( )тиждень , 672(28 )дн , 744(31 )дн

L=744(31день) 1-2компоненти

L=168(тиждень) 1 компонента

L=744(31день) 1 компонента

L=24(доба) 1 компонента

L=672(28днів) 1компонентаL=336(2 тижні) 1компонента

25

Висновки по вибору L – довжини гусениці

L=24(доба) 1 компонента

• При виборі L – довжини гусениці, необхідно задавати число кратне періоду

• Необхідно декілька ітерацій: L=N/2,….L=24(Tmin)

• Інтерактивність методу полягає в групуванні дослідником головних компонент

L=744(31день) 1 компонента

2626

“ ”-Актуальність використання Гусениця SSA

• На сьогоднішній день актуальним є математичне моделювання та використання ефективних методів аналізу динаміки часових рядів (газоспоживання).

• Традиційні підходи, засновані на використанні класичних моделей типу «тренд + шум» або «авторегресії - ковзного середнього», призводять до задовільних результатів лише для рядів досить простої структури

• Особливість часових рядів, що відображають динаміку, полягає в тому, що їхні характеристики можна сформувати з декількох складових:

Повільної – сезонного тренда;Циклічних складових - періодичних;Випадкової – залишок після виділення тренду, як реалізації випадкового процесу.

2727

“ ”-Гусениця SSA і динамічний хаос

1. Broomhead і King (1986) пропонують використовувати SSA і М-SSA в контексті нелінійної динаміки з метою відновлення атрактор системи з виміряних часових рядів.

2. Ghil, Vautard і співробітники (Vautard і Ghil, 1989; Ghil і Vautard, 1991;. Vautard та ін., 1992) зауважив аналогію між траєкторією матриця Broomhead і King, з одного боку, і Karhunen (1946)-Loève (1945) аналіз головних компонент у домені часу, з іншого. Таким чином, SSA може бути використаний як метод області часу і частоти для аналізу часових рядів - незалежно від атрактора реконструкції, в тому числі і у випадках, коли останній може дати збій.

3. На сьогоднішній час праці, присвячені методологічним аспектам застосування SSA, обчислюються сотнями.

4. Багато літератури надаються Elsner and Tsonis (1996), Danilov and Zhigljavsky (1997), Golyandina et al. (2001) and Ghil et al. (2002).

2828

“ ”-Література та автори методу Гусениця SSA

1. Broomhead D., King G. Extracting qualitative dynamics from experimental data // Physica D. — 1986. — V. 20. — P. 217–236.2. Главные компоненты временных рядов: метод «Гусеница» / Под ред. Д.Л. Данилова, А.А. Жиглявского. — СПб.: Пресском, 1997. — 308 с.3. Бухштабер В. М. Многомерные развертки временных рядов. Теоретические основы и алгоритмы // Обозрение прикл. промышл. матем. Сер. Вероятн. и статист. — 1997. — Т. 4. — Вып. 4. — С. 629–645.4. Cadzow J. A. Signal Enhancement — A Composite Property Mapping Algorithm // IEEE Transactions on Acoustics, Speech and Signal Processing. — 1988. — V. 36. — P. 49–62.5. Golyandina N. E., Nekrutkin V. V., Zhigljavsky A. A. Analysis of Time Series Structure: SSA and Related Techniques. — Boca Raton: Chapmap & Hall/CRC, 2001. — 305 p.6. Elsner J. B., Tsonis A. A. Singular Spectrum Analysis: A New Tool in Time Series Analysis. — New York, London: Plenum Press, 1996. — 164 p.7. Vautard R., Yiou P., Chil M. Singular-spectrum analysis: A toolkit for short, noisy chaotic signals // Physica D. —1992. — V. 58. — P. 95–126.8. Голяндина Н. Э. Метод «Гусеница»-SSA: анализ временных рядов: Учебное пособие. — СПб: ВВМ, 2004. — 76 с.9. Кендэл М. Ранговые корреляции. — М: Статистика,1975. — 212 c.

29

Випадковий процес

Випадко? вий проце? с (англ. stochastic process, нім. Stochastischer Prozess, рос. Случайный процесс) — важливе поняття сучасної теорії ймовірностей. Є певним узагальненням поняття випадкова величина, а саме — це випадкова величина, що змінюється з часом (іншими словами: випадкова величина, що залежить від змінної величини, яку називають час, або іншими словами — це набір випадкових величин, параметризованих величиною T — часом).

[uk.wikipedia.org/wiki/Випадковий_процес]

30

Часовий ряд

Часов?ий ряд (англ. time series) — реалізація випадкового процесу, набір послідовних результатів спостереження.[1]

1. Chris Chatfield The Analysis of Time Series, an Introduction, вид. 5-те, 1996. — С. 33, Chapman & Hall/CRC.2.

2. Бокс, Дженкинс Анализ временных рядов прогноз и управление, 1974.

3. Т.Андерсон Статистический анализ временньіх рядов, 1976

Recommended