77
Представлення статистичної інформації за допомогою графічного методу Pic by Bratislav Milenkovic Марець О.Р., Вільчинська О.М.

Представлення статистичної інформації за допомогою графічного методу

Embed Size (px)

Citation preview

Page 1: Представлення статистичної інформації за допомогою графічного методу

Представлення статистичної інформації

за допомогою графічного методу

Pic by Bratislav Milenkovic

Марець О.Р., Вільчинська О.М.

Page 2: Представлення статистичної інформації за допомогою графічного методу

Питання, які викликають дискусії

Page 3: Представлення статистичної інформації за допомогою графічного методу

Стовпчикова чи лінійна?

When Are 100% Stacked Bar Graphs Useful? http://www.perceptualedge.com/blog/?p=2239

Page 4: Представлення статистичної інформації за допомогою графічного методу

Чому вони кажуть Die, pie chart, die?

The Worst Chart In The World http://www.businessinsider.com/pie-charts-are-the-worst-2013-6Life with Pie (charts) http://www.pivotdesigngroup.com/2011/05/pie-charts/No Humble Pie: The Origins and Usage of a Statistical Chart http://www.psych.utoronto.ca/users/spence/Spence%202005.pdf

Page 5: Представлення статистичної інформації за допомогою графічного методу

Як (не) ввести користувача в оману?

The most misleading charts of 2015, fixed http://qz.com/580859/the-most-misleading-charts-of-2015-fixed/Junk Charts http://junkcharts.typepad.com/WTF Visualizations http://viz.wtf/

Page 6: Представлення статистичної інформації за допомогою графічного методу
Page 7: Представлення статистичної інформації за допомогою графічного методу

Та багато інших…

Скільки ліній зображати одночасно на одній діаграмі?

Що краще: секторна чи стовпчикова діаграма?

Яка максимальна кількість секторів для секторної діаграми?

Як підписувати дані?

Скільки знаків після коми доречно давати?

Яка оптимальна відстань між стовпцями стовпчикової діаграми?

Page 8: Представлення статистичної інформації за допомогою графічного методу

Структура презентації1. Вступ

1. Термінологія

2. Переваги

3. Приклади

2. Теорія:

1. Тафті (основні принципи графічного представлення даних)

2. Клівленд, МакГілл (теорія сприйняття різних образів)

3. Желязни (класифікація графіків)

3. Основні діаграми

1. Секторна

2. Стовпчикова

3. Точкова

Page 9: Представлення статистичної інформації за допомогою графічного методу

Візуалізація — одержання видимого зображення яких-небудь предметів, явищ, процесів, недоступних для безпосереднього спостереження

Великий тлумачний словник української мови, С. х, х, 225, 196

Інфографіка — графічне візуальне подання інформації, даних або знань, призначених для швидкого та чіткого відображення комплексної інформації

Діаграма — графічне зображення, що наочно у вигляді певних геометричних фігур показує співвідношення між різними величинами, які порівнюються

= статистичний графік

Графік — зображення різних моментів якогось процесуза допомогою ліній

Термінологія

Page 10: Представлення статистичної інформації за допомогою графічного методу
Page 11: Представлення статистичної інформації за допомогою графічного методу
Page 12: Представлення статистичної інформації за допомогою графічного методу
Page 13: Представлення статистичної інформації за допомогою графічного методу

Переваги використання графічного методу• Аналіз великого набору даних

• Акцентування уваги на різних аспектах даних

• Зменшення інформаційного перевантаження людини

• Виділення взаємозв’язків та закономірностей

• Утримання уваги

• Однозначність і ясність

• Естетична привабливість

Page 14: Представлення статистичної інформації за допомогою графічного методу

Люди запам’ятовують 10 % почутого, 20 % прочитаного та 80 % побаченого або зробленого

http://neomam.com/interactive/13reasons/

Page 15: Представлення статистичної інформації за допомогою графічного методу

Квартет Анскомбе

• Anscombe, FJ (1973). "Graphs in Statistical Analysis". American Statistician 27 (1): 17–21

• 4 набори даних з однаковими статистичними показниками

• придумав у 1973 році математик Ф. Дж. Анскомбе

I II III IV

x y x y x y x y

10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58

8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76

13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71

9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84

11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47

14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04

6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25

4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50

12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56

7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91

5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Page 16: Представлення статистичної інформації за допомогою графічного методу

Показник ЗначенняСереднє значення змінної x 9.0

Дисперсія змінної x 10.0Середнє значення змінної y 7.5

Дисперсія змінної y 3.75Кореляція між змінними x та y 0.816

Пряма лінійної регресії y = 0,5 x + 3

• показує важливість використання графіків для статистичного аналізу та

• вплив нетипових значень на властивості набору даних

Page 17: Представлення статистичної інформації за допомогою графічного методу
Page 18: Представлення статистичної інформації за допомогою графічного методу

20 країн, 100 показників

Номінальний ВВП 20-ти країн світу

Page 19: Представлення статистичної інформації за допомогою графічного методу

Отже, важливість використання графічного методу безсумнівна

проте

стандарти побудови статистичних графіків дуже відрізняються між

собою, а у вітчизняній науці практично відсутні.

Крім того,

опрацювання різних вітчизняних наукових публікацій та публікацій

Державної служби статистики загострило увагу на практичній

відсутності культури подання інформації графічним способом

Page 20: Представлення статистичної інформації за допомогою графічного методу

http://ukrstat.gov.ua/

Page 21: Представлення статистичної інформації за допомогою графічного методу
Page 22: Представлення статистичної інформації за допомогою графічного методу

http://www.me.gov.ua/?lang=uk-UA

Page 23: Представлення статистичної інформації за допомогою графічного методу
Page 24: Представлення статистичної інформації за допомогою графічного методу

Едвард Тафті

• (народ. в 1942 році) — американський

статистик, професор статистики,

політології і комп’ютерних наук Єльського

університету, відомий своїми працями з

інформаційного дизайну

Page 25: Представлення статистичної інформації за допомогою графічного методу

Праці Тафті• The Visual Display of Quantitative Information (2001) [1983]• Envisioning Information (2001b) [1990]• Visual Explanations: Images and Quantities, Evidence and Narrative

(1997)• Beautiful Evidence (2006)

Page 26: Представлення статистичної інформації за допомогою графічного методу

Принципи візуалізації ТафтіДосконалий статистичний графік представляє собою сукупність думок, донесених ясно, точно і результативно.

Графічне представлення інформації повинне:

• дати користувачу найбільшу кількість ідей, в найкоротший час, з найменшою кількістю чорнила на найменшому просторі

• казати правду про дані

Page 27: Представлення статистичної інформації за допомогою графічного методу

Терміни Тафті• Співвідношення дані-чорнило (Data ink ratio)

• Індекс брехні (Lie factor)

• Графічне сміття (Chartjunk)

• Щільність даних (Data density)

• Іскрографік (Sparkline)

• Мультиграфіки (Small multiples)

• Графік-нахил (slopegraph)

Page 28: Представлення статистичної інформації за допомогою графічного методу

Співвідношення дані-чорнило= чорнило, яке на графіку показує дані / все чорнило= частка чорнила, яке на графіку показує дані= 1 – частина графіка, яку можна стерти і суть не зміниться

Page 29: Представлення статистичної інформації за допомогою графічного методу

Індекс брехні (Lie factor)

http://www.infovis-wiki.net/index.php/Lie_Factor

Page 30: Представлення статистичної інформації за допомогою графічного методу

Графічне сміття (Chartjunk)• Візуальні елементи, які не

належать до набору засобів, необхідних для представлення інформації доступно та зрозуміло

• Це: необов'язковий текст або складні шрифти, орнаменти на осях, ефекти тіні та об'єму, занадто “шумний” фон

Edward Tufte, The Visual Display of Quantitative Information (1983)

Page 31: Представлення статистичної інформації за допомогою графічного методу

Цитата з:Edward Tufte, The Visual Display of Quantitative Information (1983)

Гляньте-но на цю перенасичену стереотипами і вульгарним гумором сумнівну картинку. Це жертва візуальної чутливості, де графік-ніжка в сітчастій панчосі натякає на сітку графіка, вважається творчим задумом. За цим графічним сміттям ховається презирство і неповага як до даних, так і до глядача. Виробники цього мотлоху вважають, що числа і деталі нудні і їх просто необхідно оживити орнаментом. Але прикрашання нерідко шкодять змісту і ніколи не замінять його. А якщо числа нудні, значить, це просто не ті числа. Достовірність губиться в горах візуального сміття - ну хто буде серйозно сприймати графік, подібний на відео-гру?

Графічне сміття

За мотивами:• S.Bateman, R.L.Mandryk, C.Gutwin, A.Genest, D.McDine, C.Brooks, Useful Junk? The

Effects of Visual Embellishment on Comprehension and Memorability of Charts (2010)• Few S.The Chartjunk Debate. A Close Examination of Recent Findings (2011)

Проти За

Вдало підібрані графічні прикраси можуть:

посилити ефективність візуалізації через зацікавлення та залучення уваги користувача, • змусити його розглядати та читати візуалізацію. Вдало підібрана графічна метафора може стати мнемонічним інструментом та змусить запам’ятати інформацію значно краще, ніж це зробить проста діаграма. Йдеться про розумно підібраний та якісний допоміжний графічний матеріал.

Page 32: Представлення статистичної інформації за допомогою графічного методу

візерунок скаче перед очима це графічне сміття Тафті радить переходити на відтінки сірого

Штрихування на графіках

Page 33: Представлення статистичної інформації за допомогою графічного методу
Page 34: Представлення статистичної інформації за допомогою графічного методу

Сприйняття графічних образів• У 1984 році Вільям С. Клівленд та Роберт МакГілл,

працівники AT&T Bell Labs опублікували у виданні

Journal of the American Statistical Association статтю, яка

називалась “Сприйняття графіки: теорія, експерименти

та застосування до розробки графічних методів”

• Запропонували базові рекомендації з вибору найліпшої форми візуалізації

• Результатом експериментів є рейтинг, де методи візуалізації перелічені за легкістю сприйняття інформації та здійснення порівнянь

Page 35: Представлення статистичної інформації за допомогою графічного методу

Від найкращого до найгіршого:1. Позиція об'єктів відносно спільної системи координат2. Позиція об'єктів відносно різних систем координат3. Довжина4. Нахил Кут5. Площа Інтенсивність кольору6. Об'єм7. Відтінок кольору

Page 36: Представлення статистичної інформації за допомогою графічного методу

У книзі “Говори мовою діаграм” (Say it With Charts) Джин Желязни (директор візуальних комунікацій у McKinsey & Company)

виділяє п'ять основних типів порівнянь, якими можна виразити дані. А саме:

компонентне

позиційне часове частотне кореляційне

Page 37: Представлення статистичної інформації за допомогою графічного методу

Типи порівнянь з керівництва про візуалізацію WSJ

НОМІНАЛЬНЕПросте порівняння кількіснихзначень підкатегорій

ЧАСОВЕЗміни у значеннях за послідовні часові періоди

КОРЕЛЯЦІЙНЕЗалежність між змінними (2 і більше)

РАНЖУВАННЯВід найбільшого до найменшого

ВІДХИЛЕННЯВідхилення точок від певного середнього значення

РОЗПОДІЛКількість об’єктів в певних інтервалах

ЧАСТИНА-ДО-ЦІЛОГОВідношення частини явища до явища загалом

DATA VISUALIZATION 101: HOW TO DESIGN CHARTS AND GRAPHS

Page 38: Представлення статистичної інформації за допомогою графічного методу

Секторна діаграма• Традиційна, проста для розуміння• Сектори в крузі якнайкраще

відображають частку від цілого

Проте цю діаграму критикують найбільшеВона:

АБ

ВГ

• Не дає можливості робити точні порівняння• При великій кількості структурних частин втрачає інформативність• Займає багато місця

http://annkemery.com/pie-chart-guidelines/http://www.psych.utoronto.ca/users/spence/Spence%202005.pdfhttp://www.businessinsider.com/pie-charts-are-the-worst-2013-6http://www.pivotdesigngroup.com/2011/05/pie-charts/

Page 39: Представлення статистичної інформації за допомогою графічного методу

Порівняйте обсяги структурних частин 1-5

Page 40: Представлення статистичної інформації за допомогою графічного методу
Page 41: Представлення статистичної інформації за допомогою графічного методу

Як ще можна показати структуру

http://annkemery.com/essentials/

Page 42: Представлення статистичної інформації за допомогою графічного методу

Множинні кільцеві діаграми

застосування цього типу графіка дає хороші результати, коли точні порівняння не потрібні, та структурних частин не багато

Page 43: Представлення статистичної інформації за допомогою графічного методу

Діаграма Вороного• Георгій Вороний (1868 — 1908) — видатний український математик.

Член-кореспондент Російської Академії наук з 01.12.1907, професор Варшавського університету.

• Термін « Діаграма_Вороного » був введений в теоретичну комп'ютерну науку в середині 1970-х років. Це особливий вид розбиття метричного простору, що визначається відстанями до заданої дискретної множини ізольованих точок цього простору.

• Їх використовують в різноманітних дослідженнях від молекулярної біології до космосу, у комп'ютерній графіці, у проблемах розпізнавання образів, штучного інтелекту, екології, в радіаційній фізиці, космології, хімічній технології, фізичній хімії та ін. науках, а також в моделюванні рельєфу, в аналізі руху і плануванні, у виявленні зіткнень, навігації та обходу перешкод, в аналізі мережі, тощо.

• Michael Balzer Oliver Deussen 2005 Voronoi Treemaps• The Graphics Department of the NY Times, including Amanda Cox, Shan

Carter 2008 All of inflation's little parts (Interactive news graphics)

• http://www.datavis.ca/gallery/excellence.php

Page 44: Представлення статистичної інформації за допомогою графічного методу

http://www.nytimes.com/interactive/2008/05/03/business/20080403_SPENDING_GRAPHIC.html?_r=0

Маленькі частки інфляції

• інтерактивний графік від 3 травня 2008 р. показує зміну цін порівняно з попереднім роком

• за різними компонентами споживчого кошика

• круг розбитий на 8 частин, величина кожної пропорційна відсотку споживання частини споживчого кошика

• кожна така частина розбита на під-категорії

• кольором показано зміну цін (за допомогою біполярної кольорової шкали): відтінки бордового – збільшення, синього - зменшення

Page 45: Представлення статистичної інформації за допомогою графічного методу

http://atlas.cid.harvard.edu/

Структура експорту України у 2014 р.

Page 46: Представлення статистичної інформації за допомогою графічного методу

Некоректно:

кільцеву діаграму використовують щоб показати зміну частки в динаміці

Page 47: Представлення статистичної інформації за допомогою графічного методу

Стовпчикова діаграма • Функції: порівняння, ряди розподілу,

ряди динаміки

• Особливість: оскільки висота прямокутника показує обсяг явища, шкала має починатися з 0

• Використовуються для дискретних даних

• Варіанти:

А Б В Г0

1

2

3

4

5

Page 48: Представлення статистичної інформації за допомогою графічного методу

http://annkemery.com/essentials/

Page 49: Представлення статистичної інформації за допомогою графічного методу

Немає сенсу тут вводити різні кольори

Використання кольору

Page 50: Представлення статистичної інформації за допомогою графічного методу
Page 51: Представлення статистичної інформації за допомогою графічного методу

Лінійна (точкова) діаграма• Функції: порівняння, ряди розподілу,

ряди динаміки

• Призначена для візуалізації безперервного ряду даних

• Перевага: економний

• Особливість: деколи поєднання точок лініями не має змісту (псевдокриві)

• Варіанти:

Page 52: Представлення статистичної інформації за допомогою графічного методу

Варіанти лінійної діаграми

http://annkemery.com/one-dataset-five-line-charts/

Page 53: Представлення статистичної інформації за допомогою графічного методу

• Що показує: порівняння

• Складність в Excel:

Гантельки

Page 54: Представлення статистичної інформації за допомогою графічного методу

Графік-нахил• Що показує: порівняння,

взаємозв’язки• Складність в Excel:

Page 55: Представлення статистичної інформації за допомогою графічного методу

Діаграма розсіювання до 3-х чинників

Смертність у ДТП у Африці утричі більша ніж в Європі, при меншій кількості автомобілів в 10 разів.

Page 56: Представлення статистичної інформації за допомогою графічного методу

Бульбашкова діаграмадо 4х чинників

Page 57: Представлення статистичної інформації за допомогою графічного методу

Приклад 1 • тип графіка не доречний для

відображення структури

• текст розташований вертикально

• числові значення категорій то збільшуються то зменшуються

• для розрізнення категорій тут використовується колір, маркери дублюють інформацію

• використання кольорів не продумане

• рамки легенди та самої діаграми зайві

http://ukrstat.gov.ua/

Page 58: Представлення статистичної інформації за допомогою графічного методу

• тип графіка: показує не структуру, а порівняння

• текст розташований вертикально

• числові значення категорій то збільшуються то зменшуються;

• для розрізнення категорій тут використовується колір, маркери зайві

• використання кольорів не продумане

• рамки легенди та самої діаграми зайві

Побудовано за даними http://ukrstat.gov.ua/

Page 59: Представлення статистичної інформації за допомогою графічного методу

• показує тільки структуру

• при низькій інформативності займає багато місця

• легко вводить в оману – недосвідчені користувачі порівнюють обсяги, а тут показана структура

Побудовано за даними http://ukrstat.gov.ua/

Page 60: Представлення статистичної інформації за допомогою графічного методу
Page 61: Представлення статистичної інформації за допомогою графічного методу

• показує тільки структуру

• при низькій інформативності займає багато місця

• можливо легко порівняти лише довжини тих прямокутників, які мають спільну базу

Побудовано за даними http://ukrstat.gov.ua/

Page 62: Представлення статистичної інформації за допомогою графічного методу

Побудовано за даними http://ukrstat.gov.ua/

Page 63: Представлення статистичної інформації за допомогою графічного методу
Page 64: Представлення статистичної інформації за допомогою графічного методу

Структура - секторна діаграмаПриклад 2

• позначення тільки одної частки, щоб не забивати простір;• щоб зробити порівняння треба щоб очі побігали;• місця займає багато;• це тільки структура, суть явища подана однобоко; • проте традиційно Побудовано за даними http://ukrstat.gov.ua/

Page 65: Представлення статистичної інформації за допомогою графічного методу

Структура - кільцева діаграма

• така форма діаграми дозволяє розмістити в дірці текст, а, отже, економія;• щоб зробити порівняння треба щоб очі побігали;• місця займає багато• це тільки структура, суть явища подана однобоко; • проте традиційно Побудовано за даними http://ukrstat.gov.ua/

Page 66: Представлення статистичної інформації за допомогою графічного методу

Структура - графік-нахил

• порівнювати просто, нахил показує що і як;• місця і пікселів займає мало;• це тільки структура, суть явища подана однобоко; • не надто традиційно

• щоб показати явище повніше вважаємо варто залучити абсолютні величини

Побудовано за даними http://ukrstat.gov.ua/

Page 67: Представлення статистичної інформації за допомогою графічного методу

Побудовано за даними http://ukrstat.gov.ua/

Page 68: Представлення статистичної інформації за допомогою графічного методу

Висновок Необхідними є чіткі та однозначні

вказівки та рекомендації щодо побудови та оформлення

статистичних діаграм, а також їх розповсюдження, впровадження та популяризація.

Page 69: Представлення статистичної інформації за допомогою графічного методу

Ми сформулювали наступні вказівки (рекомендації) щодо оформлення статистичних графіків

1. Загальне2. Текст3. Розташування4. Колір5. Лінії

Page 70: Представлення статистичної інформації за допомогою графічного методу

1. Загальне

1.1. Графік містить основну ідею, практичне значення.1.2. Тип графіка доречний до особливостей вихідної інформації. 1.3. Дані подані у контексті чи порівнянні.1.4. Всі елементи графіка вказують на основну ідею.

Page 71: Представлення статистичної інформації за допомогою графічного методу

2. Текст2.1. Назва складається із 6-12 слів, чітко відображає суть даних (назву показника), включає в себе рік та місце, до яких відносяться дані.2.2. Розмір тексту читабельний і відповідає ієрархії (назва графіка – найбільшим шрифтом, а назви категорій – найменшим).2.3. Текст максимально лаконічний.2.4. Числова інформація: кількість знаків після коми відсутня або мінімальна.2.5. Текст грамотний.2.6. Текст розташований горизонтально.2.7. Позначення інтегровані, розміщені поряд з графічними символами.2.8. Посилання (під графіком) на джерело даних.

Page 72: Представлення статистичної інформації за допомогою графічного методу

3. Розташування3.1. Пропорції відповідні вихідним даним.3.2. Дані відсортовані для зручності користувача.3.3. Інтервали рівновіддалені.3.4. Графік двовимірний.3.5. Маркери з гострими кутами відсутні.3.6. Прикраси відсутні. Проте можна використовувати прості графічні символи щоб спростити сприйняття тексту.

Page 73: Представлення статистичної інформації за допомогою графічного методу

4. Колір4.1. Кольори використані раціонально.4.2. Кольором можна зробити акцент на певному значенні (максимальному, мінімальному, нетиповому).4.3. Суть кольорових позначень не втрачається при переході на чорно-білу палітру.4.4. Візерунки: дуже помірковано (при цьому чергувати темні та світлі чи строкаті візерунки для полегшення сприйняття);4.5. Контраст: 1) текст контрастний відносно тла; 2) кольори контрастні одне відносно іншого.

Page 74: Представлення статистичної інформації за допомогою графічного методу

5. Лінії5.1. Лінії сітки, якщо присутні, подані приглушеними кольорами, тонші за головні осі.5.2. Рамки відсутні.5.3. Графік має одну горизонтальну і одну вертикальну вісь (навіть якщо вона схована). Використання другої вертикальної осі ускладнює сприйняття інформації.

Page 75: Представлення статистичної інформації за допомогою графічного методу

6. Секторна діаграма6.1. Не більше 6 секторів.6.2. Найголовніший сегмент розташовують на лінії 12 год. 6.3. Сектори розташовують за спаданням обсягу частки (один з варіантів).6.4. Кольором виділений найважливіший сегмент. 6.5. Для порівняння декількох структур – краще взяти стовпчикова кумулятивна або нормована на 100 % діаграма.6.6. Разом там 100 %.

Page 76: Представлення статистичної інформації за допомогою графічного методу

7. Стовпчикова діаграма7.1. Вісь починається з 0.7.2. Проміжок між стовпчиками = ½ ширини стовпчика.7.3. Одна категорія – один колір.

Page 77: Представлення статистичної інформації за допомогою графічного методу

8. Лінійна (точкова) діаграма8.1. Не більше 4 (?) ліній на одному графіку.8.2. Тільки суцільні лінії.