34
Анализ экологических данных с использованием языка программирования R Андрей Цыганов Пензенский государственный университет Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации»

Анализ экологических данных с использованием языка программирования R

  • Upload
    verdad

  • View
    96

  • Download
    9

Embed Size (px)

DESCRIPTION

Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации». Анализ экологических данных с использованием языка программирования R. Андрей Цыганов Пензенский государственный университет. - PowerPoint PPT Presentation

Citation preview

Page 1: Анализ экологических данных с использованием языка программирования  R

Анализ экологических данных с использованием языка программирования R

Андрей ЦыгановПензенский государственный

университет

Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации»

Page 2: Анализ экологических данных с использованием языка программирования  R

ПО для анализа данных – неотъемлемая часть экологических исследований

• Экологические данные– Многомерные (основные объекты экологии, т.е. сообщества,

экосистемы, трудно охарактеризовать одним показателем)– Массивные (широкий пространственно-временной охват,

автоматизированные методы сбора данных)

• Сложные алгоритмы анализа (большой объем вычислений)

• Нетривиальные способы графического представления данных

Page 3: Анализ экологических данных с использованием языка программирования  R

Выбор ПО при планировании исследования

Выбор ПО

Как анализировать

данные?

Как собирать данные?

Как представлять

данные?

Page 4: Анализ экологических данных с использованием языка программирования  R

Прочие характеристики ПО

• Гибкость, т.е. возможность настройки под ваши конкретные потребности

• Возможности обновления ПО• Универсальность• Лицензионные условия• Совместимость ПО (в случае если планируется

использование нескольких программ)

Page 5: Анализ экологических данных с использованием языка программирования  R

ПО для анализа данных• (см. Comparison of statistical software in Wikipedia)

• Microsoft Excel (плохо приспособлен для работы с научными данными)

• STATISTICA, SPSS, Origin, MatLab (лицензионное, отсутствуют специфические экологические анализы)

• Primer, CANOCO (лицензионное, редкое обновление)

• Past и др. (редкое обновление, узкая специализация)

Page 6: Анализ экологических данных с использованием языка программирования  R

Что такое R?

– это комплексное программное обеспечение для обработки, анализа и графического представления данных

Включает в себя:язык программированияпрограммную среду

Page 7: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

• Доступность– Распространяется бесплатно– Центральная система хранения и

распространения www.cran.r-project.org

Page 8: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

• Доступность• Универсальность

– Стабильная база и множество дополнений (пакетов или библиотек)

• “vegan” анализ структуры сообществ• “FD” функциональные признаки• “spdep” пространственное распределение• “map” работа с картами• и ~ 1500 вариантов

Page 9: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

• Доступность• Универсальность• Актуальность

– Новые методы анализа доступны практически сразу после их публикации

Page 10: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности

– Практически неограниченный набор вариантов графического представления данных

Page 11: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

0 10 20 30 40 50

-2-1

01

2

Simple Use of Color In a Plot

Just a Whisper of a Label

1 2 3 4 5 6 7 8 9 10

-20

24

6

Notched Boxplots

Group

x

Freq

uenc

y

-4 -2 0 2 4

050

100

150

200

1000 Normal Random Variates

Sepal.Length

2.0 3.0 4.0 0.5 1.5 2.5

4.5

6.0

7.5

2.0

3.0

4.0

Sepal.Width

Petal.Length

13

57

4.5 6.0 7.5

0.5

1.5

2.5

1 3 5 7

Petal.Width

Edgar Anderson's Iris Data

0 200 400 600 800

020

040

060

0

100

100

110

110

110

110

120

130

140 150

160

160

170

180

19 0

A Topographic Map of Maunga Whau

Meters North

Met

ers

Wes

t

10 Meter Contour Spacing

Page 12: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности

– Практически неограниченный набор вариантов графического представления данных

– .ps, .pdf, .tif, .png, .jpeg и др.

Page 13: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности• Гибкость

– возможность написания собственных функций– только необходимая информация

Page 14: Анализ экологических данных с использованием языка программирования  R

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности• Гибкость• Воспроизводимость анализов

Page 15: Анализ экологических данных с использованием языка программирования  R

Почему R? «Недостатки»

• Интерфейс командной строки (графический интерфейс R commander, RKWard, RExcel и до.)

• Недостаточно литературы на русском языке

Page 16: Анализ экологических данных с использованием языка программирования  R

Принципы R• Объекты

– вектор (x1, x2, x3, .. xn), х = число или текст– матрица (многомерные, чаще двумерные векторы)

x11, x12, x 1 3, .. x 1 n

x21, x22, x 2 3, .. x 2 n

. . . . .

xm1, xm2, xm3, .. xmn

– фактор (категориальные данные)– список (несколько объектов разного типа)– таблица данных (список векторов и/или факторов)– и др.

• Команды– Команда (аргумент1, аргумент2, …, аргументn)

Page 17: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 18: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 19: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 20: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 21: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 22: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 23: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 24: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 25: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 26: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 27: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 28: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 29: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 30: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 31: Анализ экологических данных с использованием языка программирования  R

Пример из экологии

Page 32: Анализ экологических данных с использованием языка программирования  R

Литература• На русском языке

• Шипунов А.Б., Балдин Е.М., Волкова П.А. и др. Наглядная статистика. Используем R! Москва: ДМК пресс, 2012– 298 с.

• Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. –– Воронеж: ВГАУ, 2010. –– 124 с.

• Геостатистический анализ данных в экологии и природопользовании (с применением пакета R): Учебное пособие / А.А. Савельев, С.С. Мухарамова, А.Г. Пилюгин, Н.А. Чижикова. – Казань: Казанский университет, 2012. – 120 с.

• На английском языке– Серия “Use R!” издательства Springer– Для начинающих

• Dalgaard P. (2008) Introductory statistics with R. Second edition. Springer. 363 p.– Для экологов

• Borcard D., Gillet F., Legendre P. (2012) Numerical Ecology with R. Springer. 319 p.

Page 33: Анализ экологических данных с использованием языка программирования  R

В качестве заключения• Выбор ПО важный этап в планировании и проведении

исследований

• При выборе ПО желательно руководствоваться не только потребностями самого исследования, но и обращать внимание на прочие характеристики ПО

• Язык программирования R – оптимальный вариант

• Интерфейс программной строки не так страшен

Page 34: Анализ экологических данных с использованием языка программирования  R

Спасибо за внимание!