Анализ экологических данных с использованием языка...

Preview:

DESCRIPTION

Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации». Анализ экологических данных с использованием языка программирования R. Андрей Цыганов Пензенский государственный университет. - PowerPoint PPT Presentation

Citation preview

Анализ экологических данных с использованием языка программирования R

Андрей ЦыгановПензенский государственный

университет

Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации»

ПО для анализа данных – неотъемлемая часть экологических исследований

• Экологические данные– Многомерные (основные объекты экологии, т.е. сообщества,

экосистемы, трудно охарактеризовать одним показателем)– Массивные (широкий пространственно-временной охват,

автоматизированные методы сбора данных)

• Сложные алгоритмы анализа (большой объем вычислений)

• Нетривиальные способы графического представления данных

Выбор ПО при планировании исследования

Выбор ПО

Как анализировать

данные?

Как собирать данные?

Как представлять

данные?

Прочие характеристики ПО

• Гибкость, т.е. возможность настройки под ваши конкретные потребности

• Возможности обновления ПО• Универсальность• Лицензионные условия• Совместимость ПО (в случае если планируется

использование нескольких программ)

ПО для анализа данных• (см. Comparison of statistical software in Wikipedia)

• Microsoft Excel (плохо приспособлен для работы с научными данными)

• STATISTICA, SPSS, Origin, MatLab (лицензионное, отсутствуют специфические экологические анализы)

• Primer, CANOCO (лицензионное, редкое обновление)

• Past и др. (редкое обновление, узкая специализация)

Что такое R?

– это комплексное программное обеспечение для обработки, анализа и графического представления данных

Включает в себя:язык программированияпрограммную среду

Почему R? Преимущества

• Доступность– Распространяется бесплатно– Центральная система хранения и

распространения www.cran.r-project.org

Почему R? Преимущества

• Доступность• Универсальность

– Стабильная база и множество дополнений (пакетов или библиотек)

• “vegan” анализ структуры сообществ• “FD” функциональные признаки• “spdep” пространственное распределение• “map” работа с картами• и ~ 1500 вариантов

Почему R? Преимущества

• Доступность• Универсальность• Актуальность

– Новые методы анализа доступны практически сразу после их публикации

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности

– Практически неограниченный набор вариантов графического представления данных

Почему R? Преимущества

0 10 20 30 40 50

-2-1

01

2

Simple Use of Color In a Plot

Just a Whisper of a Label

1 2 3 4 5 6 7 8 9 10

-20

24

6

Notched Boxplots

Group

x

Freq

uenc

y

-4 -2 0 2 4

050

100

150

200

1000 Normal Random Variates

Sepal.Length

2.0 3.0 4.0 0.5 1.5 2.5

4.5

6.0

7.5

2.0

3.0

4.0

Sepal.Width

Petal.Length

13

57

4.5 6.0 7.5

0.5

1.5

2.5

1 3 5 7

Petal.Width

Edgar Anderson's Iris Data

0 200 400 600 800

020

040

060

0

100

100

110

110

110

110

120

130

140 150

160

160

170

180

19 0

A Topographic Map of Maunga Whau

Meters North

Met

ers

Wes

t

10 Meter Contour Spacing

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности

– Практически неограниченный набор вариантов графического представления данных

– .ps, .pdf, .tif, .png, .jpeg и др.

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности• Гибкость

– возможность написания собственных функций– только необходимая информация

Почему R? Преимущества

• Доступность• Универсальность• Актуальность• Графические возможности• Гибкость• Воспроизводимость анализов

Почему R? «Недостатки»

• Интерфейс командной строки (графический интерфейс R commander, RKWard, RExcel и до.)

• Недостаточно литературы на русском языке

Принципы R• Объекты

– вектор (x1, x2, x3, .. xn), х = число или текст– матрица (многомерные, чаще двумерные векторы)

x11, x12, x 1 3, .. x 1 n

x21, x22, x 2 3, .. x 2 n

. . . . .

xm1, xm2, xm3, .. xmn

– фактор (категориальные данные)– список (несколько объектов разного типа)– таблица данных (список векторов и/или факторов)– и др.

• Команды– Команда (аргумент1, аргумент2, …, аргументn)

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Пример из экологии

Литература• На русском языке

• Шипунов А.Б., Балдин Е.М., Волкова П.А. и др. Наглядная статистика. Используем R! Москва: ДМК пресс, 2012– 298 с.

• Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. –– Воронеж: ВГАУ, 2010. –– 124 с.

• Геостатистический анализ данных в экологии и природопользовании (с применением пакета R): Учебное пособие / А.А. Савельев, С.С. Мухарамова, А.Г. Пилюгин, Н.А. Чижикова. – Казань: Казанский университет, 2012. – 120 с.

• На английском языке– Серия “Use R!” издательства Springer– Для начинающих

• Dalgaard P. (2008) Introductory statistics with R. Second edition. Springer. 363 p.– Для экологов

• Borcard D., Gillet F., Legendre P. (2012) Numerical Ecology with R. Springer. 319 p.

В качестве заключения• Выбор ПО важный этап в планировании и проведении

исследований

• При выборе ПО желательно руководствоваться не только потребностями самого исследования, но и обращать внимание на прочие характеристики ПО

• Язык программирования R – оптимальный вариант

• Интерфейс программной строки не так страшен

Спасибо за внимание!

Recommended