240
Prof. Dr. Ivan Luiz Marques Ricarte FT-UNICAMP 2016

R - Software Estatistico

Embed Size (px)

Citation preview

Page 1: R - Software Estatistico

Prof. Dr. Ivan Luiz Marques Ricarte

FT-UNICAMP

2016

Page 2: R - Software Estatistico

Minicurso: “R - Software Estatístico”

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 2

Page 3: R - Software Estatistico

Objetivos

Ao final deste curso, você poderá:

Instalar um ambiente para desenvolvimento e execução de programas em R

Encontrar, instalar e utilizar pacotes (bibliotecas) que estendem R

Realizar análises e manipulações de dados básicas em R

Gerar gráficos de alta qualidade em R

Produzir documentos de pesquisa reproduzível

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 3

Page 4: R - Software Estatistico

Apresentação

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 4

Page 5: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 5

Page 6: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 6

Page 7: R - Software Estatistico

Primeiros passos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 7

Page 8: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 8

http://www.r-project.org/

Software livre (ambiente e linguagem)

Análise estatística e apresentação gráfica

Disponível para plataformas Unix, Windows e MacOS

Page 9: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 9

Page 10: R - Software Estatistico

Instalação

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 10

http://cran.r-project.org/

Page 11: R - Software Estatistico

Instalação de R em Windows

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 11

Page 12: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 12

Page 13: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 13

Page 14: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 14

http://www.rstudio.com/products/rstudio/download/

Page 15: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 15

Page 16: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 16

Page 17: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 17

Page 18: R - Software Estatistico

Sumário: primeiros passos

R é um ambiente e uma linguagem para computação estatística

R é software livre, disponível para plataformas Unix, Windows e MacOS

R é uma das linguagens mais utilizadas na atualidade

RStudio é um ambiente de desenvolvimento integrado para R

RStudio também é software livre, disponível para diversas plataformas

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 18

Page 19: R - Software Estatistico

Expressões e dados em R

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 19

Page 20: R - Software Estatistico

R como uma calculadora

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 20

Expressões simples, com funções e constantes pré-definidas

Expressões básicas

Funções

Números complexos

Page 21: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 21

Page 22: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 22

Page 23: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 23

Page 24: R - Software Estatistico

Definição de variáveis

Comando de atribuição

Não é preciso declarar variáveis

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 24

Page 25: R - Software Estatistico

Tipos de dados básicos: numéricos

Padrão: numérico (valor decimal)

Para definir valores inteiros: as.integer(x)

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 25

Infinito

Page 26: R - Software Estatistico

Tipos de dados básicos: complexos

Números complexos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 26

Not a number

Page 27: R - Software Estatistico

Tipos de dados básicos: lógicos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 27

AND

OR

Page 28: R - Software Estatistico

Tipos de dados básicos: caracteres

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 28

Page 29: R - Software Estatistico

Data em R: Date

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 29

Diferença em dias

Page 30: R - Software Estatistico

Data e hora em R: POSIXct

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 30

Diferença em segundos

Page 31: R - Software Estatistico

Conversão de string para data: as.Date()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 31

Page 32: R - Software Estatistico

Vetores

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 32

Sequência de valores de um mesmo tipo básico

Page 33: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 33

Page 34: R - Software Estatistico

Aritmética de vetores

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 34

Reciclagem dos membros do vetor

Page 35: R - Software Estatistico

Indexação de elementos do vetor

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 35

O elemento indicado

Todos elementos exceto o indicado

Todos os elementos entre os indicados

Todos os elementos exceto entre os indicados

Page 36: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 36

Page 37: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 37

Page 38: R - Software Estatistico

Vetores com membros nomeados

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 38

Page 39: R - Software Estatistico

Fatores

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 39

Page 40: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 40

Page 41: R - Software Estatistico

Matrizes

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 41

Page 42: R - Software Estatistico

Matrizes: construção e operações

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 42

cbind(), rbind()

Page 43: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 43

Matriz inversa

Multiplicação elemento a elemento

Multiplicação matricial

Page 44: R - Software Estatistico

Listas

Sequências de objetos de diferentes tipos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 44

Page 45: R - Software Estatistico

Listas: acesso pelo índice

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 45

Fatia de uma lista: Referência a um membro da lista:

Page 46: R - Software Estatistico

Listas: acesso pelo nome

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 46

Fatia (lista)

Membro da lista

Page 47: R - Software Estatistico

Data frames

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 47

Representa uma tabela de dados

Uma lista de vetores de igual tamanho

Page 48: R - Software Estatistico

Data frames

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 48

mtcars: data frame de exemplo, incluído na base de R, com 32 observações (linhas) com 11 variáveis (colunas)

Page 49: R - Software Estatistico

Data frames: acesso a elementos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 49

Page 50: R - Software Estatistico

Data frames: acesso a colunas

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 50

Fatia (data frame): Vetor:

Page 51: R - Software Estatistico

Data frames: acesso a linhas

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 51

Page 52: R - Software Estatistico

Importação de dados tabulados

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 52

Page 53: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 53

Page 54: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 54

Page 55: R - Software Estatistico

Sumário: dados em R

Variáveis não precisam ser declaradas

Tipos de dados básicos

Numérico (real), inteiro, complexo, lógico, caractere, data

Vetor, fator, matriz, lista, data frame

Valores especiais

Inf, NaN, NA

Operadores lógicos

>, >=, <, <=, ==, !=, & (and), | (or), ! (not)

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 55

Page 56: R - Software Estatistico

Sumário: algumas funções

sin(), cos(), tan(),..., log(), exp(),..., sqrt()

class(), is.integer(), as.integer(), factor(), matrix(), list(),...

Sys.Date(), Sys.time(), as.Date()

c(), table(), rep(), nrow(), ncol()

t(), cbind(), rbind(), solve()

head(), tail()

setwd(), getwd()

read.table(), read.csv(), read.csv2()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 56

Page 57: R - Software Estatistico

Além do básico: pacotes

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 57

Page 58: R - Software Estatistico

Scripts

Uma sequência de comandos R pode ser editada em um arquivo e executada posteriormente

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 58

Page 59: R - Software Estatistico

Scripts: sequências de comandos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 59

Page 60: R - Software Estatistico

Scripts: controle de fluxo de execução

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 60

Page 61: R - Software Estatistico

Controle de fluxo: seleção

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 61

Page 62: R - Software Estatistico

Controle de fluxo: repetição

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 62

Page 63: R - Software Estatistico

Funções

R possibilita que usuários escrevam suas próprias funções

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 63

Page 64: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 64

Page 65: R - Software Estatistico

Pacotes

Funções e dados podem ser combinados em pacotes R

Milhares de pacotes estão disponíveis no Repositório R (CRAN)

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 65

Page 66: R - Software Estatistico

Pacotes do sistema

Alguns pacotes já fazem parte do núcleo do ambiente de execução R

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 66

Page 67: R - Software Estatistico

Documentação do pacote

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 67

Nome do pacote

Page 68: R - Software Estatistico

Documentação do pacote e suas funções

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 68

Em RStudio, com hiperligações

Page 69: R - Software Estatistico

Pacotes de usuários

Outros pacotes (“de usuários”) precisam ser instalados

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 69

Page 70: R - Software Estatistico

Documentação de pacotes de usuários

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 70

Em RStudio

No repositório CRAN

Page 71: R - Software Estatistico

Ativação de pacotes de usuários

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 71

Por padrão, funções de pacotes instalados não estão disponíveis

É preciso carregar as funções no ambiente de execução

Page 72: R - Software Estatistico

Pacotes em desenvolvimento

Package devtools

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 72

Page 73: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 73

No caso de Windows, pode ser necessário instalar as ferramentas auxiliares:

Page 74: R - Software Estatistico

Sumário: pacotes

Usuários podem definir scripts e funções em R

Conjunto de funções podem ser organizadas em pacotes

Pacotes com contribuições de usuários podem ser carregados no ambiente de execução

Inclusive pacotes ainda em desenvolvimento

Algumas funções:

source(), function()

ifelse()

install.packages(), library(), require()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 74

Page 75: R - Software Estatistico

Princípios da análise de dados exploratória

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 75

Page 76: R - Software Estatistico

Análise de Dados Exploratória

Abordagem para a análise inicial de um conjunto de dados

Identificar suas principais características

Em geral, apoiada por métodos visuais

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 76

John Wilder Tukey (1915-2000)

Page 77: R - Software Estatistico

Conjuntos de dados de exemplos

Serão utilizados alguns conjuntos de dados do pacote UsingR

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 77

Page 78: R - Software Estatistico

Altura de pai e de filho

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 78

Page 79: R - Software Estatistico

Ajustes iniciais

Na maior parte dos casos, pequenos ajustes são necessários para facilitar a inteligibilidade de dados e variáveis

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 79

Page 80: R - Software Estatistico

Explorações iniciais: summary

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 80

Page 81: R - Software Estatistico

Explorações iniciais: amostragem

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 81

Page 82: R - Software Estatistico

Funções estatísticas descritivas

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 82

Page 83: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 83

Page 84: R - Software Estatistico

Gráficos básicos: hist

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 84

Page 85: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 85

Page 86: R - Software Estatistico

Gráficos básicos: plot

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 86

Page 87: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 87

Page 88: R - Software Estatistico

Gráficos básicos: boxplot

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 88

Page 89: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 89

Page 90: R - Software Estatistico

Gráficos básicos: qqnorm, qqplot

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 90

Page 91: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 91

Page 92: R - Software Estatistico

Estratificação

Qual a altura de um filho adulto, selecionado aleatoriamente?

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 92

Qual a altura do filho, dado que o pai mede 185cm?

Page 93: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 93

Page 94: R - Software Estatistico

Estratificação: split

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 94

Page 95: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 95

Page 96: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 96

Altura mais provável do filho cujo pai mede 185 cm: 182 cm

Page 97: R - Software Estatistico

Os vários gráficos sugerem que, na média, filhos adultos são mais altos que os pais

Dá para afirmar isso com segurança ou será fruto de um acaso?

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 97

Page 98: R - Software Estatistico

Teste de hipótese

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 98

Refutar hipótese nula com valor p < α

Tipicamente, α=0.05 ou α=0.01

Page 99: R - Software Estatistico

Condições para aplicação do teste t

Distribuição das duas populações devem ser (aprox.) normais

Para o Teste de Welch, não é preciso que as variâncias sejam iguais

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 99

Page 100: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 100

Page 101: R - Software Estatistico

Sumário: exploração de dados

Funções sobre a estrutura do conjunto de dados

str(), names()

Funções sobre o conjunto de dados

summary(), sample()

Funções estatísticas básicas

min(), max(), mean(), median(), quantile()

Funções auxiliares

round(), split()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 101

Page 102: R - Software Estatistico

Sumário: exploração de dados

Funções gráficas

hist(), plot(), boxplot()

qqnorm()

abline(), qqline()

Teste de hipóteses

t.test()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 102

Page 103: R - Software Estatistico

Manipulação de dados

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 103

Page 104: R - Software Estatistico

Por que manipular os dados?

Nem sempre a fonte tem dados bem organizados...

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 104

Page 105: R - Software Estatistico

Por que manipular os dados?

Nem sempre os dados disponíveis estão completos...

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 105

Page 106: R - Software Estatistico

Por que manipular os dados?

Nem sempre os dados disponíveis estão corretos...

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 106

Page 107: R - Software Estatistico

Por que manipular os dados?

Nem sempre os dados estão no formato adequado para o processamento ou para a apresentação gráfica em R

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 107

Page 108: R - Software Estatistico

Conceito de Tidy Data

Dados estão arrumados quando:

1. Cada variável forma uma coluna

2. Cada observação forma uma linha

3. Cada tipo de unidade observacional forma uma tabela

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 108

Page 109: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 109

Page 110: R - Software Estatistico

Manipulação de blocos de dados

Família da função apply

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 110

Page 111: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 111

Dimensão 1: aplicar função por linhas

Dimensão 2: aplicar função por colunas Obs.: especificamente para somas e médias:

Para mais de uma dimensão:

Page 112: R - Software Estatistico

Família de funções apply

apply

Aplicar função a linhas/colunas de uma matriz

lapply

Aplicar função a uma lista (retorno é uma lista)

sapply

Aplicar função a uma lista (retorno é um vetor)

tapply

Aplicar função a um subconjunto de um vetor, segundo fatores em outro vetor

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 112

Page 113: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 113

Page 114: R - Software Estatistico

O pacote dplyr

Pacote para manipulação de dados em data frames

Conjunto de funções que representam ações sobre as tabelas

filter, select, mutate, arrange...

Operador para encadear sequências de ações

%>%

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 114

Page 115: R - Software Estatistico

dplyr: exemplo

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 115

Page 116: R - Software Estatistico

dplyr: mutate

A função mutate permite criar novas colunas a partir de valores existentes

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 116

Page 117: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 117

Page 118: R - Software Estatistico

dplyr: filter

A função filter permite selecionar apenas as linhas que satisfazem a uma condição

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 118

Page 119: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 119

Page 120: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 120

Page 121: R - Software Estatistico

dplyr: select

A função select permite escolher as colunas de interesse

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 121

Page 122: R - Software Estatistico

dplyr: summarise

A função summarise combina valores de várias linhas de acordo com alguma função agregadora

Em geral, utilizada juntamente com a função group_by

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 122

Page 123: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 123

Page 124: R - Software Estatistico

dplyr: arrange

A função arrange permite ordenar as linhas pelos valores especificados

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 124

Page 125: R - Software Estatistico

dplyr: encadeamento de funções com %>%

A sequência de funções pode ser combinada num único comando

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 125

Page 126: R - Software Estatistico

O pacote reshape2

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 126

O pacote reshape2 oferece funções para converter formatos de dados em data frames

Aplicação dos princípios de tidy data

Do formato largo (messy) para longo (tidy): melt

Do formato longo para largo: dcast

Page 127: R - Software Estatistico

reshape2: melt

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 127

Page 128: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 128

...

Page 129: R - Software Estatistico

reshape2: dcast

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 129

Page 130: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 130

Notação de formula: Y ~ X

Page 131: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 131

Page 132: R - Software Estatistico

Sumário: manipulação de dados

Família de funções *apply

apply(), lapply(), sapply(), tapply(),...

Pacote dplyr

mutate(), filter(), select(), summarise(), group_by(), n(), arrange(), desc()

Pacote reshape2

melt(), dcast()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 132

Page 133: R - Software Estatistico

Mais gráficos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 133

Page 134: R - Software Estatistico

Sistemas gráficos em R

Sistema gráfico básico

Bom para explorações iniciais de dados

Pouca flexibilidade

Outros sistemas gráficos

Pacotes R com funções alternativas para a criação de gráficos

Trellis Graphics for R (lattice)

An Implementation of the Grammar of Graphics (ggplot2)

The Grid Graphics Package (grid)

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 134

Page 135: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 135

Page 136: R - Software Estatistico

Gráfico rápido em ggplot2: qplot

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 136

Page 137: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 137

Page 138: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 138

Padrão para dados 2d

Page 139: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 139

Padrão para dados contínuos 1d

Page 140: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 140

Padrão para dados categóricos 1d

Page 141: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 141

Page 142: R - Software Estatistico

Explorando o potencial completo de ggplot2: ggplot

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 142

Dados

Estética básica

Camadas

Page 143: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 143

Page 144: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 144

Page 145: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 145

Page 146: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 146

Mesmos dados, heatmap

Page 147: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 147

Mesmos dados, densidade

Page 148: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 148

Page 149: R - Software Estatistico

geom_smooth()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 149

Page 150: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 150

Page 151: R - Software Estatistico

geom_boxplot()

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 151

Page 152: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 152

Estabelece a ordem que deve ser preservada na apresentação

Page 153: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 153

Page 154: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 154

Page 155: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 155

Page 156: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 156

Page 157: R - Software Estatistico

Mapas

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 157

Page 158: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 158

Page 159: R - Software Estatistico

Nuvens de palavras

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 159

Page 160: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 160

Processamento dos textos (usando pacote tm, text mining)

Criação da nuvem de palavras

Page 161: R - Software Estatistico

Tipos de gráficos a evitar

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 161

WAINER, H. How to display data badly. The American Statistician, v. 38, n. 2, p. 137–147, 1984.

Notas de aula: Statistics and R for the Life Sciences, Rafael Irizarry

Page 162: R - Software Estatistico

Princípios gerais de gráficos ruins

1. Mostre o mínimo de informação

2. Obscureça o que você apresenta

3. Use cores e pseudo-3D gratuitamente

4. Faça um gráfico de torta (de preferência, colorido e em 3D)

5. Use uma escala escolhida pobremente

6. Ignore algarismos significativos

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 162

Page 163: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 163

Torta

Donut

Barras 3D

Problema: gráficos com informação visual pouco adequada à percepção/ comparação pelo olho humano

Page 164: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 164

Page 165: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 165

Problema: gráfico de barras pouco informativo

Page 166: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 166

Mesmos dados, mais informação

Page 167: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 167

Problema: mostrar apenas a regressão

Page 168: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 168

Mostrar os pontos originais

Page 169: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 169

Problema: comparação entre dois grupos (antes & depois, controle & tratamento) usando gráficos de barras

Page 170: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 170

Alternativas melhores

Page 171: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 171

Problema: 3D usado gratuitamente

Page 172: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 172

Alternativa

Page 173: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 173

Problema: dígitos significativos em excesso (com pouco significado)

Tabela 1. Altura de jogadores de basquetebol

Page 174: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 174

Alternativa:

round(heights,1)

Page 175: R - Software Estatistico

Princípios a serem seguidos

1. Seja preciso e claro

2. Deixe que os dados falem

3. Mostre tanta informação quanto possível, sem obscurecer a mensagem

4. Ciência não é marketing, evite firulas desnecessárias

5. Em tabelas, todos os dígitos devem ser significativos; não deixe de apresentar os 0’s finais

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 175

Page 176: R - Software Estatistico

Sumário: mais gráficos

Criação de gráficos com ggplot2

Gráficos rápidos com qplot()

Gráficos em camadas com ggplot()

geom_point(), geom_bin2d(), geom_density_2d(), geom_boxplot()

geom_smooth(), ggtitle(), xlab(), ylab(), facet_grid()

Mapas com ggmap

Criação de nuvens de palavras

wordcloud

Recomendações gerais sobre apresentação gráfica

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 176

Page 177: R - Software Estatistico

Pesquisa reproduzível em R

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 177

Page 178: R - Software Estatistico

O que é pesquisa

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 178

Page 179: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 179http://phdcomics.com/

Page 180: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 180

http://retractionwatch.com/2016/09/08/biologist-loses-second-paper-again-for-unvalidated-figure

Page 181: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 181

http://retractionwatch.com/2016/08/24/7th-retraction-for-ohio-researcher-who-manipulated-dozens-of-figures

Page 182: R - Software Estatistico

A pesquisa reproduzível

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 182

https://en.wikipedia.org/wiki/Reproducibility#Reproducible_research

Page 183: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 183

Peng RD. Reproducible research in computational science. Science (80- ) [Internet]. 2011;334(6060):1226–7. Available from: http://arxiv.org/abs/0901.4552

Page 184: R - Software Estatistico

Divulgando pesquisa reproduzível em R

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 184

Page 185: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 185

Page 186: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 186

Page 187: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 187

Page 188: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 188

Page 189: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 189

Page 190: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 190

Page 191: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 191

Page 192: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 192

Page 193: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 193

https://www.rstudio.com/wp-content/uploads/2015/03/rmarkdown-reference.pdf

Page 194: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 194

Page 195: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 195

Page 196: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 196

Page 197: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 197

http://rpubs.com/ricarte/StormEventsDatabaseAnalysis

Page 198: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 198

http://rpubs.com/ricarte/StormEventsDatabaseAnalysis

Page 199: R - Software Estatistico

Dez regras da pesquisa reproduzível

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 199

Page 200: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 200

Page 201: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 201

Page 202: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 202

Page 203: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 203

http://rpubs.com/

Page 204: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 204

http://rpubs.com/marschmi/105639

Page 205: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 205

Page 206: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 206

Page 207: R - Software Estatistico

Escrita de artigos acadêmicos em R

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 207

Page 208: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 208

Page 209: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 209

http://gigascience.biomedcentral.com/

Page 210: R - Software Estatistico

Fontes de dados para uso em pesquisa

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 210

http://datasearch.elsevier.com/

Page 211: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 211

Page 212: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 212

http://snap.stanford.edu/data/

Page 213: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 213

Page 214: R - Software Estatistico

Obter dados da Web

Abordagem exploratória, interativa

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 214

Page 215: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 215

Page 216: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 216

Abordagem não-interativa: pacote RCurl

Page 217: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 217

Page 218: R - Software Estatistico

Sumário: pesquisa reproduzível

Criação de pesquisa reproduzível em R: Rmarkdown

Recomendações para criação de pesquisa reproduzível

Repositórios de documentos e de códigos

Escrita de artigos científicos em RMarkdown

Veículos acadêmicos que promovem pesquisa reproduzível

Fontes de dados para uso em pesquisa

Data sharing, Open data

Pacote RCurl

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 218

Page 219: R - Software Estatistico

Considerações finais

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 219

Page 220: R - Software Estatistico

Em resumo, R...

Ambiente e linguagem para análise de dados

Milhares de pacotes com funções para diferentes funcionalidades

Adequado para tarefas de análise exploratória de dados e de análise estatística de dados experimentais

Funções para limpeza e transformação de dados

Funções gráficas avançadas

Apoio à pesquisa reproduzível

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 220

Page 221: R - Software Estatistico

E agora...

Tutoriais, livros, sites

Galerias de aplicações

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 221

Page 222: R - Software Estatistico

Um breve tutorial de R: swirl

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 222

http://swirlstats.com/

Page 223: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 223

Page 224: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 224

Page 225: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 225

Page 226: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 226

Page 227: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 227

Page 228: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 228

Page 229: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 229

Page 230: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 230

Page 231: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 231

Page 232: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 232

Page 233: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 233

Page 234: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 234

Page 235: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 235

Page 236: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 236

Page 237: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 237

Page 238: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 238

Page 239: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 239

http://stackoverflow.com/

Page 240: R - Software Estatistico

R Software Estatístico 2016 Prof. Ivan L. M. Ricarte 240

Prof. Ivan L. M. Ricartehttp://www.ft.unicamp.br/[email protected]