Upload
voque
View
217
Download
0
Embed Size (px)
Citation preview
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Introdução à análise de dados agronômicos e uso do software R
Anderson R Silva
Programa de Pós-Graduação em Estatística e Experimentação AgronômicaESALQ/USP
25 a 30 de novembro de 2013
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Parte 1 - Conteúdo
1 Software R
2 Introdução à análise de dados
3 ANOVADICDBC
4 Transformação Box-Cox
5 Extra: DQL
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Software R
• R (http://www.r-project.org/)
• Action = Excel + R (http://www.portalaction.com.br)
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Software R
Porque usar o R?
• Gratuito
• Linguagem de programação ⇒ maior �exibilidade de análise
• Grá�cos1 de alta qualidade em 2 e 3D, e animações grá�cas!
• Suporta grandes bancos de dados
• Grande quantidade de pacotes disponíveis (atual: 5027)
• Em geral, há mais de uma opção de função para a mesma análise
• Conexão com a internet (download de pacotes, funções, leitura de dadosonline, e-mails de aviso ...)
• Grande aceitação pela comunidade cientí�ca
1Para demonstrações grá�cas, digite os comandos
demo(graphics) e demo(persp)
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Pacotes do R
Alguns pacotes recomendados para análise de dados experimentais:
• ExpDes (Ferreira, et al. 2013)
• agricolae (Mendiburu, 2012)
Use o comando para saber como citar...
• o software R: citation()
• um pacote do R: citation(�nome do pacote�)
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Exemplo / Motivação
O limite de liquidez (LL) é o teor em água acima do qual o solo torna-se líquido.
Considere o seguinte problema:
• Determinar o limite de liquidez, por amostra, de 42 amostras de solo.
• O método baseia-se numa regressão linear simples em que y é o teor de águano solo e x é o número de pancadas.
• LL é então um valor de umidade do solo para x = 25 (NBR 6459), isto é, umvalor predito pela equação de regressão.
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Bibliogra�as para usuários iniciantes
Para uma introdução ao uso do R, podem ser consultadas:
• PETERNELLI, L. A.; MELLO, M. P. Conhecendo o R: uma visão estatística.Viçosa: Editora UFV, 2011. 185p.
• Manual em .pdf An Introduction to R, disponível na ajuda do software(Ajuda � manuais em PDF).
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Tipos de dados: questões iniciais
• Dados observacionais ou experimentais?
• Estatística descritiva ou inferencial?
Dados paramétricos ou não-paramétricos... ?!?!?
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Dados observacionais vs. experimentais
• Em dados observacionais se deseja, em geral, apenas conhecer ocomportamento ou o processo de geração destes.
• Dados experimentais são, em geral, provenientes de experimentos comparativos.
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Exemplo 1
Considere dados de número de plantas atacadas (NPA) pela lagarta-do-cartucho(Spodoptera frugiperda) e rendimento (kg) de milho por m2.
NPA Rendimento Inseticida NPA Rendimento1 0.86 sim 1 0.862 0.79 não 2 0.795 0.61 não 5 0.612 0.82 não 2 0.820 0.93 vs. sim 0 0.931 0.80 sim 1 0.801 0.88 sim 1 0.880 0.90 sim 0 0.903 0.74 não 3 0.742 0.75 não 2 0.75
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Métodos descritivos
• Numéricos: min, max, média, desvio padrão ...
• Grá�cos: Histograma, Barras, Boxplot ...
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Métodos inferenciais
• Paramétricos: teste t-Student, F-ANOVA, testes de médias, GLM etc.
• Não paramétricos: Wilcoxon, Kruskal-Wallis, Friedman etc.
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Métodos inferenciais: conceitos básicos
• Nível de signi�cância (α): denota a probabilidade máxima de erro tipo I(rejeitar H0 verdadeira) num teste de hipóteses. É �xada pelo pesquisador.
• Valor-p: denota a real (calculada com base nos dados!) probabilidade de errotipo I. Quando p < α, rejeitamos H0.
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Análise de variância
• Grande utilidade em experimentos comparativos (inclui delineamentos eesquemas experimentais).
• Comparação de dois ou mais grupos (tratamentos).
• teste F
• Pressuposições2 do modelo: aditividade, independência dos erros,homogeneidade de variâncias, normalidade dos erros.
2As pressuposições devem ser veri�cadas sob pena de se fazer inferências pouco con�áveis.
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
DIC
• Aleatorização dos tratamentos às parcelas sem nenhuma restrição
• Robusto ao desbalanceamento
• Maior no possível de graus de liberdade do resíduo
• Não controla nenhuma fonte de variação ambiental
Modelo estatístico:Yij = µ+ ti + εij
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Exemplo 2: DIC
A requeima, doença causada por Phytophthora infestans (Mont.), é a principaldoença fúngica da batata (Embrapa, 2011). Em um experimento instalado sob odelineamento inteiramente casualizado, com três repetições por tratamento,envolvendo quatro cultivares, foi medida a produção de tubérculos (em kg),conforme a tabela:
Cultivar Rep.1 Rep.2 Rep.31 50,9 50,6 51,22 49,1 49,3 49,93 49,9 49,8 49,54 49,2 49,1 50,0
Fonte: Embrapa, 2011
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
CV
A precisão experimental pode ser calculada em termos do coe�ciente de variaçãoexperimental (CV):
CV (%) = 100×√QMRes
y
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
DBC
• Aleatorização dos tratamentos às parcelas com uma restrição (blocagem)
• Estimativa mais precisa da variância residual pelo controle de uma fonte devariação ambiental
• A perda de parcelas impossibilita a análise, a menos de estimação daobservação perdida
Modelo estatístico:Yij = µ+ ti + bj + εij
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Exemplo 3: DBCVisando avaliar o comportamento de 9 porta-enxertos especí�co para a laranjeiraValência, foi instalado um experimento casualizado em blocos com 3 repetições(blocos). Foram avaliados os seguintes resultados de produção, em número médiode frutos por planta:
BlocoPorta enxerto I II IIITangerina Sunki 145 155 166Limão Rugoso Nacional 200 190 190Limão Rugoso da Flórida 183 186 208Tangerina Cleópatra 190 175 186Citrange-troyer 180 160 156Trifoliata 130 160 130Tangerina Cravo 206 165 170Laranja Caipira 250 271 230Limão Cravo 164 190 193
Fonte: Teó�lo Sobrinho, 1972
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Transformação Box-Cox
Quando as pressuposições do modelo de ANOVA não são atendidas, muitas vezes éútil aplicar a transformação de Box-Cox para obtermos a normalidade.Considerando Y1,Y2, ...,Yn os dados originais, a transformação de Box-Cox consisteem encontrar um λ tal que os dados transformados Y ∗
1 ,Y∗2 , ...,Y
∗n se aproximem de
uma distribuição normal. Esta transformação é dada por:
Y ∗i =
log(Yi ), se λ = 0
Y λi − 1λ
, se λ 6= 0
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Exemplo 4: DBC
O grau de impureza (%) de um determinado produto químico é suposta ser afetadapela pressão. Em um ensaio em blocos casualizados três repetições foram utilizadaspara cada um dos níveis de pressão aplicados. A temperatura foi utilizada como umfator de controle local. Os dados referentes são apresentados a seguir:
Pressão (psi)Temperatura (oF) 25 30 35 40 45100 5 4 6 3 5125 3 1 4 2 3150 1 1 3 1 2
Fonte: Abebe, 20??
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
DQL
• Aleatorização dos tratamentos às parcelas com duas restrições (linhas ecolunas)
• Estimativa mais precisa da variância residual pelo controle de duas fontes devariação ambiental
• Cada tratamento aparece apenas uma vez em cada linha e em cada coluna
• O número de linhas, colunas e tratamentos é o mesmo (I )
• Em geral I varia de 4 a 10
Modelo estatístico:Yijk = µ+ li + cj + tk + εijk
Introdução àanálise dedados
agronômicose uso dosoftware R
Anderson RSilva
Software R
Introdução àanálise dedados
ANOVA
DIC
DBC
TransformaçãoBox-Cox
Extra: DQL
Exemplo 5: DQL
Considere um experimento para investigar o efeito de quatro diferentes dietas (A, B,C e D) na produção de leite de vaca. Há quatro vacas no estudo e o período delactação foi dividido em quatro períodos. Durante cada período de lactação asvacas recebem uma dieta diferente. Assumindo que não haja in�uência da dieta doperíodo anterior, as seguintes observações foram obtidas de um quadrado latino4× 4:
VacaPeríodo 1 2 3 41 A=38 B=39 C=45 D=412 B=32 C=37 D=38 A=303 C=35 D=36 A=37 B=324 D=33 A=30 B=35 C=33
Fonte: Abebe, 20??