Upload
carina-arruda
View
89
Download
2
Embed Size (px)
Citation preview
INVENTÁRIO FLORESTAL
EXEMPLOS COM O SOFTWARE R
CLÁUDIO ROBERTO THIERSCH
MONICA FABIANA BENTO MOREIRA THIERSCH
CLAUDIO ROBERTO THIERSCH
MONICA FABIANA BENTO MOREIRA THIERSCH
INVENTÁRIO FLORESTAL
EXEMPLOS COM O SOFTWARE R
UNIVERSIDADE FEDERAL DE SÃO CARLOS - UFSCar
SOROCABA - SP
2010
“A chave para compreender a aleatoriedade e toda a
matemática não é ser capaz de intuir imediatamente
a resposta para qualquer problema, e sim possuir as
ferramentas para encontrar a solução” (MLODINOW,
2009)
Sumário
Lista de Tabelas
Lista de Figuras
1 Introdução 7
2 Software R 8
3 Definições básicas 10
3.1 População e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Exatidão e precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3 Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Planos amostrais probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5 Estatísticas utilizadas na teoria de amostragem . . . . . . . . . . . . . . . 13
3.5.1 Medidas de posição . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.5.2 Medidas de dispersão e precisão . . . . . . . . . . . . . . . . . . . . 14
3.5.3 Fator de correção para populações finitas . . . . . . . . . . . . . . . 17
3.5.4 Intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . . . . 17
Lista de Tabelas
1 Volumes por unidade amostral expresso em m3/ha . . . . . . . . . . . . . . 13
Lista de Figuras
1 Exatidão vs precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Critérios para classificação das amostras probabilísticas . . . . . . . . . . . 12
7
1 Introdução
Todo e qualquer estudo em diferentes povoamentos, quer seja para fins de produção
ou de conservação, parte do conhecimento da população presente e do entendimento do
padrão de variação desta população ao longo do tempo. Por este motivo, o uso de técnicas
de amostragem é fato corrente no meio florestal. Dado a sua importância, é fundamental
o uso de técnicas que produzam resultados confiáveis e livres de viéses.
No meio florestal a ciência que trata do uso destas técnicas de amostragem é chamada
de Inventário Florestal. No caso das florestas de produção o principal interesse é
conhecer o estoque presente disponível para consumo e ter informações para previsão dos
estoques futuros de forma a garantir o plano de suprimento das unidades consumidoras.
No caso das florestas destinadas para conservação o conhecimento do estágio atual de
um dado povoamento e da dinâmica do mesmo é de fundamental importância para as
estratégias de conservação e, ou, restauração.
Por sua vez, as técnicas de amostragem, não são conceitos triviais e precisam ser
estabelecidos para o uso científico dos processos amostrais(BOLFARINE; BUSSAB, 2005).
Considerando a não trivialidade dos conceitos associados à necessidade de aplicação de
diferentes expressões matemáticas à bases de dados, normalmente grandes, esta publicação
tem por objetivo apresentar diferentes planos amostrais e, também, o uso do software
estatístico “R” para a análise e processamento dos dados.
8
2 Software R
R é um “software livre” para computação estatística e gráficos. Software livre se refere
à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e
aperfeiçoarem o software.
O ambiente R inclui:
1. Funções para análise de dados com uma poderosa ferramenta gráfica.
2. Funções e operadores para cálculos matriciais.
3. Vasta coleção de funções para aplicações das mais variadas técnicas estatísticas.
4. Uma linguagem de programação simples e eficiente que permite a inclusão de con-
dições, “loops”, novas funções definidas pelo usuário, diferentes formas de entrada e
saída de dados, conexões com outros sistemas, etc.
O R é um sistema muito bem planejado de forma a permitir o seu desenvolvimento
contínuo. A inclusão de novas funcionalidades não resulta na acumulação de ferramentas
muito específicas e rígidas, como frequentemente ocorrem em outros softwares de análise
de dados. O sistema pode ser estendido facilmente através de pacotes. Há cerca de
oito pacotes fornecidos com a distribuição R e muitos outros estão disponíveis através da
família “CRAN” de sites da Internet que cobrem uma vasta gama de estatísticas modernas.
Todo o sistema, bem como, uma documentação completa pode ser encontrado no www.r-
project.org.
Este capítulo não tem o objetivo de ensinar os passo iniciais de uso do R, o qual, já
possui um vasta opção de literaturas com este fim facilmente encontradas na Internet e
em livros já publicados. O objetivo principal é apresentar e dar créditos a esta poderosa
ferramenta.
Os comandos serão apresentados de forma concomitante aos exemplos demonstrados
nos próximos capítulos. Para facilitar a explicação da implementação de algumas técni-
9
cas, o usuário deverá importar o pacote “cmrinvflor ” disponível junto desta publicação.
Vários exemplos que serão apresentados nos próximo capítulos deverão ser precedidos pelo
comando “ library(cmrinvflor)”. Neste pacote estão inseridas algumas funções e bases de
dados de exemplo. Para o uso de outras bases de dados recomendo o usuário estudar a
função “read ” do R. Para acessar a ajuda de uso desta função basta utilizar o comando
“?read ” no R.
10
3 Definições básicas
Para o bom entendimento da teoria da amostragem é importante conhecer algumas
definições referentes aos parâmetros populacionais e aos estimadores e estimativas destes
parâmetros.
Função paramétrica populacional é uma característica numérica qualquer da popu-
lação, ou seja, uma expressão numérica que condensa funcionalmente os valores de uma
determinada variável de interesse. É comum utilizar-se para esta definição a expressão
parâmetro populacional de interesse, parâmetro populacional, parâmetro estatístico e me-
dida estatística.
O estimador é a expressão matemática que será utilizada para “estimar” o parâmetro
populacional e o valor numérico do estimador é a estimativa.
3.1 População e amostra
A população é o conjunto de todas as unidades elementares de interesse, sendo que,
duas são as pressuposições de uma população (LOETSCH; HALLER, 1964).
1. Os indivíduos de uma população são da mesma natureza. Por exemplo, florestas
plantadas ou nativas.
2. Os indivíduos de uma população diferem entre si, de acordo com uma feição, atributo
típico ou característica. Por exemplo, as variáveis dendrométricas.
Elemento populacional ou unidade elementar é qualquer elemento da população.
A amostra é uma sequência de n unidades da população que é examinada, permitindo
que se façam inferências sobre a população em estudo (SHIVER; BORDERS,1996).
11
3.2 Exatidão e precisão
Os conceitos de exatidão e precisão podem ser facilmente entendidos analisando a
figura 1.
Figura 1: Exatidão vs precisão
Em linhas gerais, a precisão é o grau de variação de resultados de uma medição e, a
exatidão ou acurácia, é a conformidade com o valor real.
3.3 Erros
Por motivos diversos todo levantamento amostral está sujeito a erros. Estes erros
podem ser classificados como erros amostrais e não amostrais.
Um erro amostral é aquele devido apenas ao processo amostral e, os não amostrais,
são os erros que ocorrem mesmo que toda a população fosse amostrada. Estes erros
não amostrais podem ser de ocorrência casual ou consistentes causando tendências, tam-
bém chamadas de viés, vícios ou “bias”. Em linhas gerais, viés é qualquer processo em
qualquer estágio de inferência que tende a produzir resultados ou conclusões que diferem
sistematicamente da verdade (SCOLFORO; MELLO, 2006).
12
3.4 Planos amostrais probabilísticos
Muitas são as formas de selecionar e distribuir as amostras e, assim, gerar diferentes
plano amostrais. Kish (1965) propôs alguns critérios resumidos na figura 2.
Figura 2: Critérios para classificação das amostras probabilísticas
Para exemplificar, entre as 32 combinações possíveis apresentadas na figura 2, se
selecionarmos as primeiras opções, teremos o plano amostral denominado amostragem
casual simples. Dentre outras possibilidades iremos trabalhar em capítulos posteriores a
amostragem casual estratificada, amostragem sistemática, amostragem em conglomerado,
amostragem em múltiplos estágios, etc.
13
3.5 Estatísticas utilizadas na teoria de amostragem
Para demonstração das estatíticas foram consideradas os resultados dos volumes
(m3/ha) de diferentes unidades amostrais apresentados na tabela 1.
Tabela 1: Volumes por unidade amostral expresso em m3/ha
.
parcela vtcc55 148, 8056 167, 5157 141, 89322 150, 60323 152, 49324 143, 88325 161, 29326 155, 28327 145, 80328 129, 49
Os dados da tabela 1 podem ser observados no R utilizando dos comandos abaixo. O
sinal de atribuição “<-” onde se lê “recebe” pode ser substituído pelo sinal de igual “=”.
tab<-invflor1[1:10, c(’parcela’,’vtcc’)]; tab;
Uma descrição detalhada de toda a tabela “invflor1” pode ser obtida no R utilizando
o comando “?invflor1”.
Para apresentar as parcelas na ordem crescente de suas identificações e, ou, para
retornar os nomes das colunas utilize os comandos abaixo.
tab<-tab[order(tab$parcela),];tab; #Comando de ordenação.
names(tab); #Comando para retornar os nomes das colunas.
3.5.1 Medidas de posição
1. Média aritmética
y =
∑ni=1 yin
(3.1)
onde: y = Média aritmética da amostra
n = Número de unidades amostrais
14
yi = Valor da iésima unidade amostral
Considerando os dados da tabela 1 y = 1497,0310
= 149, 703m3.
ymed<-sum(tab$vtcc)/length(tab$vtcc); ymed;
# ou
ymed<-mean(tab$vtcc); ymed;
2. Mediana
É o valor localizado na posição 50% de um vetor de dados ordenado. Para
vetores com número par de registros a mediana é a média dos dois valores centrais.
Considerando os dados da tabela 1 temos: mediana = 148,80+150,602
= 149, 70m3
ymedian<-median(tab$vtcc); ymedian;
3. Moda
É o valor ou valores mais frequentes em um vetor de dados. Considerando a
série {3, 4, 3, 5, 6, 3, 5, 6, 3} a moda é 3.
yt<-table(c(3,4,3,5,6,3,5,6,3));
ymoda<-as.numeric(names(yt)[which.max(yt)]); ymoda;
3.5.2 Medidas de dispersão e precisão
1. Variância
A variância é definida como sendo o “desvio quadrático médio da média”, ou
seja, é uma medida de dispersão que indica o quão longe em geral os valores de uma
variável se encontram em relação à sua própria média.
S2y =
n∑i=1
(yi − y)2
n− 1=
∑ni=1 y
2i −
(∑n
i=1 yi)2
n
n− 1(3.2)
Considerando os dados da tabela 1: S2y = 112, 2875m6
var_y<-var(tab$vtcc); var_y;
15
2. Desvio padrão
O desvio padrão é a raiz quadrada da variância. Semelhante à variância esta
estatística expressa a variação dos valores observados em relação à sua própria mé-
dia. Por sua vez, a sua unidade é a mesma da variável de interesse, fato que facilita
o seu entendimento.
Sy =√S2y (3.3)
Considerando os dados da tabela 1: Sy = 10, 60m3
sd_y<-sqrt(var(tab$vtcc)); sd_y;
# ou
sd_y<-sd(tab$vtcc); sd_y;
Se uma variável aleatória (Y) tem distribuição normal com média µ e variância
S2(Y ∼ N(µ, S2)), pode-se dizer que:
(a) 68% dos valores encontram-se a uma distância da média inferior a um desvio
padrão.
(b) 95% dos valores encontram-se a uma distância da média inferior a duas vezes
o desvio padrão.
(c) 99,7% dos valores encontram-se a uma distância da média inferior a três vezes
o desvio padrão.
3. Coeficiente de variação
O coeficiente de variação é a razão entre desvio padrão das unidades amostrais
pela sua média, usualmente expressa em porcentagem. Por ser uma medida de
dispersão relativa permite comparar distribuições com diferentes magnitudes.
CV% =Syy· 100 (3.4)
Considerando os dados da tabela 1: CV% = 10,60149,703
· 100 = 7, 08
cv_y<-sd(tab$vtcc)/mean(tab$vtcc)*100; cv_y;
4. Erro padrão da média
16
Esta medida de precisão corresponde ao desvio padrão das médias. Conside-
rando N o número de unidades cabíveis em uma população e n o número de unidades
amostrais da amostra, são muitas as combinações de amostras possíveis de serem
realizadas. Para cada combinação uma média pode ser gerada e, por conseguinte, o
desvio padrão destas médias.
O número de combinações possíveis pode ser calculado pela fórmula:
CNn =
N !
n! (N − n)!(3.5)
ncomb<-choose(N,n);
Utilizando-se das fórmulas 3.2 e 3.3 podemos cálcular o erro padrão da média
utilizando a expressão 3.6.
σy =
√√√√∑mi=1 y
2i −
(∑m
i=1 yi)2
m
m(3.6)
onde:
yi = Média amostral da iésima amostragem
m = Número total de médias amostrais
σy =Erro padrão da média
Por sua vez, esta forma de cálculo não é factível, visto que, apenas uma amos-
tragem é realizada. Para resolver este problema, com apenas uma amostragem é
possível calcular o erro padrão da média utilizando um dos mais importantes teo-
remas estatísticos, o teorema central do limite (TCL). Segue uma demonstração da
TCL utilizando o R.
par(mfrow=c(1,2));
x<-runif(10000, 180, 250); #Distribuição uniforme
#x<-rexp(10000,0.02); #Distribuição exponencial
hist(x, main=’’,ylab=’frequência’,cex.main=0.9);
y<-matrix(,5000,1);
for (i in 1:5000){
y[i]<-mean(sample(x,100));
}
hist(y,main=’’,ylab=’frequência’,cex.main=0.9);
17
Pela TCL, uma população finita com média µ e variância σ2y, o erro padrão da
média pode ser estimado como σy√n. Sabendo-se que σy pode ser estimado utilizando
Sy, o erro padrão da média pode ser estimado pela expressão 3.7
Sy =Sy√n
(3.7)
Considerando os dados da tabela 1: Sy = 10,60√10
= 3, 35
sdm_y<- sd(tab$vtcc)/sqrt(length(tab$vtcc)); sdm_y;
3.5.3 Fator de correção para populações finitas
População finita é aquela onde se pode enumerar todas as unidades amostrais cabíveis.
Considerando N o número de unidades cabíveis em uma população e n o tamanho da
amostra, a fração amostral é dada por n/N e, por conseguinte, a fração não amostral
é dada por (1 − n/N). Esta expressão quando associada ao cálculo do erro padrão da
média é denominada fator de correção para populações finitas. Assim, para as populações
finitas, o erro padrão da média é calculado utilizando-se a expressão 3.8. Este fator tende
a 0 quando n tende a N (censo) e tende a 1 quando a relação n/N tende a 0 (população
infinita).
Sy =
√S2y
n
(1− n
N
)(3.8)
Considerando os dados da tabela 1 e um N igual a 100:
Sy =√
112,287510
(1− 10
100
)= 3, 18
n<-length(tab$vtcc);
sdm_y<-sqrt(var(tab$vtcc)/n*(1-n/100)); sdm_y;
3.5.4 Intervalo de confiança
Conforme o teorema central do limite, as estimativas das médias amostrais seguem
uma distribuição normal com média µ e erro padrão da média σy√n. Este fato demonstra que
as variáveis de interesse observadas nas unidades amostrais não precisam ter distribuição
normal, ou melhor, podem apresentar qualquer distribuição.
18
Sabendo pelo TCL que as médias amostrais possuem distribuição normal e conhecendo
as propriedades das medidas de dispersão (Seção 3.5.2) desta distribuição, o intervalo de
confiança do erro padrão da média pode ser calculado utilizando o valor t da distribuição
t de Student ou Z da distribuição normal quando para n > 120. Para n tendendo para
o infinito o valor t da distribuição t de Student tende para o valor de Z da distribuição
normal.
O valor t da distribuição t de Student é obtido por:
±t = y − µSy
(3.9)
±t · Sy = y − µ (3.10)
µ = y ± t · Sy (3.11)
[y − t · Sy ≤ µ ≤ y + t · Sy] (3.12)
O intervalo de confiança apresenta as seguintes características:
1. Quanto menor o n, maior sera o valor de t da distribuição t de Student e, por
conseguinte, maior o intervalo de confiança para um mesmo nível de significância.
2. Quanto maior for o grau de heterogeneidade do povoamento, maior será o erro
padrão da média e, por conseguinte, maior o intervalo de confiança para um mesmo
nível de significância.
3. Quanto maior o nível de significância menor será o intervalo de confiança. Normal-
mente os níveis de significância adotados são iguais a 5% ou 1%. Para exemplificar,
caso o nível de significância α seja de 5% a média estimada tem uma probabilidade
de 5% de estar fora do intervalo estimado. Em outras palavras, significa que existe
uma probabilidade de no máximo 5% de que os dados tenham nos iludido em função
do acaso.
Considerando os dados da tabela 1:
t0,05ns(n−1)gl = 2, 26
IC = 149, 703± 2, 26× 3, 18
IC = 149, 703± 7, 19
19
A expressão t · Sy é conhecida como o erro do inventário na unidade da variável de
interesse. Outra forma de apresentação do erro é em porcentagem, conforme a expressão
3.13.
erro_perc =t · Syy· 100 (3.13)
Considerando os dados da tabela 1:
erro_unid = 7, 19m3
erro_perc = 7,19149,703
· 100 = 4, 80%
ns<-0.05; #nível de significância
erro_unid<-abs(qt(ns/2,n-1)*sdm_y);erro_unid;
erro_perc<-erro_unid/mean(tab$vtcc)*100;erro_perc;