View
2
Download
0
Category
Preview:
Citation preview
1
Em Busca de uma Medida da Qualidade da Escola
Reynaldo Fernandes
refernan@usp.br
Elaine Toldo Pazello
epazello@usp.br
Roberta Loboda Biondi
roberta.biondi@gvmail.br
Fabiana de Felicio
fabiana.felicio@gmail.com
Resumo
Classificação JEL: I2 Educação; C01 Econometria; C5 Modelagem Econométrica.
Abstract
APRESENTAÇÃO EM PORTUGUÊS
FEA-RP/USP.
FEA-RP/USP.
EESP-FGV.
Metas - Consultoria em Pesquisa e Avaliação Educacional.
Este artigo procura contribuir para a identificação de uma medida de qualidade da escola menos sujeita a erros
de medida, e que traga mais informações relacionadas à influência da escola no desempenho dos estudantes,
relativamente às medidas usuais dos programas de school accountability. A proposta é a construção de uma
medida de qualidade composta por uma combinação linear ponderada de diversas medidas de resultados,
insumos e processos, onde a estrutura de pesos é definida por um modelo MIMIC (múltiplos indicadores e
múltiplas causas), e não de forma arbitrária, uma das vantagens do método desenvolvido. Os indicadores de
resultado utilizados são os valores adicionados calculados pelos modelos de efeito fixo e between, para o qual
propomos a correção das estimativas pelo número de alunos testados na escola, conhecido como shrinkage
estimator. A partir das estimativas por SUR e uma hipótese de identificação derivada do próprio modelo
propomos um indicador de qualidade. Realizamos uma aplicação para o Estado de São Paulo utilizando os
dados do SARESP 2008 e 2010 para o 5º ano do ensino fundamental. Encontramos uma medida de qualidade
da escola menos sujeita a erros de medida, mais estável e com menor correlação com as características
socioeconômicas dos alunos relativamente às outras medidas. Não surpreendentemente, o indicador também
demonstrou elevada correlação com os indicadores de resultado que a compõe. Nossa conclusão é que o método
teórico desenvolvido se mostrou robusto, principalmente no que se refere à estratégia de identificação, além de
apresentar bons resultados quando aplicados aos dados.
Palavras-chave: qualidade da escola, school accountability, modelos de valor adicionado, modelos MIMIC.
This works contributes to the identification of a school quality measure that is less subject to measurement errors
and also brings more information about the influence the school has over the students‟ achievement, relatively to
those commonly used on school accountability programs. It is proposed a quality measure, formed by a weighted
average of several results‟, input‟ and processes‟ mean, on which the weight structure is defined by a MIMIC
model (Multiple Indicators and Multiple Causes) and not of arbitrary form, which is one of this method‟s
advantages. The results‟ indicators used are the additional values calculated by the fixed effect and between
models, for which it is proposed the correction of the estimative by the school‟s number of tested students, known
as shrinkage estimator. We did the indicator based on SUR estimates and on identification hypothesis derived
from the model. We applied this method for the state schools of São Paulo using 2008 and 2010 SARESP‟s data.
We found a quality measure less subject to measurement errors, more stable and less correlation with the
socioeconomic characteristics of students than to the other measures. Not surprisingly, this measure also was
highly correlated with the result indicators that compose it. Our conclusion is that the theoretical method proved
to be robust, especially as regards the strategy for the identification, besides having good results when applied to
the data.
Key words: school quality, school accountability, Value-Added Models, MIMIC Models. Classificação JEL: I2 Educação
2
I. Introdução
A prática de avaliar escolas através do desempenho de seus estudantes em exames padronizados
tem se tornado cada vez mais freqüente em todo o mundo. Também tem sido usual atrelar recompensas,
sanções e assistência a tais resultados. Dado a importância de transmitir aos professores e pais o motivo
das escolas serem recompensadas ou penalizadas, indicadores simples de desempenho seriam desejáveis.
Talvez por esse motivo, a pontuação média dos estudantes da escola tem sido uma das medidas de
desempenho mais utilizadas pelos programas de school accountability.1 No entanto, medidas simples
podem ter propriedades não desejadas.
A estrutura de incentivos subjacente aos programas de school accountability depende,
fundamentalmente, da medida de desempenho considerada. Nesse ponto, dois potenciais problemas dos
programas têm sido ressaltados: i) “gaming” e ii) distorção de incentivos. O primeiro problema decorre
do fato que as escolas podem adotar estratégias para alterar os resultados dos exames que não mudam a
qualidade do ensino ministrado como, por exemplo, treinar e motivar os estudantes para os testes ou
excluir dos exames alunos de baixa proficiência. No segundo caso, o destaque tem sido dado ao fato que as
escolas, ao concentrar esforços nos aspectos cobrados pelos programas, são levadas a negligenciar outros
aspectos igualmente importantes. Em relação a isso, o estreitamento de currículo e a exclusão de alunos de
baixa proficiência tem sido uma preocupação2.
Neste artigo o interesse recai sobre um tipo específico de distorção de incentivos. Aquela que
advém do fato que os indicadores utilizados nos programas de school accountability serem medidas
imperfeitas dos objetivos restritos que eles se propõem a avaliar, ainda que nenhum “gaming” esteja
presente. Por exemplo, se um teste de matemática se propõe avaliar a capacidade das escolas em
proporcionar aos seus estudantes um bom aprendizado na disciplina, ele é imperfeito porque seus
resultados incorporam, além do esforço da escola, influências advindas da família, dos amigos e das
habilidades inatas dos estudantes, bem como do erro aleatório de medida. Kane e Staiger (2001 e 2002)
notaram que os resultados de exames padronizados são medidas sujeitas a muito ruído em virtude da
grande variância do termo erro, particularmente entre as pequenas escolas.
Mizala, Romaguera e Urquiola (2007) sugerem que policy makers estejam frente ao seguinte trade-
off: a) escolher uma medida que reflita mais as características socioeconômicas dos estudantes ou b) optar
por uma medida que ordene as escolas de forma a imitar uma loteria. Assim, por exemplo, a pontuação
média dos estudantes ordenaria escolas mais com base nas características socioeconômicas dos estudantes
do que com base na qualidade da escola. Já medidas que procuram reduzir a influência socioeconômica
1 Ver Kane e Staiger (2002) e Hanushek e Raymond (2003) para uma descrição dos programas americanos. Para uma discussão
da incipiente experiência brasileira sobre school accountability, ver Brooke (2006) e Andrade (2008).
2 Para uma discussão desses problemas, ver, entre outros, Jacob (2005 e 2007), Jacob e Levitt (2003), Hanushek e Raymond
(2003 e 2005) , Kane e Staiger (2002), Cullen e Reback (2006) e Reback (2007).
3
como, por exemplo, o valor adicionado, estariam muito influenciadas pelo erro aleatório de medida e,
portanto, produziriam rankings bastante voláteis. Premiar ou penalizar escolas com base no perfil dos
alunos que elas recebem ou com base em uma loteria traria conseqüências indesejáveis à estrutura de
incentivos implícita nos programas de school accountability. Por exemplo, escolas que são mal avaliadas
por receberem alunos pobres poderiam se sentir desestimuladas a melhorar a qualidade de ensino, uma vez
que o ranking de escolas reflete pouco do esforço realizado. Por outro lado, programas que têm como foco
as melhores e as piores escolas, para promover prêmios e punições, trazem pouco incentivo para as
grandes escolas. A probabilidade da escola aparecer no topo ou no fim do ranking é muito maior para as
pequenas, uma vez que a variância do erro diminui com o número de estudantes [Kane e Staiger (2002)].
Tentar identificar, nos resultados obtidos pelos estudantes nos exames padronizados, a parcela que
advém do trabalho da escola (ou do professor) tem sido a base para os Modelos de Valor Adicionado
(Value-Added Models – VAMs). Infelizmente, isso não é uma tarefa fácil. A literatura de VAMs apresenta
uma diversidade de modelos, envolvendo medidas relativamente simples de valor adicionado a complexos
modelos estatísticos, que necessitam admitir hipóteses questionáveis, não testáveis. Medidas simples
tendem a produzir instabilidade de rankings, em virtude da grande variância do erro aleatório de medida.
Já os modelos mais sofisticados exigem uma quantidade de dados (ex. testar todos os alunos, todos os anos
e nas mesmas disciplinas) que são disponíveis apenas em poucos sistemas de avaliação no mundo3.
A influência da escola no desempenho de seus alunos nos testes padronizados não é uma variável
diretamente observável e toda medida utilizada está sujeita a erros, sejam eles sistemáticos ou aleatórios.
Deste modo, seria mais apropriado considerar que qualquer medida de qualidade da escola, entendida
como a contribuição da escola para que seus alunos adquiram as habilidades e conhecimentos exigidos
pelos testes, divirja da “verdadeira” qualidade por um fator de escala mais um termo erro. O objetivo,
então, seria obter uma medida de qualidade onde a variância do erro, medida como proporção da variância
da qualidade, seja a menor possível4.
Uma forma de lidar com esse problema seria obter mais de uma medida da qualidade das escolas e,
então, extrair a média delas. O sistema de pesos dessa média deve ser apropriadamente calculado de forma
a minimizar a variância do erro. Kane e Staiger (2001) propõem utilizar os resultados dos testes de anos
anteriores para tal fim. No entanto, essa proposta possui dois inconvenientes. O primeiro é que ela
pressupõe que as escolas possuam um histórico de resultados em exames padronizados, o que não é
disponível para muitos dos novos programas de school accountability. O segundo é que, em virtude da
qualidade relativa das escolas não ser fixa ao longo do tempo, seria necessário impor alguma estrutura para
3 Para escolas (ou professores) com poucos alunos, as estimativas anuais do efeito escola (professor) estão sujeitas a muita
flutuação amostral. Existem, no entanto, estratégias – e.g. o Best Linear Unbiased Predictor usado no Tennessee Value Added
Assessment System (TVAAS) – que procuram lidar com esse problema. Para uma revisão e discussão dos VAMs ver, por
exemplo, McCaffrey at. al. (2003) e o simpósio do Journal of Education and Behavioral Statistics (2004).
4 Se o objetivo é apenas ordenar as escolas, o fator de escala não possui relevância para a análise.
4
tentar capturar a variação temporal na qualidade relativa das escolas. Kane e Staiger (2001) supõem que o
“efeito escola”, implícito na pontuação média dos estudantes da escola, segue um processo autoregressivo
de ordem um, onde o parâmetro do modelo é considerado o mesmo para todas as escolas5.
No presente artigo, sugerimos utilizar mais de uma medida de qualidade da escola extraídas de um
mesmo período de tempo6. Assim, propomos utilizar exames em diferentes disciplinas e mais de uma
medida de qualidade por disciplina, bem como variáveis de insumos e processos. Para tanto, sugerimos a
implementação de um modelo MIMIC (múltiplos indicadores e múltiplas causas), o qual trata a qualidade
da escola como uma variável latente e estimada a partir da correlação entre as variáveis “causas” e as
variáveis “indicadoras” de qualidade. No fundo, nossa proposta não diverge do procedimento utilizado por
vários programas de school accountability, ao utilizar um indicador que é uma média de diversas medidas
de resultados, insumos e processos. A diferença é que o sistema de pesos não é arbitrário7.
O modelo MIMIC tem sido utilizado por economistas para obter uma medida da Economia
Subterrânea, mas a validade de tal procedimento tem sido contestada por diversos comentadores8. A
principal crítica recai sobre a hipótese de que as variáveis “causas” afetam as variáveis “indicadoras”
exclusivamente através da Economia Subterrânea. Nosso argumento é que tal hipótese é menos restritiva
quando a variável latente é a qualidade da escola.
Entretanto, para nossos propósitos, uma restrição importante do modelo MIMIC padrão refere-se à
hipótese que, dado a variável latente, as variáveis indicadoras são mutuamente independentes. Se, por
exemplo, Y1 e Y2 são medidas da qualidade da escola extraídas dos resultados dos exames de leitura e
matemática, então, não seria razoável admitir que a covariância dos erros entre as duas medidas seja zero,
especialmente se os exames foram realizados no mesmo dia. Assim, abandonamos a hipótese de que as
covariâncias entre os erros das variáveis indicadoras, tomadas como medida de qualidade da escola, sejam
zero.
Por fim, uma restrição ao modelo MIMIC pode surgir em virtude do uso de variáveis de insumos e
processos educacionais. Economistas geralmente consideram medidas baseadas nos resultados dos
estudantes preferíveis a medidas baseadas em insumos ou processos educacionais. Isto em vista da fraca
correlação, freqüentemente encontrada, entre as variáveis de insumos e processos com o desempenho dos
estudantes. Deste modo, os incentivos de uma medida híbrida de qualidade da escola - incluindo variáveis
5 Na verdade, como eles trabalham com dois exames (leitura e matemática), eles supõem um vetor autoregressivo (VAR) de
primeira ordem e parâmetros idênticos para todas as escolas.
6 O que não significa que a inclusão de medidas de diferentes períodos não possa ser considerada.
7 Assim, a variável qualidade da escola é considerada unidimensional. Isso difere de grande parte dos modelos na literatura de
VAM, onde a qualidade da escola é considerada multidimensional: a qualidade da escola em propiciar o aprendizado em
matemática, em leitura etc.
8 Para o uso do modelo MIMIC na estimação da Economia Subterrânea ver, entre outros, Frey e Weck-Hannemann (1984),
Giles (1999a e 1999b), Dell‟Anno e Schneider (2003) e Bajada e Schneider (2005). Para uma avaliação crítica dessa abordagem
ver, entre outros, Helberger e Knepel (1988), Smith (2002), Hill (2002) e Breusch (2005).
5
de resultados, insumos e processos - seriam confusos. Como ressaltam Hanushek e Raymond (2003) “a
school could be rewarded for improving its procedures even if it does not result in additional student
achievement". Este tipo de argumentação, no entanto, minimiza as dificuldades de se obter uma medida da
qualidade da escola a partir dos resultados de exames padronizados. Nosso argumento é que se variáveis
de insumos e processos possuem alguma informação sobre a qualidade da escola não há porque desprezá-
la.
O restante deste artigo é organizado da seguinte forma. A seção II discute as dificuldades de se
extrair o sinal de qualidade da escola a partir dos resultados de exames padronizados. Na seção III,
analisam-se as vantagens e desvantagens dos modelos de efeito fixo e aleatório para obtenção do efeito
escola. A seção IV apresenta o modelo MIMIC proposto para se obter um indicador da qualidade da
escola. Uma estratégia de identificação do modelo MIMIC é apresentada na seção V. Outros problemas de
estimação, não tratados no presente artigo, são discutidos na seção VI. Na seção VII realizamos uma
aplicação do modelo MIMIC para o Brasil. E, por fim, a seção VIII conclui o artigo.
II. O Problema de Extrair o Sinal da Qualidade da Escola a partir dos Resultados de Exames
Padronizados
Rubin, Stuart e Zanutto (2004) argumentam que um problema básico na literatura de VAMs é a
falta de definição clara da quantidade que esses modelos buscam estimar. Se o interesse é estimar um
efeito causal (contribuição da escola para o desempenho de seus alunos) e efeitos causais são
inerentemente comparações de produtos potenciais (pontuação dos estudantes nos testes em diferentes
cenários), eles alegam que os VAMs falham em identificar o experimento do qual eles procuram se
aproximar. Quais são as unidades de tratamento (escolas ou estudantes em particular)? Qual é o tratamento
(estar na escola j ao invés da escola j‟ ou as práticas de ensino adotadas pela escola j)? Diferentes
experimentos podem gerar resultados diferentes.
Raudenbush e Willms (1995) definem dois tipos de efeitos causais que poderiam ser objeto de
estimação dos VAMs. O primeiro (efeito tipo A) seria de interesse dos pais, na escolha da escola de seus
filhos. O segundo (efeito tipo B) seria de interesse dos gestores do sistema educacional, para
responsabilizar o staff das escolas pelo desempenho de seus alunos. Eles definem o produto potencial do
aluno i na escola j (Yij) como uma função das características do aluno (Si), um erro aleatório (eij) e dois
aspectos da escola: contexto da escola (Cj) e práticas de ensino (Pj). Professores e diretores possuem pouco
controle sobre Cj, o qual inclui ambiente e composição social da escola. Em contraste, professores e
diretores possuem substancial influência sobre Pj.
Para pais seria irrelevante distinguir a contribuição de Cj e Pj no aprendizado de seus filhos e, na
escolha entre a escola j e a escola j‟, o pai do estudante i deveria observar
'''' ,,,,,, ijjjiijijjjiiji ePCSYePCSYQ , onde Qi é a qualidade da escola j, em comparação com a
6
escola j‟, para o estudante i. Para efeitos de school accountability, no entanto, a comparação desejada seria
jjePCSYePCSYEQ ijjjiijijjjiijj *** ,,,,,, , onde Qj é a qualidade da escola j ao adotar as práticas
de ensino Pj, em comparação com a qualidade que ela teria se adotasse as práticas de ensino *
jP . No
primeiro caso as unidades de tratamento seriam os estudantes da escola j, o tratamento seria estar na escola
j e o tratamento alternativo seria estar na escola j‟. Já no segundo caso as unidades de tratamento seriam as
escolas, o tratamento seria adotar as práticas de ensino P e o tratamento alternativo seria adotar as práticas
de ensino *P . Raudenbush e Willms (1995) argumentam que, com base nos dados usualmente disponíveis,
seria possível obter uma estimativa com pequeno viés para o efeito tipo A, mas não para o efeito tipo B.
Isso porque as práticas de ensino (P) não são definidas e, muito menos, observadas. Assim, os VAMs
teriam potencial em gerar quantidades estimadas de interesse para pais de alunos e que, combinadas com
outras informações, seriam úteis para estimular discussões sobre como melhorar as práticas de ensino das
escolas. Mas eles não gerariam medidas diretas para manter o staff das escolas responsabilizado pelo
desempenho de seus alunos.
O que grande parte dos VAMs para efeito escola parece estimar é algo ligeiramente diferente do
efeito tipo A de Raudenbush e Willms (1995). Em nossa opinião, no entanto, tais estimativas podem ser
muito úteis para programas de school accountability e não apenas para escolha de escolas. Vamos admitir
que os alunos de todas as escolas sejam testados ao final do curso e que todos eles concluam o curso na
escola que ingressaram e no tempo “correto”, de modo que fenômenos como evasão, repetência e
transferência de escola estejam ausentes. Seja kiM a proficiência em matemática obtida pelo aluno k ao
final de seu curso na escola i e A
kiM o produto potencial desse aluno sob o tratamento alternativo. Então, o
efeito do tratamento sobre o aluno k é A
kikiki MMQ e o impacto médio do tratamento sobre os tratados
é iiMMEQ A
kikii , onde Qi seria a medida de qualidade. Por essa perspectiva, a qualidade da escola
seria multidimensional: qualidade do ensino em matemática, leitura, ciências, história etc.9
Em muitos VAMs o tratamento alternativo parece ser a alocação aleatória do estudante k em uma
das escolas do sistema. Então, A
kiM pode ser definido como a proficiência esperada em matemática para o
aluno k da escola i caso ele tivesse sido aleatoriamente alocado em uma das escolas do sistema. Deste
modo, a qualidade da escola, no ensino de matemática, é definida como o impacto da escola no
aprendizado dos alunos que ela serve. Se 0iQ significa que os alunos da escola i estão, em média,
melhores do que estariam numa escola com características médias. Note que se as escolas forem altamente
especializadas para o público que recebe é possível observarmos 0iQ para todas as escolas.
9 Assim, se estamos interessado em uma única medida de qualidade da escola teríamos que gerar um índice que agregue essas
diferentes qualidades. Isso será feito na seção IV.
7
Neste ponto, a questão chave a ser esclarecida refere-se ao significado de se ordenar escolas com
base em tal indicador de qualidade. Suponha que a proficiência média dos alunos da escola i seja 80iM
e o produto potencial médio sob o tratamento alternativo seja 70A
iM . Já para escola j, esses valores
seriam 95jM e 90A
jM . Então, teríamos 10iQ e 5jQ , de modo que a escola i seria considerada
de melhor qualidade. Tal comparação supõe que um ganho de mesmo tamanho em qualquer ponto da
escala de proficiência representa o mesmo incremento de aprendizagem (ou habilidade). Uma escala que
possui tal propriedade é conhecida como escala de intervalos. Claramente, se a escala é representada pelo
número de itens corretos em uma prova ela não possui tal propriedade, uma vez que os itens não são de
igual dificuldade. No entanto, alguns psicometristas argumentam que uma escala obtida pela Teoria da
Resposta ao Item (TRI) é uma escala de intervalos, embora isso esteja longe de ser um consenso (Ballou,
2008). De qualquer modo, um ranking de qualidade das escolas obtido pelo procedimento acima seria mais
defensável caso a proficiência dos estudantes fosse obtida com base na TRI.
Ainda que possamos considerar que a escala de proficiência seja uma escala de intervalos, utilizar
tais estimativas para efeitos de accountability pode ser questionado. Poder-se-ia alegar, por exemplo, que é
mais difícil elevar a proficiência de um estudante de 90 para 95 do que de 70 para 80. Para analisar esse
ponto vamos admitir que as variáveis de contexto não sejam importantes para o aprendizado dos alunos e
que diferentes alunos são diferentemente afetados pelas práticas de ensino. Por exemplo, podemos
imaginar que os alunos com maiores proficiências são mais independentes das práticas de ensino do que os
alunos com baixas proficiências. Admita que, no exemplo acima, a escola j possui as melhores práticas de
ensino entre todas as escolas do sistema, enquanto a escola i possui práticas de ensino apenas ligeiramente
melhores do que as da escola média. Apesar disso, a escola i seria considerada de melhor qualidade. Isso
porque uma pequena melhora nas práticas de ensino produziria um incremento significativo para os alunos
da escola i, que possuem baixa proficiência. Deste modo, alguém poderia considerar injusto que a escola j,
que possui as melhores práticas de ensino, seja classificada abaixo da escola i. Por tal argumento, a escola
deveria ser avaliada por sua qualidade “intrínseca”, independentemente da contribuição ao aprendizado de
seus alunos.
A ideia que a escola (ou professor) deva ser avaliada(o) por sua qualidade “intrínseca” é
compartilhada por muitos pesquisadores na área de educação. Além das dificuldades de ordem operacional
(a dificuldade ou impossibilidade de se obter uma medida da qualidade das práticas de ensino -
Raudenbush e Willms, 1995), tal posicionamento parece estar mais fundamentado em alguma concepção
de justiça do que em incentivos. A concepção de justiça, além de difícil consenso, não parece ser um bom
guia para orientar um programa de school accountability.
Os programas de educational accountability estão baseados na idéia que os responsáveis pelo
aprendizado nas escolas (professores, diretores e gestores) podem alterar suas condutas e, assim,
proporcionar aos estudantes um melhor ensino. Melhorar a qualidade do ensino pode exigir alterações em
8
práticas e hábitos enraizados no processo escolar e, portanto, de difícil execução. Assim, o potencial de um
programa de educational accountability depende muito de sua capacidade em induzir mudanças nos
procedimentos adotados que contribuam para melhorar o ensino. Aqueles que acreditam que a qualidade
da educação pode melhorar admitem, ao menos implicitamente, que alguns dos responsáveis pela
educação (professores, diretores, gestores de rede ou governantes) podem fazer algo diferente do que vêm
fazendo. Nessa perspectiva, em algum nível (professores, escolas ou sistemas de ensino), a accountability
pode ser necessária.
Por esse ponto de vista, a medida de accountability deveria ser avaliada pelo incentivo que ela
produz. Programas de accountability com diferentes medidas de qualidade de escola podem gerar
diferentes incentivos. Por exemplo, avaliar o staff da escola com base em sua qualidade “intrínseca” pode
gerar o seguinte sinal a seus membros: melhorem suas práticas. Se a medida for a proficiência média dos
alunos ao final do curso, o sinal seria: melhorem suas práticas e procurem se alocar em escolas onde os
alunos já ingressam com alta proficiência (ou procurem selecionar alunos com alta proficiência) . No caso
de se utilizar o valor adicionado (diferença da proficiência média dos alunos entre o início e o final do
curso) como medida de qualidade da escola, a mensagem seria: melhorem suas práticas e procurem se
alocar em escolas onde o potencial de crescimento dos alunos é maior (ou procurem selecionar alunos com
alto potencial de crescimento)10
. Por fim, na medida aqui discutida (Qi) o sinal seria: melhorem suas
práticas e procurem escolas onde seu trabalho faz mais diferença (ou procurem selecionar alunos que seu
trabalho faz mais diferença). Esta última é a mais condizente com a eficiência, no sentido de aumentar a
proficiência média dos alunos do sistema como um todo.
Na análise acima consideramos que as variáveis de contexto não são importantes para o
aprendizado dos alunos, o que é pouco razoável. Como Qi não separa variáveis de contexto de variáveis
relacionadas às práticas de ensino, ela estaria sinalizando para professores e diretores, além dos aspectos
discutidos acima, a procurarem se alocar em escolas com boas variáveis de contexto. Por exemplo, a
depender do mecanismo de como professores são alocados às escolas, isso poderia levar que escolas com
piores variáveis de contexto acabariam por receber também aqueles professores de pior desempenho que,
em virtude disso, não conseguiram se colocar em escolas com maiores valores de Qi. Isso acabaria por
reduzir, ainda mais, o aprendizado dos alunos nas escolas com piores variáveis de contexto.
Enquanto isso vem a ser um problema, não significa que a medida Qi seja de utilidade apenas para
pais de alunos, no momento de escolher a escola de seu filho. Uma escola com um valor muito negativo de
Qi pode ser um sinal para o gestor do sistema que seria melhor fechá-la e redistribuir seus alunos entre as
demais escolas. O fato é que o impacto de um programa de school accountability sobre a proficiência
10 Suponha que a prática escolar considerada seja „ter bons professores‟. Então, caso seja mais fácil agregar valor a alunos de
menor proficiência, os professores procurariam as escolas onde os alunos ingressam com baixa proficiência. Se as escolas estão
interessadas em contratar bons professores e possuem liberdade para fazê-lo, o resultado final seria uma diminuição na
desigualdade de proficiência no sistema. Por outro lado, caso agregar valor seja mais fácil a alunos de maior proficiência, o
resultado final do programa de accountability seria um aumento da desigualdade de notas.
9
média dos alunos do sistema depende de todo o desenho do programa e não apenas da medida de
desempenho utilizada. Como são escolhidos os diretores de escolas? Diretores podem contratar e demitir
professores? Qual o tratamento dado às escolas de pior desempenho? Nosso argumento é que se uma boa
estimativa de Qi for disponível, então ela seria uma melhor medida da qualidade da escola i do que as
usualmente adotadas pelos programas de school accountability como, por exemplo, a pontuação média dos
estudantes da escola nos exames padronizados, a variação da pontuação média entre dois períodos de
tempo e a variação da pontuação média para uma coorte de estudantes entre diferentes séries. Sendo assim,
o problema passa a ser o de encontrar uma boa estimativa de Qi.
Com base na discussão anterior, podemos definir a proficiência em matemática obtida pelo aluno k
ao final de seu curso na escola i como:
ki
A
kiiki vMQM , (1)
ikiki QQv .
Em (1) iQ é o efeito escola que queremos identificar e kiv é a diferença entre o efeito da escola i
para o aluno k e a esperança do efeito escola para a escola i. Vamos admitir que 0, i
A
kiki QMvE e
2
vkivVar . Estamos considerando também que cada coorte de estudantes que entra na escola i a cada
ano é constituído de uma amostra aleatória de potenciais estudantes de determinada população, de modo
que i
vi
nvVar
2 , onde in é o número de alunos testados na escola i e
in
k
ki
i
i vn
v1
1.
O principal problema para se obter uma estimativa de iQ refere-se ao fato de A
kiM não ser
observado. Antes, no entanto, é preciso reconhecer que mesmo kiM não é diretamente observado. O que
dispomos é uma estimativa da proficiência de determinado aluno extraída da realização de um exame.
Definindo tal estimativa como kiP , temos:
kiikiki zMP , (2)
Em (2), o termo ki é um distúrbio aleatório individual que é independente da escola que o aluno
se encontra, enquanto o termo iz é um distúrbio aleatório que afeta todos os estudantes da escola i e pode
refletir um erro de procedimento do aplicador do exame ou algum evento que afetou a concentração ou a
10
motivação dos estudantes no dia do teste. Vamos admitir que 0,, ikiiikiki QMzEQME ,
2
kiVar , 2
zizVar e 0,,, ikikikiiki zvCovvCovzCov .
Substituindo (2) em (1) e extraindo a média por escolas obtemos (3).
i
A
iii MQP , (3)
iiii vz ,
2
22
z
i
vi
nVar
.
Em (3) observamos que o primeiro termo da variância do erro se reduz com o aumento do número
de alunos testados (ni), mas não o segundo. Kane e Staiger (2001 e 2002) argumentam que rankings de
escolas baseados em iP tendem a ser voláteis devido à magnitude da iVar , especialmente entre as
pequenas escolas.
A estratégia básica dos VAMs é encontrar uma estimativa de A
iM , substituí-la em (3) e, então,
obter-se uma estimativa de iQ . Vamos admitir que:
ki
A
ki aM bX'
ki . (4)
Em (4), kiX é um vetor de variáveis explicativas observáveis que pode incluir, caso seja disponível,
um medida da proficiência do estudante k no momento que ele ingressa na escola i. Vamos supor que
0kiXkiE , 2
kiVar e 0, kikiCov . Podemos pensar ki como o resíduo que seria obtido
da regressão de A
kiM sobre kiX , caso A
kiM fosse observada. Assim, o impacto sobre A
kiM de variáveis não
observadas, mas correlacionadas com kiX , seriam capturadas pelos parâmetros de (4). Extraindo a média
por escolas e substituindo o resultado de (4) em (3) obtemos (5).
iiii AP bX'
i (5)
aQA ii .
Evidentemente, iA produz a mesma ordenação de escolas do que iQ . Tomando iA como nossa
medida de qualidade da escola e considerando b o estimador de b , o procedimento padrão dos VAMs,
para se obter uma estimativa da qualidade da escola, é dado por (6).
11
iiiii APA bbXbX'
i
'
iˆˆˆ (6)
Em (6), o termo ibbX'
iˆ dá uma medida do viés de seleção, que decorre das escolas
receberem públicos diferentes. O primeiro elemento reflete o viés de seleção baseado em características
observadas, não eliminado devido ao erro de estimação de b . Já o segundo elemento reflete o viés de
seleção baseado em características não observadas. É razoável imaginar que exista uma associação positiva
entre qualidade de escolas ( iA ) e qualidade dos estudantes ( A
iM )11
. Assim, podemos estabelecer que:
kii CcA bbX'
iˆ , (7)
kiiki DdA . (8)
Em (7) podemos pensar kiC como a soma do resíduo e da constante que seriam obtidos de uma
regressão de bbX'
kiˆ sobre iA , caso bbX
'
kiˆ e iA fossem observados. O mesmo procedimento
valendo para kiD , podemos definir iiCEC kii , iiDED kii , ikiki CCc e ikiki DDd ,
onde 0 ikiiki AdEAcE , 2
ckicVar e 2
dkidVar . Assim, podemos reescrever (7) e (8) como:
kiii cCcA bbX'
kiˆ , (7‟)
kiiiki dDdA . (8‟)
Extraindo a média por escolas de (7‟) e (8‟) e substituindo os resultados em (6), obtemos (9).
iii AA ˆ , (9)
dc 1 ,
iiii lDC ,
iiii dcl .
Em (9) a estimativa da qualidade da escola i ( iA ) difere da “verdadeira” medida ( iA ) por um fator
de escala ( ) e por um termo de erro ( i ). Como o fator de escala não altera a ordenação de escolas, o
problema recai sobre o termo erro. O termo erro, por sua vez, é composto por um componente sistemático
11 Bons alunos tendem a ter pais com mais recursos e mais preocupados com a educação e que, por esses motivos, estão
dispostos a despender mais esforços e recursos para obter uma melhor escola para seus filhos. Por outro lado, boas escolas
tendem a ter mais demanda do que vagas disponíveis e, assim, podem lançar mão de algum critério de seleção. Tal critério,
provavelmente, visaria escolher alunos com maior potencial.
12
( ii DC ) e por um componente aleatório ( il ): iiii DCAiiAE ˆ . A redução do erro sistemático
depende de possuirmos boas variáveis explicativas de A
kiM e da capacidade de produzirmos boas
estimativas de b .
Ainda que o erro sistemático possa ser considerado pequeno, de modo que o viés de estimativa não
seja importante, ordenar escolas com base em iA pode ser problemático. Isso em virtude que a variância
de il pode ser expressiva. A variância de il é dada por (10).
i
dcvzi
nlVar
2222
2
(10)
Em (10) observamos que o segundo termo da variância de il se reduz com o aumento do número
de alunos testados, de modo que a imprecisão de estimativa tende a ser agravado entre as pequenas
escolas. Kane e Staiger (2002), analisando os dados da Carolina do Norte, mostram que, tanto para o score
médio como para o valor adicionado, virtualmente todas as escolas com os melhores e os piores
desempenhos foram pequenas. As pequenas escolas foram também mais prováveis de reportar maiores
mudanças no score médio e no valor adicionado de um ano para o próximo. Enquanto o problema de
variação amostral impõe volatilidade ao ranking de escolas nas duas medidas, ele é ainda mais grave para
o caso do valor adicionado.12
Kane e Staiger (2002) calculam que a parcela da variância, entre as pequenas
escolas, explicada por fatores não persistentes é de 27% no caso do score médio e 56% no caso do valor
adicionado.
Uma forma de mitigar o problema de variação amostral entre as pequenas escolas seria “ajustar” a
estimativa do fator específico, iiiii zDCAE , pelo número de alunos testados na escola. O
termo iE inclui, além da medida de qualidade, o erro sistemático ( ii DC ) e o erro aleatório que é
comum a todos os alunos da escola i ( iz ). Admita, então, que para determinada escola tenhamos duas
estimativas de iE , dadas por (11) e (12).
iii EA ˆ e (11)
iiEA . (12)
12 Uma medida simples de valor adicionado pode ser obtida de (6). Para isso basta que kiX inclua apenas a proficiência dos
alunos ao ingressar na escola e se considere 1ˆ b .
13
A primeira estimativa é obtida por (9), onde iiiii dcv . Já a segunda é dada por
G
i
iAG 1
ˆ1, onde G é o número de escolas. Dado que 0 ii EE e 0, iiCov , o melhor preditor
de iE é dado por (13):
AcAcA ii 1ˆ~, (13)
ii
i
VarVar
Varc
.
Em (13), iA
~ é um shrinkage estimator. Assim, quanto maior a variância da estimativa do efeito
específico da escola i, em relação à variância do efeito específico entre todas as escolas, menor o peso
dado à estimativa do seu fator específico. Essa relação depende do número de alunos testados na escola i,
de forma que escolas com muito poucos alunos tendem a ter um peso maior do fator escola médio. Para
implementar tal procedimento, necessitamos obter estimativas de iVar e iVar .
III. Estimando o Efeito Escola: Efeito Fixo versus Efeito Aleatório
Um aspecto envolvido na discussão sobre a estimação do efeito escola diz respeito à melhor forma
de representar tal efeito: como efeito fixo ou como efeito aleatório. Para analisar essa questão seria
conveniente reescrever kiP como:
kiiki wFP bX'
ki , (14)
iiii zDAdF )1( ,
kikikiki vdw .
Em (14), o fator escola específico, iF , diverge do fator de qualidade, iA , por um fator de escala
d1 e por um termo erro ii zD . Em uma regressão com dados em cross section não é possível
separar iAd)1( de ii zD e o máximo que podemos conseguir é uma estimativa não enviesada de iF .
A estimativa de b em um modelo de efeito fixo pode ser obtida por uma regressão em OLS de (15).
kiiki wPP bXX'
iki , (15)
ikiki www .
14
Para obtermos o shrinkage estimator, podemos considerar o estimador da 2
kiVar como:
HGN
wG
i
n
k
ki
w
i
1 1
2
22
ˆ
ˆˆ
, (16)
G
ii
inN .
Em (16), H é o número de regressores em (15). Definindo
i
kiiin
EVarVarEVar1
,
podemos considerar que a variância da distribuição, entre escolas, do estimador dado por (11) seja
iii VarEVarAVar ˆ . Então, dado que ii VarEVar , obtemos i
in
arV2ˆˆ e
G
i i
G
i
iinG
AAG
arV1
2
1
2 11ˆˆ
1
1ˆ .
Uma condição importante para que o modelo de efeito fixo funcione é que não haja seleção com
base em A
kiM . Se os alunos que freqüentam a mesma escola possuam um alto grau de homogeneidade em
A
kiM , o fato de um estudante estar matriculado em uma ou outra escola já seria um forte indicador de seu
potencial de aprendizagem. Assim, ordenar as escolas com base no score médio dos estudantes ou com
base nos fatores específicos estimados ( sFi 'ˆ ) pode não se mostrar muito diferente. Por exemplo, Mizala,
Romaguera e Urquiola (2007) mostram que, para o Chile, adicionar controles da condição socioeconômica
em uma regressão que já inclui dummies de escolas altera muito pouco o poder explicativo de uma
regressão cuja variável dependente é o score bruto dos estudantes.
Caso os alunos dentro das escolas sejam bastante homogêneos em relação à A
kiM e não haja seleção
por não observados, teríamos como consequência, que kiX variaria pouco dentro das escolas. Então, uma
regressão que utiliza apenas informações intra-escolas teria dificuldade para identificar b. Por outro lado,
se os alunos dentro das escolas são heterogêneos em relação à kiX , mas homogêneos em relação à A
kiM ,
seria uma indicação da existência de seleção por não observados. Ou seja, alunos com melhores
características observadas ( kiX ) apresentariam características não observadas ( kiu ) mais desfavoráveis.
Isso imporia, dentro das escolas, uma correlação negativa entre kiX e kid . Então, uma regressão que
utiliza apenas informações intra-escolas tenderia a produzir uma estimativa enviesada de b , no sentido de
aproximá-la de zero.
15
Uma alternativa seria estimar (14) por um modelo de efeito aleatório. O modelo de efeito aleatório
possui a vantagem de utilizar, além das informações intra-escolas, as informações entre escolas. Para
melhor avaliar esse ponto seria conveniente reescrever a equação (14) como:
kiiki wfFP bX'
ki , (14‟)
ii fFF .
Note que, por construção, 0ifE , onde F é a média dos efeitos específicos sFi ' . O
procedimento, então, é tratar if como um erro aleatório, onde 0kiXifE , 2
fifVar e
0, iki fwCov . Definindo kiiki wf , para a escola i temos:
22222
22222
22222
...
.
.
...
...
wffff
ffwff
fffwf
E
'ππΩ ii , (17)
onde Ω é uma matriz de dimensão ni X ni. De posse de uma estimativa para Ω , a forma geral do
estimador de efeito aleatório é dada por (18):
i
1
ii
1
i PΩ'XXΩ'XβG
i
G
i 1
1
1
ˆˆ . (18)
Então, para implementar (18), precisamos de Ω
. Uma estimativa de 2
pode ser obtida ao estimar
(14”) por OLS.
iii bXFP ' , (14”)
Assim, uma estimativa de 2
f seria dada por
G
i i
w
G
i
ifnGHG 1
2
1
22 11ˆˆ
1
1ˆ , onde 2ˆ
w é
obtido por (16). Para obter o shrinkage estimator, podemos considerar que i
in
arV2ˆˆ e 2ˆˆ
fiarV
.
16
O modelo de efeito aleatório, por também considerar as informações entre escolas, é menos afetado
pelo problema de viés de seleção de alunos com base em A
kiM . No entanto, a presença de correlação entre
as variáveis if e kiX enviesará os coeficientes estimados (viés de variável omitida). Nesse caso, o viés é
no sentido de afastar b de zero. O modelo de efeito aleatório é uma combinação do modelo de efeito
within (efeito fixo) e o modelo de efeito between (equação 14”). O peso dado a cada um desses efeitos
depende do número médio de estudantes dentro das escolas: quanto maiores forem as escolas, mais o
modelo de efeito aleatório tenderá se aproximar do modelo de efeito fixo (e.g. Wooldridge, 2002, ch. 10).
Então, se o tamanho médio das escolas for suficientemente grande não seria surpreendente encontrarmos
estimativas similares entre os modelos de efeito fixo e efeito aleatório.
Outra possibilidade seria considerar o modelo de efeito between, estimando (14”) por OLS. O
modelo de efeito between contorna o problema de viés de seleção, mas agrava o problema de viés
introduzido pela correlação entre if e kiX .
Em suma, nenhum dos modelos acima está isento de produzir medidas da qualidade da escola que
sejam seriamente influenciadas por erros de medidas, sejam eles sistemáticos ou aleatórios. Admitindo que
todas as variáveis incluídas em kiX impactem positivamente em A
kiM ( 0b ), então o modelo de efeito
fixo tende a produzir bb ˆ , caso haja seleção com base em A
kiM . Por sua vez, o modelo de efeito between
tende a produzir bb ˆ , caso haja uma associação positiva entre kiX e iQ . Sendo esse o caso, deve haver
uma combinação das estimativas de b , obtidas pelos modelos de efeito fixo e betwwen, que reduza o viés
de estimação. Em tal situação o modelo de efeito aleatório nunca será a pior alternativa, mas nada garante
que seja a melhor. Na prática, os modelos de efeito fixo e aleatório podem produzir estimativas do efeito
escola muito similares. Por exemplo, o modelo de efeito aleatório aplicado para o sistema educacional das
principais capitais brasileiras produziu estimativas praticamente idênticas ao do modelo de efeito fixo,
enquanto as estimativas do modelo de efeito between mostraram-se diferentes.
Ainda que tenhamos bb ˆ , o problema de erro de medida pode ainda ser grave. Note que o
procedimento de ajustar a estimativa do efeito escola pelo número de alunos testados pode mitigar o
problema de variação amostral que afeta principalmente as pequenas escolas, mas ele em nada afeta o
distúrbio aleatório que incide sobre todos os estudantes de uma determinada escola, o qual pode ser
significativo. Por outro lado, nada foi feito para lidar com o problema de viés de seleção baseado em
características não observadas.
Por fim, os modelos aqui analisados consideram a qualidade da escola como multidimensional:
qualidade do ensino em matemática, leitura, ciências, história etc. Para os programas de school
accountability, no entanto, seria importante obtermos uma medida única da qualidade das escolas. Nesse
caso, o procedimento padrão é adotar uma média desses indicadores. O problema é que a literatura de
VAMs não nos dá qualquer indicativo sobre o melhor sistema de pesos a ser utilizado. Na seção seguinte
17
apresentamos uma forma de utilizar as medidas de qualidade da escola aqui analisadas (associadas a
medidas de insumos e processos da escola) com o objetivo de produzir um indicador de qualidade que
procura lidar com esses problemas.
IV. O Modelo MIMIC
O modelo MIMIC (múltiplos indicadores e múltiplas causas) foi originalmente desenvolvido por
Jöreskog e Goldberg (1975), onde múltiplos indicadores e múltiplas causas de uma única variável latente
são observados. No nosso contexto a variável latente seria a qualidade unidimensional da escola, Q.
Vamos admitir que:
jiijjji QQ , (19)
0iji QE .
Em (19), i é um indexador de escolas e j é um indexador da dimensão da qualidade: qualidade do
ensino em matemática, leitura, ciências, história etc. Então, a qualidade do ensino em matemática diverge
da qualidade geral da escola por um fator de escala ( j ) e por um termo erro ( jij ). Como vimos
acima, jiQ não é diretamente observado e o que podemos obter é uma medida de qualidade que diverge de
jiQ por um fator de escala e por um termo erro. Assim, podemos considerar que nossa medida imperfeita
da qualidade do ensino de matemática diverge da qualidade geral, iQ , também por um fator de escala e por
um termo erro.
A especificação do modelo é como segue. A variável latente q é linearmente determinada, sujeita
ao distúrbio aleatório e, por um conjunto de causas exógenas observáveis x,
ikikii exxq ....11 . (20)
Por outro lado, a variável latente determina linearmente, sujeita ao distúrbio aleatório u, um
conjunto de indicadores endógenos observáveis,
jiijji uqy mj ....,,2,1 . (21)
18
Em (20) e (21), a letra minúscula das variáveis significa que elas estão expressas como desvio da
média, de forma que nenhuma constante se faz necessária. O índice j refere-se ao indicador e i refere-se à
escola.13
Substituindo (20) em (21) obtemos a forma reduzida do modelo:
jikikjijji vxxy ....11 mj ....,,2,1 , (22)
onde jiijji uev .
Seja x e α vetores de dimensão k X 1, enquanto y, β e u vetores de dimensão m X 1. Então,
podemos reescrever (22) como:
vxΠ'y , (22‟)
αβ'Π ,
uβv ie .
As hipóteses do modelo são dadas por (23).
0u ieE , (23)
22 ieE e
Θuu' E ,
onde mdiag ......,,1Θ , com θ‟s sendo as variâncias dos u‟s. Ou seja, os distúrbios são assumidos
para não se relacionarem entre si. Assim, a matriz de covariância da forma reduzida dos erros é dada por,
Θββ'vv'Ω 2E . (24)
Em geral, a estrutura do modelo MIMIC implicará em restrições nos parâmetros da forma reduzida
de Π e Ω. Primeiro, a matriz de coeficientes Π tem rank um, de modo que seus k X m elementos são
expressos em termos dos k + m elementos de α e β. Segundo, a matriz de covariância Ω é a soma de uma
matriz de rank um e uma matriz diagonal, de modo que seus m X (m + 1)/2 distintos elementos são
expressos em termos dos 1 + 2m elementos de σ2, β e θ. Por fim, é possível observar em (22) que os
13 Os indicadores seriam a medida de qualidade do ensino em matemática obtida por um modelo de efeito fixo, a medida de
qualidade do ensino em matemática obtida por um modelo de efeito between, a medida de qualidade do ensino em leitura obtida
por um modelo de efeito fixo etc.
19
parâmetros da forma reduzida permanecem inalterados quando β é multiplicado por um escalar e α e σ são
divididos por esse mesmo escalar. Tal indeterminação exige um procedimento de normalização. Dentre as
várias possibilidades, uma bastante utilizada, a qual será adotada no presente artigo, é fixar 11 . A
estimação do modelo MIMIC é, tipicamente, por máxima-verossimilhança, com a hipótese adicional de
que os termos erros (ei e u) possuem uma distribuição conjunta normal. Para tal estimação o pesquisador
pode lançar mão de softwares especialistas tal como o LISREL.
As hipóteses do modelo MIMIC trazem duas importantes implicações para a estrutura de
correlação entre as variáveis observáveis: i) condicional na variável latente q, as variáveis indicadoras são
independentes das variáveis causas e ii) condicional na variável latente q, as variáveis indicadoras são
mutuamente independentes. A primeira condição impõe que toda influência das variáveis causas sobre as
variáveis indicadoras se dá através da qualidade da escola. Em linguagem de variáveis instrumentais, as
variáveis kxxx ...,,, 21 são instrumentos de q. Como observado por Jöreskog e Goldberg (1975), as
variáveis myyy ...,,, 21 seriam medidas alternativas de mesma coisa: a quantidade não observada q. Esses
diferentes indicadores da qualidade da escola divergiriam apenas em virtude de um fator de escala e por
erros de medida. A segunda condição, por sua vez, impõe que esses erros de medida sejam não
correlacionados.
Neste artigo aceitamos a primeira das condições acima, mas mudamos a estrutura básica do MIMIC
de forma a considerar que a matriz Θ seja irrestrita. No nosso caso, a hipótese que os erros de medida das
variáveis indicadoras sejam não correlacionados é provável não se verificar. Note que se as variáveis
indicadoras são obtidas a partir de diferentes testes (matemática, leitura, ciência etc) realizados num curto
período de tempo (freqüentemente no mesmo dia), então, qualquer fator externo que, para um determinado
aluno ou para o conjunto de alunos de determinada escola, afete a medida de desempenho em um teste é
provável, também, afetar o resultado dos demais. Por outro lado, os erros de medida das variáveis
indicadoras obtidas pelo mesmo exame (ex. matemática), mas por modelos diferentes (efeito fixo ou
aleatório) são, necessariamente, correlacionados.
Seguindo Breusch (2005), podemos reescrever (22) na estrutura padrão de um modelo de equações
simultâneas. Para isso basta subtrair ij y1 de cada variável indicadora 1jy ji . Então, fixando 11 ,
o modelo pode ser reescrito como:
ikikii gxxy 1111 .... , (25)
jiijji gyy 1 mj ....,,3,2 ,
onde iii ueg 11 e ijjiji uug 1 1j .
20
Para estimarmos (25) podemos utilizar um procedimento de GLS interado, o seemingly unrelated
regression (SUR). Esse procedimento está disponível em muitos pacotes econométricos, tal como o
comando “sureg” no Stata. É importante ressaltar que ao estimarmos (25) por SUR, nenhuma restrição é
imposta à matriz de variância e covariância dos erros (g‟s). Assim, as hipóteses que 0u ieE e
mdiag ......,,1Θ não seriam necessárias.14
Tal procedimento produz uma estimativa para todos os
α’s e β’s, bem como para a matriz de variância e covariância dos erros. De posse dessas estimativas, o
próximo passo é obter uma estimativa para a variável latente iq . Uma possibilidade freqüentemente
utilizada é considerar o valor predito da primeira variável indicadora,
kikiiiii xxxyExqE ....111. (26)
Nesse caso, teríamos um indicador orientado por variáveis de insumos e processos. A questão aqui
é justificar porque tal indicador seria preferível a utilizar diretamente mjy ji ...,2,1 . No presente artigo
propomos utilizar um indicador de qualidade da escola que seja uma média dos mjy ji ...,2,1 e dos
kjx ji ...,,2,1 .
Definindo kikiim xxy ....111 , iim eu 1 e 11 m , podemos reescrever (20) como:
imimim uqy 111 . (20‟)
Para obtermos uma estimativa de iq , inserimos (20‟) em (21) e, seguindo Jöreskog (2000),
consideramos que os valores dos β’s e α’s são conhecidos. Na prática eles serão iguais aos s' e s'
obtidos da estimativa de (25). Assim, podemos obter, para cada uma das escolas, a estimativa de sua
qualidade, iq , conforme (27).
i
111yΣβ'βΣβ'
iq , (27)
20
0ΘΣ'uuE .
14 Entretanto, como veremos adiante, nós ainda admitiremos que 0u ieE .
21
A equação (27) supõe 0u ieE , mas não impõe qualquer restrição em Θ .15
Ela implica estimar,
para cada escola i, uma regressão em GLS de jiy em j 1,,.....,2,1 mmj , sendo iq o parâmetro a
ser obtido. O vetor *u adiciona imu 1 ao vetor u . Seja jk 1,....,,2,1, mmkj os elementos de Σ
e jk os elementos de 1Σ , então iq é dado por (28).
1
1
1
1ˆ
m
j
jj
m
j
jji
i
y
q
, (28)
jmmmjmjjj 112211 ... .
Dado que kikiim xxy ....111 , então podemos reescrever (28) como,
k
j
jijm
m
j
jiji xyq1
1
1
ˆ , (29)
1
1
m
j
jj
j
j
.
Note que a qualidade da escola foi arbitrariamente fixada para ter a mesma dimensão de 1y , de
modo que, sem qualquer prejuízo, podemos dividir iq por uma constante c. Assim, temos:
k
j
jijm
m
j
jiji
i xyc
1
1
1
* ˆ , (30)
1
1
m
m
j
jc ,
11
1
m
j
j
A medida de qualidade da escola seria uma média ponderada das variáveis indicadoras e das
variáveis causas. Em outras palavras, nossa medida seria um mix de variáveis baseadas na performance dos
estudantes e de variáveis de insumos e processos. A equação (30) pode ser reescrita de forma que as
15 Veremos adiante que, para identificarmos Σ , necessitamos fazer alguma restrição em Θ . Entretanto, não será necessário
supor que mdiag ......,,1Θ .
22
variáveis não sejam expressas como desvios da média e, caso os s' pudessem ser considerados estáveis
ao longo do tempo, teríamos,
k
j
jitjtm
m
j
jitjit XYQ1
1
1
* . (31)
Deste modo, poderíamos obter as estimativas dos s' em um determinado ano (t = 0) e
verificarmos, além do ranking de qualidade nesse mesmo ano, a variação temporal da qualidade do
sistema. O procedimento de considerar a qualidade da escola como uma média ponderada, com pesos
fixos, entre variáveis de resultados, insumos e processos já é utilizado por alguns sistemas de ensino. A
diferença aqui é que a determinação dos pesos não é ad hoc. Para implementarmos tal procedimento
necessitamos, entretanto, de uma estimativa de Σ .
De (25) temos,
iii uVareVargVar 11 (32)
ijijijjiji uVaruuCovuVargVar 1
2
1,2 1j
ijjiijii uVaruuCovggCov 111 ,, 1j
ikjkijikiijjiikkiji uVaruuCovggCovggCovggCov 111 ,,,, 1, kj
Note que em (32) existe uma incógnita a mais do que o número de equações. Assim, é necessário
uma restrição para podermos identificar Σ . Para isso bastaria supor que uma covariância é igual a zero ou
que duas covariâncias sejam iguais. Evidentemente, diferentes restrições podem implicar em resultados
bastante diferentes nos pesos atribuídos em (31). O problema é que não existe uma regra geral para
impormos tal restrição e a melhor solução pode depender de caso a caso. Na seção seguinte nós
apresentamos uma estratégia de identificação de Σ , a qual será utilizada na aplicação realizada na seção
VII.
V. Uma Estratégia para Identificar Σ
Vamos definir )43,2,1( ejY ji como nosso indicador j para a qualidade da escola i. Esses
indicadores seriam: i) qualidade da escola i no ensino de matemática estimada como um efeito fixo (j = 1);
ii) qualidade da escola i no ensino de matemática estimada como um efeito between (j = 2); iii) qualidade
da escola i no ensino de leitura estimada como um efeito fixo (j = 3); e iv) qualidade da escola i no ensino
23
de leitura estimada como um efeito between (j = 4).16
Desconsiderando o procedimento de shrinkage,
definindo jiC e
jiD como as médias, dentro da escola i, dos termos kiC e kiD e com base em (9),
podemos escrever que17
:
jijijijji cqy , (33)
jijiji d ,
É possível verificar que ii 21 e ii 43 . Substituindo (19) em (33) obtemos:
jiijji uqy , (34)
jjj ,
jijijijji cu .
Em (34) temos que ii 21 , ii 43 , 21 e 43 . Admitindo que
0,,, hijihijihiji cCovCovcCov e normalizando 11 , as variâncias iuVar 1 , iuVar 2 e
ii uuCov 21 , são dadas pelas equações (35), (36) e (37).
iiii VarcVarVaruVar 1111 , (35)
iiii VarcVarVaruVar 121
2
22 (36)
iiiiii VarccCovVaruuCov 1211221 ,, (37)
Como visto anteriormente, tanto o modelo de efeito fixo quanto o modelo de efeito between tendem
a produzir estimativas enviesadas dos b‟s. No primeiro modelo a tendência é gerar bb ˆ , enquanto que
no segundo a tendência é gerar bb ˆ . Assim, seria de esperar que 0, 21 ii ccCov .
Com base nisso, parece bastante razoável admitir que iii ccCovcVar 211 , e
iii ccCovcVar 212 , . Então, estaria garantido que iii ccCovuVar 211 , , caso 12 , e que
iii ccCovuVar 212 , , caso 12 . Por raciocínio análogo, podemos concluir que iii ccCovuVar 433 , ,
caso 34 , e que iii ccCovuVar 434 , , caso 34 .
Na aplicação realizada na seção VII, temos que 12 . Assim, a estratégia de identificação de Σ
foi considerar o maior valor de ieVar como proporção da
igVar 1 , compatível com variâncias não
16 Dado que as estimativas do modelo de efeito aleatório fora similares às do modelo de efeito fixo, optou-se por não incluí-las.
17 Note que as variáveis representadas por letra minúscula referem-se à medida em termos de desvio da média. Além disso, jiC
e jiD são denotados com a barra em cima por representarem estimativas do verdadeiro parâmetro para as médias Ci e Di. Na
equação (33) yji é entendido como uma medida de iA e qji como o parâmetro Ai da equação (9).
24
negativas e que atenda a restrição de que iii ccCovuVar 211 , . De (32) temos que a condição
101
i
i
gVar
eVar deve ser satisfeita para evitarmos variâncias negativas. Então, escolheu-se o maior valor
de ieVar que, dentro desse intervalo, atenda a restrição de que iii ccCovuVar 211 , .
Vale notar que o valor de ieVar não altera os pesos relativos entre as variáveis indicadoras de
qualidade, jiy mj ....,,3,2 , mas apenas o peso do indicador de insumos e processos imy 1 no
indicador final. O modelo aqui considerado pode ser pensado em duas etapas. Na primeira, constrói-se um
índice de resultados, pela combinação linear das medidas de valor adicionado das escolas, e um índice de
insumos e processos, pela combinação linear das variáveis de insumos e processos consideradas. Na
segunda etapa, constrói-se o índice final de qualidade pela combinação linear do índice de resultados e do
índice de insumos e processos. O valor de ieVar só afeta essa segunda etapa. Quanto maior o valor de
ieVar , menor o peso dado para o índice de insumos e processos.
Portanto, a estratégia de identificação aqui adotada é conservadora em relação à inclusão de
variáveis de insumos e processos na medida de qualidade da escola. Dado a resistência de muitos analistas
em considerar medidas de insumos e processos na avaliação da qualidade das escolas, tal estratégia pode
ser mais aconselhada.
VI. Outros Problemas: Dados Missing, Evasão, Transferência e Repetência
Toda análise foi desenvolvida considerando que os alunos de todas as escolas são testados ao final
do curso e que todos eles concluem o curso na escola que ingressaram e no tempo “correto”. No entanto,
esse quadro é pouco razoável e os problemas advindos de dados missing, atrito e repetência podem ser
importantes.
Em primeiro lugar, nem todos os alunos concluintes realizam os testes, ou preenchem corretamente
os questionários. Se a ausência de informações for totalmente aleatória, isso não traria problema de viés às
estimativas do efeito escola, agravaria apenas o problema de flutuação amostral. No entanto, é provável
que alunos de menor proficiência possuam maior incidência de ausência no dia do teste, seja por iniciativa
própria ou devido à ação da escola (gaming). Nesse caso, os problemas de erro de estimativa do efeito
específico (seções II e III) seriam agravados. Para evitar a ausência de alunos no dia do teste, uma
alternativa seria incluir na medida de accountability uma punição que seja proporcional à proporção de
alunos da escola que não realizaram os testes. No entanto, não é claro qual seria a melhor forma de
operacionalizar tal punição (atribuir zero aos alunos ausentes?).
É verdade, também, que nem todos os alunos que iniciam o curso em determinada escola terminam
o curso nessa escola (evasão ou transferência). Novamente, se a probabilidade de deixar a escola antes da
25
conclusão for aleatória, isso não traria problema de viés às estimativas do efeito escola. É provável, no
entanto, que a probabilidade de deixar a escola seja maior para alunos que venham enfrentando problemas
de desempenho. Por outro lado, nem todos os alunos concluintes iniciaram o curso na presente escola, de
modo que uma parte do conhecimento e habilidades foi adquirida em outra escola. Em relação a esta
última, uma saída é excluir os alunos que vieram transferidos de outra escola. Já a questão de como lidar
com a parcela de alunos que deixaram a escola é de mais difícil tratamento.
Por fim, em países como o Brasil, onde as taxas de repetências são elevadas, o procedimento acima
pode causar sérias distorções. Suponha que duas escolas (A e B) possuam alunos com desempenho similar,
tanto no inicio como ao final do curso. Entretanto, na escola A os alunos terminam o curso no tempo
correto, enquanto os alunos da escola B levam, em média, uma vez e meia do tempo correto, devido às
altas taxas de repetência. Pelos procedimentos adotados nas seções II e III, essas escolas apresentariam a
mesma qualidade. No entanto, se a escola A faz o mesmo trabalho do que a escola B em dois terços do
tempo seria natural considerá-la de melhor qualidade. Por outro lado, desconsiderar, na medida de
qualidade, o tempo efetivo para a conclusão do curso poderia contribuir para agravar o quadro de
repetência e evasão escolar.
Uma alternativa nesse caso seria ajustar a medida de qualidade pelo tempo médio de duração do
curso. Vamos definir bXAP iiˆˆ , onde iP é a proficiência (e.g. em matemática) da escola i ajustada
para as características individuais médias dos alunos do sistema educacional X . Então, a medida de
qualidade poderia ser ki
i
TE
P, onde kiT é o tempo que o aluno k leva para concluir o curso na escola i, onde
o tempo correto é normalizado para 1kiT . Sob certas hipóteses, podemos considerar que ki
iTE
R1
1 ,
onde iR é a probabilidade de um aluno da escola i reprovar a série que está cursando em determinado ano.
Então, a medida de qualidade (um dos indicadores do MIMIC) seria ii PR1 .18
Todos os problemas acima afetam os indicadores de qualidade incluídos no MIMIC e, assim,
tendem a produzir um indicador final de qualidade mais sujeito a erros, além de elevar os pesos das
variáveis de insumos e processos.
18 No Brasil, o indicador de qualidade das escolas do Ministério da Educação é composto pela média das pontuações
(matemática e leitura) dos alunos da escola multiplicada pela taxa de aprovação.
26
VII. Uma Aplicação para o Brasil
Os dados utilizados para o exercício empírico são do SARESP (Sistema de Avaliação de
Rendimento Escolar do Estado de São Paulo) referente aos anos de 2008 e 2010. Essa avaliação é aplicada
anualmente em todas as escolas públicas estaduais do Estado de São Paulo que oferecem ensino regular.
Todos os estudantes dos 2º, 3º, 5º, 7º e 9º anos do ensino fundamental, assim como os estudantes do 3º ano
do ensino médio devem realizar a prova. Além da avaliação das disciplinas de matemática, língua
portuguesa e ciências humanas, todos os atores das escolas (alunos, pais, professores e gestores) devem
responder a um questionário socioeconômico, a partir do qual extraímos as informações de insumos e
processos das escolas, assim como as características dos alunos e suas famílias.
Para a nossa análise consideramos os resultados das avaliações de matemática e língua portuguesa
dos estudantes do 5º ano do ensino fundamental das escolas que foram avaliadas tanto em 2008 quanto em
2010, e que apresentaram respostas aos questionários socioeconômicos e de gestão, resultando em uma
amostra de 1.567 escolas.
7.1 Estimando o valor adicionado
Conforme apresentamos na seção II desse artigo o primeiro passo é obtermos estimativas do valor
adicionado das escolas (conforme a equação 6) utilizando as características dos estudantes e suas famílias
como variáveis explicativas para o desempenho observado de cada estudante. Esse conjunto de
características observadas é correlacionado com a proficiência do estudante k da escola i, embora seja
independente da qualidade oferecida pela escola. Cada uma das estimativas de valor adicionado obtida por
diferentes modelos (efeito fixo e between) para diferentes disciplinas será um indicador de resultado a ser
utilizado no modelo MIMIC, que por sua vez é base para a construção de um indicador sintético da
qualidade das escolas que agrega da melhor forma possível variáveis de insumos aos resultados das
escolas.
Dessa forma, para as estimativas dos indicadores Yji utilizamos as seguintes variáveis
socioeconômicas: i) sexo = variável binária igual a um se o aluno é do sexo feminino; ii) cor/raça =
variável binária igual a um se o aluno é branco; iii) escolaridade acumulada dos pais = três variáveis
binárias indicando se os pais dos alunos têm pelo menos oito anos de estudo; ou pelo menos ensino médio;
ou pelo menos ensino superior (categoria omitida é a de pais com ensino fundamental); iv) número de
pessoas na família = variável binária igual a 1 se o número de pessoas na família é maior do que quatro; v)
quando o aluno entrou na escola = variável binária indicando se o aluno entrou na escola no primeiro ano
(ou primeira série) do ensino fundamental (a variável omitida refere-se ao caso do aluno ter entrado na pré-
escola); e, vi) variáveis binárias que indicam a posse de bens no domicílio como máquina de lavar,
computador e acesso à internet, vii) indicação da presença dos pais na vida escolar do aluno = variável
27
binária igual a 1 se a mãe, o pai ou ambos responderam o questionário (a variável omitida refere-se ao caso
do questionário ter sido respondido por outro responsável que não um dos pais).
Para cada uma dessas variáveis socioeconômicas mencionadas incluímos uma categoria adicional
que identifica o aluno (ou pais) que não respondeu à pergunta de interesse (dados missing) ou optou pela
alternativa „não sei‟ quando disponível. Este é um cuidado para evitar problemas de seleção resultantes de
se excluir da análise os alunos que não respondem as questões. Em geral, podemos encontrar correlação
desse tipo de resposta nos questionários com os indicadores de desempenho, por isso optamos por não
desprezar essa informação.
Com essas informações por aluno estimamos o valor adicionado das escolas para os anos de 2008 e
2010, separadamente, a partir dos modelos de efeitos fixos e efeito between, considerando em cada caso as
proficiências dos alunos em matemática e língua portuguesa. Para o caso das estimativas por efeito fixo, o
desvio-padrão dos parâmetros estimados foi corrigido considerando cluster de escola. Estimamos também
o shrinkage estimator conforme equação (13) com o objetivo de verificar a importância da correção de
cada medida de valor adicionado para o caso do SARESP. Esperamos que quanto menor o número de
alunos testados na escola i, maior a variância do efeito específico da escola i em relação à variância do
efeito específico entre todas as escolas, e como consequência menor o peso dado à estimativa do seu fator
específico para o estimador corrigido.
Entre as escolas da nossa amostra, em média 112 alunos foram testados pelo SARESP em 2008 e
101 em 2010 no 5º ano do ensino fundamental, além disso, 7% e 8% das escolas tiveram menos de trinta
alunos testados em 2008 e 2010 respectivamente.
Os gráficos a seguir apresentam a medida de qualidade das escolas derivada do modelo de efeito
fixo19
, disciplina de matemática, para o ano de 2008. No primeiro conjunto de gráficos, as 1.567 escolas
foram consideradas; no segundo conjunto (gráfico 2), selecionamos apenas as escolas cujo número de
alunos testados era menor ou igual a trinta (106 escolas), de forma a evidenciar o efeito da correção.
Note que a correção da medida da qualidade é relativamente mais importante para as pequenas
escolas, ou seja, para àquelas que tiveram menos de trinta alunos avaliados. De acordo com o gráfico 2, o
achatamento da distribuição para as pequenas escolas é visual, principalmente para aquelas com valores
estimados acima de 2 e abaixo de -2. Outra evidência da correção pode ser verificada a partir da análise do
desvio-padrão das medidas sem e com correção. Considerando as 1.567 escolas em 2008, o desvio-padrão
da medida de qualidade diminui de 15,0 para 12,6; focando nas escolas com menos de 30 alunos, a
diminuição é de 21,2 para 12,9. Estes resultados mostram que a correção pode ser importante nesse caso20
.
19 A medida de qualidade da escola original e a medida corrigida foram padronizadas, ou seja, estão medidas em termos de
desvios-padrão.
20 Considerando a medida de efeito escola pelo modelo de efeito between o desvio-padrão da medida de qualidade em
matemática diminui de 12,7 para 9,8; focando nas escolas com menos de 30 alunos, a diminuição é de 21,6 para 11,2.
28
Gráfico 1: Impacto da correção do estimador de qualidade da escola (shrinkage estimator)
Efeito Fixo para Matemática – 2008 – Todas as escolas
Gráfico 2: Impacto da correção do estimador de qualidade da escola (shrinkage estimator)
Efeito Fixo para Matemática – 2008 – escolas com menos de 30 alunos testados
Embora a correlação entre as medidas de valor adicionado com e sem correção21
seja bastante
elevada, parece importante em termos de redução da variância entre escolas, utilizar o estimador do efeito
fixo e between com correção pelo shrinkage estimator, principalmente para as escolas com menos de trinta
alunos avaliados.
21 Para o caso do indicador do modelo de efeitos fixos a correlação de ordem (spearman) entre as medidas com e sem correção é
de 0,99 e para o caso do indicador de valor adicionado do modelo between a correlação é de 0,82.
-6-5
-4-3
-2-1
01
23
45
6
efe
ito
fix
o p
ad
roniz
ado
0 100 200 300 400 500tamanho da escola
SARESP - Matemática - 2008
Efeito fixo sem correção
-6-5
-4-3
-2-1
01
23
45
6
efe
ito
fix
o c
orr
igid
o p
ad
roniz
ado
0 100 200 300 400 500tamanho da escola
SARESP - Matemática - 2008
Efeito fixo com correção
-6-5
-4-3
-2-1
01
23
45
6
EA
pad
roniz
ado
10 15 20 25 30tamanho da escola
SARESP - Matemática - 2008
Efeito aleatório sem correção
-6-5
-4-3
-2-1
01
23
45
6
EA
pad
roniz
ado
10 15 20 25 30tamanho da escola
SARESP - Matemática - 2008
Efeito aleatório com correção
29
7.2 Estimando a medida de qualidade da escola
A medida de qualidade é dada pela equação (30), ou seja, combina as medidas de qualidade
estimadas por efeito fixo, com as estimadas por efeito between22
com os indicadores de insumo das
escolas. Para isso, é necessário estimar a equação (25) a partir de um modelo SUR considerando as quatro
medidas de resultado e os insumos, dados por X. Para a estimativa do SUR é necessário definir qual das
medidas será o iY1 . Para isso, estimamos separadamente regressões por mínimos quadrados ordinários de
cada uma das medidas de qualidade (com correção pelo shrinkage) em função dos insumos escolares.
Escolhemos como iY1 o indicador que gerou o maior R2 – para facilitar a convergência do SUR - no caso, o
„efeito fixo em matemática‟.
As variáveis de insumos escolares utilizadas são provenientes do Censo Escolar e também do
questionário do SARESP respondido pelos professores das disciplinas e pelos diretores. Diversas variáveis
foram testadas, mas grande parte delas não mostrou relação com os indicadores de qualidade da escola.
Por fim, as seguintes variáveis foram selecionadas: i) um indicador de infraestrutura das escolas
construído com a técnica de teoria de resposta ao item (TRI) que agrega informações de trinta itens sobre:
condições de abastecimento e funcionamento das escolas, dependências e equipamentos escolares
existentes, carga horária, percentual de funções docentes com ensino superior e tamanho de turma23
; ii)
variáveis que captam a percepção dos pais e alunos quanto a organização das escolas como: se na
percepção dos alunos os colegas fazem muito barulho durante as aulas; se o professor passa e corrige a
lição de casa; indicador sobre a oferta de atividades físicas nas escolas; iii) experiência dos professores do
5º ano do ensino fundamental em docência: incluímos três variáveis (cumulativas) que informam se os
professores têm pelo menos dois, cinco e quinze anos de experiência; iv) número de escolas em que o
professor trabalha: variável que informa se o professor trabalha em duas ou mais escolas; v) percepção dos
professores quanto à análise dos resultados dos indicadores de desempenho da escola; vi) percepção dos
professores sobre a motivação que o diretor provoca nos professores da escola; vii) professor realiza ou já
realizou um curso de pós-graduação; viii) experiência do diretor na escola em que atua: três variáveis que
informam se o diretor está na escola há pelo menos dois, cinco e dez anos respectivamente (cumulativas);
ix) percepção do diretor sobre o absenteísmo dos seus professores: incluímos duas variáveis, uma que
informa se os professores faltam pouco e outra que informa se o absenteísmo foi um problema grave na
escola no ano letivo; x) percepção do diretor sobre a ocorrência de eventos violentos na escola.
22 Realizamos testes considerando o efeito aleatório ao invés do efeito between, entretanto, como as estimativas de efeito
aleatório foram similares as do modelo de efeito fixo, optamos por não considerá-las. Conforme mencionado na seção II deste
artigo, se o tamanho médio das escolas for suficientemente grande não seria surpreendente encontrarmos estimativas similares
entre os modelos de efeito fixo e efeito aleatório.
23 O Apêndice A traz uma tabela com os itens considerados no indicador de infraestrutura das escolas. O indicador foi
construído conforme metodologia da TRI com o uso do software BilogWin.
30
Todas essas variáveis foram consideradas em termos de desvios da média entre todas as escolas
para estimar a equação (25) por SUR. A tabela do Apêndice B traz os resultados das estimativas para os
coeficientes de interesse dos insumos ( k ) e dos outros indicadores de resultados ( j ).
Ao estimar o SUR também é possível conhecer a matriz de variâncias e covariâncias dos erros (gj),
e a partir da estratégia de identificação de Σ detalhada na seção IV do artigo podemos conhecer a estrutura
de pesos e calcular o indicador de qualidade das escolas proposto aqui.
A estratégia de identificação de Σ pode ser entendida com uma proposição do modelo
desenvolvido com base no MIMIC que nos permite encontrar a maior valor de ieVar como proporção da
igVar 1 , dentro do intervalo em que as variâncias são não negativas e que atenda a restrição de que
iii ccCovuVar 211 , . Esse valor traz como resultado a definição do peso relativo dos insumos e dos
indicadores de resultado no indicador final de qualidade da escola.
Como dito anteriormente, o indicador final deverá apresentar menor erro de medida por combinar
linearmente essas diferentes medidas de resultado e insumos proporcionalmente à suas variâncias e
covariâncias. As equações (29) e (30) fornecem os pesos j necessários para obter a medida iq de
interesse. A tabela 1 abaixo mostra a estrutura de pesos para 2008 e 2010 após a re-ponderação de forma a
somar „1‟.
Tabela 1: Ponderadores da medida de qualidade da educação - iq
Efeito fixo
matemática
Efeito between
matemática
Efeito fixo
português
Efeito between
português
Insumos
2008 1,136 -0,439 -0,032 0,111 0,223
2010 1,342 -0,791 -0,540 0,592 0,397
Fonte: Elaboração própria com dados do SARESP 2008 e 2010.
Note que o peso relativo dos insumos foi maior para o ano de 2010. De acordo com a tabela do
Apêndice B vimos que o R2 da primeira regressão do SUR foi pouco maior para o ano de 2010, ademais a
nota média nas duas disciplinas nas mesmas escolas experimentou um aumento: em matemática de 187,7
em 2008 para 208,4 em 2010, e em língua portuguesa a nota média das escolas foi de 175,9 para 192,8.
Embora a parte não explicada da primeira regressão tenha se reduzido no SARESP 2010, a variação de
notas aumentou a variância do erro da primeira regressão, levando a um menor valor para a ieVar
relativa à igVar 1 , e, portanto a um maior peso relativo para os insumos nesse ano relativamente a 2008.
Lembramos que, nos dois anos considerados, nossa escolha fez com que atribuíssemos o menor peso
possível, dentro das possibilidades dadas pela estratégia de identificação e proposição do modelo, ao
indicador de insumos e processos.
31
Em relação ao peso relativo dos quatro indicadores de resultado, destacamos que a escolha de iY1
no SUR afeta os pesos que são gerados pela metodologia. O indicador escolhido como iY1 é o que terá
maior peso na medida iq , com os outros tendo pouco a agregar. Isto acontece porque as medidas de
qualidade são muito correlacionadas, principalmente por se tratarem de avaliações realizadas no mesmo
dia e na mesma turma.
A partir dessa estrutura de pesos, construímos o indicador de qualidade de acordo com a equação
(30) para cada uma das 1.567 escolas em 2008 e 2010. Uma das características esperadas para esse
indicador, que tende a reduzir os erros de medidas relativamente aos seus componentes individuais, é uma
maior estabilidade na ordenação de escolas de um ano para outro, além de menor correlação do indicador
com as características médias socioeconômicas dos estudantes e suas famílias.
A tabela a seguir apresenta as maiores diferenças - em módulo - de posições entre os anos de 2008
e 2010 considerando cada uma das medidas de qualidade da escola individualmente, para a disciplina de
matemática, assim como a medida do indicador proposto. Selecionamos para a apresentação na tabela
somente algumas das 100 primeiras maiores variações em cada indicador.
Tabela 2 – Maiores variações absolutas de posições entre os anos de 2008 e 2010 (SARESP)
segundo cada um dos indicadores de qualidade da escola
Nota
matemática
VA Efeito
fixo
matemática
VA Efeito
between
matemática
VA Efeito
fixo com
correção
matemática
VA Efeito
between
com
correção
matemática
insumos indicador
qualidade
qi
1a 1463 1465 1547 1475 1543 1379 1435
2a 1441 1448 1503 1473 1492 1364 1412
3a 1386 1447 1479 1458 1484 1360 1410
4a 1384 1441 1479 1421 1456 1355 1410
5a 1383 1423 1470 1420 1428 1348 1346
6a 1346 1388 1429 1373 1401 1348 1309
8a 1319 1359 1421 1324 1364 1274 1210
10a 1292 1319 1404 1311 1331 1262 1190
20a 1206 1239 1321 1187 1294 1204 1117
40a 1028 1115 1230 1097 1195 1055 1022
60a 958 1032 1142 1035 1130 1006 924
80a 881 969 1086 956 1085 911 877
100a 837 917 1050 897 1038 862 825
média entre as
100 maiores
variações
1032 1103 1207 1088 1187 1050 1003
média entre as
20 maiores
variações
1306 1342 1402 1320 1367 1277 1237
média (total) 315 360 441 360 442 332 318
Fonte: Elaboração própria com dados do SARESP 2008 e 2010.
32
Conforme o esperado, dentre as cem maiores variações absoluta de posições, a menor variação em
média é observada quando ordenamos as escolas pelo indicador proposto qi, seguido da nota bruta
(proficiência), indicadores de insumos, efeito fixo e between corrigidos. É interessante notar que a
correção pelo shrinkage estimator já nos dá algum ganho em termos de estabilidade do ranking,
relativamente às medidas sem correção. Considerando somente as vinte maiores variações absoluta de
posições, o mesmo comportamento é observado, o indicador proposto se comporta melhor do que as outras
medidas.
Considerando a média de variações (em módulo) de posições observada entre 2008 e 2010 para
todas as escolas, em média as escolas mudam 315 posições24
quando ordenadas pela nota bruta, 318
posições quando ordenadas pelo indicador Qi, 360 posições quando ordenadas pelo efeito fixo das escolas
(com correção) e 442 posições ao ordenarmos as escolas pelo efeito between (com correção). Dessa forma,
destacamos que o indicador parece ser bastante importante para os casos de grandes variações (caudas
inferiores e superiores da distribuição de variações absoluta de posições – ver gráfico 3) e em média se
comporta de forma parecida em termos de estabilidade de ordenações a partir da nota bruta das escolas,
mas relativamente melhor do que os indicadores de valor adicionado de efeito fixo e between.
Gráfico 3 – Densidade kernel das variações absoluta de posições entre 2008 e 2010 segundo:
nota bruta de matemática, efeito fixo com correção para matemática e indicador de qualidade qi
24 De acordo com a ordenação pela nota de matemática no SARESP em 2008, considerando a escola mediana na distribuição de
variações absoluta de posições, uma variação de 315 posições para cima ou para baixo representa uma diferença de 9 pontos nas
notas na escala SAEB. Fizemos um teste semelhante com a Prova Brasil 2005 e 2007 e verificamos números bastante
semelhantes ao encontrado no SARESP em relação a média de variação absoluta de posições e seu correspondente em pontos do
SAEB.
0
.00
05
.00
1.0
015
.00
2
0 150 300 450 600 750 900 1050 1200 1350 1500variações absoluta nas posições
nota matemática indicador qi
efeito fixo corrigido_matemática
33
Destacamos que a grande vantagem do indicador de qualidade proposto relativamente às notas
bruta das escolas é que ele tem melhor estabilidade quando comparamos a variação absoluta de posições
nos extremos, em média sua estabilidade é semelhante e tem menor correlação com as características
socioeconômicas dos alunos, como a escolaridade dos pais.
A tabela a seguir possibilita outro tipo de análise da estabilidade de ranking. Para cada uma das
medidas de qualidade e para cada um dos anos, obtivemos um ranking de escolas. Em seguida, dividimos
estas distribuições em cinco partes e três tipos de resultados relacionados à estabilidade foram produzidos.
A linha „nunca‟ mostra a probabilidade da escola de acordo com a medida de qualidade escolhida não estar
entre as 20% melhores em nenhum dos anos; a linha „uma vez‟ mostra a probabilidade de a escola aparecer
em um dos anos; e, por fim, a linha „duas vezes‟ mostra a probabilidade de a escola aparecer nos dois anos.
Para comparação, mostramos também os resultados esperados caso tivéssemos uma medida perfeitamente
estável de qualidade e os resultados obtidos caso o ranking fosse formado aleatoriamente.
Tabela 3 - Frequência das escolas entre as 20% melhores no ranking produzido por diferentes
medidas*
* considerando as mesmas escolas que realizaram o SARESP em 2008 e 2010.
** pelo menos ensino médio completo.
Nossa medida é bastante semelhante à ordenação dada pela nota bruta, e embora a diferença seja
pequena, ela supera as demais, exceto a escolaridade dos pais. Em seguida estão: os insumos, as geradas
como um efeito fixo corrigidas pelo estimador de shrinkage e as de efeito fixo sem correção. Embora, as
ordenações sugeridas pelo efeito between com e sem correção gerem indicadores relativamente menos
estáveis, tais ordenações também superam um ranking puramente aleatório. Estes números podem ser uma
evidência de que as estimativas de qualidade provavelmente não estão isentas da influência do perfil
socioeconômico dos alunos.
A tabela 4 apresenta as correlações de ordem de iq com os outros indicadores de qualidade da
escola. Como podemos observar, as maiores correlações da nossa medida são com o efeito fixo com
correção, seguido pelo score bruto de matemática, resultado condizente com os números da tabela anterior.
O fato de a nossa medida ser muito correlacionada com as medidas de qualidade de matemática geradas
como um efeito fixo era esperado tendo em vista os pesos apresentados na tabela 1.
medida
estávelloteria
nota de
matemáticaEF_mat EB_mat
EF_mat c/
correção
EB_mat c/
correçãoinsumos
escolaridade
dos pais**Qi
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
nunca 80% 64% 70.45% 68.73% 66.62% 68.92% 66.56% 69.81% 74.98% 70.26%
Uma vez 0% 32% 19.14% 22.59% 26.80% 22.21% 26.93% 20.42% 10.08% 19.53%
Duas vezes 20% 4% 10.40% 8.68% 6.57% 8.87% 6.51% 9.76% 14.93% 10.21%
número de
repetições
34
Tabela 4: Correlação de ordem (spearman) entre iq e os outros indicadores de resultado
2008 2010
nota_port 0.865 0.803
nota_mat 0.973 0.939
EF_mat 0.971 0.940
EB_mat 0.689 0.698
EF_port 0.846 0.819
EB_port 0.547 0.568
EF_mat_shrin 0.975 0.942
EB_mat_shrin 0.693 0.702
EF_port_shrin 0.852 0.823
EB_port_shrin 0.553 0.574
insumos 0.537 0.654
Embora haja grande correlação entre a nossa medida de qualidade e o score bruto das escolas,
observamos que a correlação de ordem dessas medidas com a escolaridade média dos pais mostra que o
indicador proposto promove ganhos importantes (tabela 5). A correlação da nossa medida com a
escolaridade dos pais é de 0,43 em 2008 e 0,23 em 2010, enquanto a nota de matemática apresenta
correlação de 0,56 e 0,38 respectivamente em 2008 e 2010.
Tabela 5: Correlação de ordem (spearman) entre as medidas de qualidade e escolaridade dos pais*
2008 2010
nota_port 0.594 0.494
nota_mat 0.558 0.379
EF_mat 0.342 0.204
EB_mat 0.019 0.034
EF_port 0.373 0.292
EB_port 0.035 0.075
EF_mat_shrin 0.351 0.204
EB_mat_shrin 0.022 0.031
EF_port_shrin 0.384 0.301
EB_port_shrin 0.040 0.072
Qi 0.427 0.227
*pelo menos Ensino Médio Completo
As medidas de qualidade estimadas como um efeito between são as que apresentam menor
correlação, ou melhor, não apresentam qualquer correlação com a escolaridade dos pais. Este resultado é
explicado pelo problema de viés de variável omitida que acompanha estas estimativas, isto é, a presença de
correlação entre as variáveis if (qualidade da escola) e kiX enviesará os coeficientes estimados. Por outro
lado, o problema de viés de seleção também está prejudicando as estimativas de efeito fixo. Quando os
alunos dentro da escola são muito homogêneos, a ordenação com base no score médio dos estudantes ou
35
com base no efeito escola estimado pode não se mostrar muito diferente (Mizala, Romaguera e Urquiola
(2007)).
VIII. Conclusão
Este artigo procurou contribuir com a identificação de uma medida de qualidade da escola menos
sujeita a erros de medida, e que traga mais informações relacionadas à influência da escola no desempenho
dos estudantes, relativamente às medidas usuais dos programas de school accountability.
A pontuação média dos estudantes da escola tem sido uma das medidas de desempenho mais
utilizadas nos programas de school accountability, entretanto, embora seja uma medida simples, ela pode
trazer informações imperfeitas, pois seus resultados incorporam características socioeconômicas do meio
em que os estudantes vivem, suas habilidades natas, assim como o esforço da escola. Ao se tentar reduzir a
influência das características socioeconômicas e construir medidas como de valor adicionado, encontramos
indicadores ainda mais influenciados por erros de medida, produzindo rankings instáveis. Além disso,
estudos mostram que os resultados de exames padronizados são medidas sujeitas a erros, principalmente
em escolas pequenas.
Considerando que os efeitos da escola no resultado obtido pelos seus alunos nos testes não é uma
variável observável e que toda medida utilizada está sujeita a erros, sejam eles sistemáticos ou aleatórios,
construímos uma medida de qualidade composta por uma combinação linear ponderada de diversas
medidas de resultados, insumos e processos. Os pesos utilizados não foram definidos arbitrariamente, e
sim baseados nas estimativas de um modelo MIMIC, o qual trata a qualidade da escola como uma variável
latente estimada a partir das correlações entre as variáveis causas e as indicadoras da qualidade. Nesse
modelo, a hipótese principal é que as vaiáveis causas afetam as variáveis indicadoras exclusivamente
através da qualidade da escola. Assim, a disponibilidade e a escolha dessas variáveis são muito relevantes
para a aplicabilidade do modelo.
As variáveis indicadoras de resultado utilizadas foram derivadas das medidas de desempenho em
exames padronizados aplicados em determinado ano. Calculamos os valores adicionados pelo modelo de
efeito fixo e between, aplicando um corretor pelo número de alunos testados na escola (shrinkage
estimator) para diminuir os problemas de erros de medidas. A estratégia de identificação do modelo, que
possibilita resolver o sistema de equações derivado das relações entre as variâncias e covariâncias do SUR
e encontrar os pesos que deverão ser atribuídos aos insumos e às variáveis de resultado no indicador final,
é resultante das proposições do próprio modelo e garante existência de uma solução.
Realizamos uma aplicação empírica para as escolas do Estado de São Paulo com dados do
SARESP de 2008 e 2010 do 5º ano do ensino fundamental. Utilizamos as notas em língua portuguesa e
matemática, para calcular o valor adicionado. Os insumos utilizados foram retirados do Censo Escolar e do
questionário socioeconômico da própria avaliação.
36
A estimativa de qualidade resultante do modelo MIMIC se mostrou relativamente melhor
comparativamente às medidas usuais de qualidade, por sinalizar maior estabilidade no ranking escolar
entre dois anos, apresentar menores variações absoluta nas posições entre os dois anos, principalmente
entre as cem maiores variações, e apesar de ter elevada correlação com a nota bruta das escolas, apresenta
menor correlação com a escolaridade média dos pais dos estudantes. Além disso, a medida proposta aqui
se comportou melhor relativamente ao indicador de qualidade obtido por efeito fixo (mesmo com correção
pelo shrinkage estimator), por mostrar maior estabilidade no ranking e menores variações absolutas nas
posições.
A aplicação empírica trouxe conclusões positivas em relação ao modelo teórico desenvolvido,
dadas as variáveis de insumos e processos, necessárias como instrumento na identificação da qualidade,
assim como os indicadores de resultados existentes no Brasil atualmente.
Referências Bibliográficas
Andrade, E. C. (2008) “‟School accountability‟ no Brasil: experiências e dificuldades” Revista de
Economia Política. 28, no 3, 443-453.
Andrejko, L. (2004) “Value-Added Assessment: A View from A Practitioner” Journal of Educational and
Behavioral Statistics 29, no. 1, 7-9.
Bajada, C. e Schneider, F. (2005) “The Shadow Economies of the Asia-Pacific” Pacific Economic Review
10, no 3, 367-401.
Ballou, D. (2008) “Test Scaling and Value-Added Measurement” Working Paper, no 2008-23, National
Center on Performance Incentives.
Ballou, D., Sanders, W. e Wright, P. (2004) “Controlling for Student Background in Value-Added
Assessment of Teachers” Journal of Educational and Behavioral Statistics 29, no. 1, 37-65.
Breusch, T. (2005) Estimating the Underground Economy using MIMIC Models. Working Paper, National
University of Australia, Canberra, Australia.
Brooke, Nigel (2006) “O futuro das políticas de responsabilização educacional no Brasil.” Cadernos de
Pesquisa 36, no 128, 377-401.
Callender, J. (2004) “Value-Added Student Assessment” Journal of Educational and Behavioral Statistics
29, no. 1, 5.
Cullen, J. B. e Reback, R. (2006) "Tinkering Toward Accolades: School Gaming Under a Performance
Accountability System.” In Gronberg, T. J. e Jansen, D. W. (Eds) Advances in Applied Microeconomics
14, Elsevier, 1-34.
Dell‟Anno, R e Schneider, F. (2003) “The Shadow Economy of Italy and other OECD Countries: What do
we Know?” Journal of Public Finance and Public Choice 21, no 2-3, 97-120.
Frey, B. S. e Weck-Hannemann, H. (1984) “The Hidden Economy as an Unobservable Variable”
European Economic Review 26, no 1, 33-53.
37
Giles, D.E.A. (1999a) “Modelling the Hidden Economy and the Tax-gap in New Zealand” Empirical
Economics 24, no 4, 621-640.
Giles, D.E.A. (1999b) “Measuring the Hidden Economy: Implications for Econometric Modeling” The
Economic Journal 109, no 46, 370-380.
Hanushek, E. A. e Raymond M. E. (2003) “Improving Educational Quality: How Best to Evaluate Our
Schools?” In Kodrzycki, Y. (Ed) Education in the 21st Century: Meeting the Challenges of a Changing
World. Boston, MA: Federal Reserve Bank of Boston, 193-224.
Hanushek, E. A. e Raymond M. E. (2005) “Does School Accountability Lead to Improved Student
Performance?” Journal of Policy Analysis & Management 24, no 2, 297-327.
Helberger, C. e Knepel, H. (1988) “How Big is the Shadow Economy? A Re-Analysis of the Unobserved-
Variable Approach of B.S. Frey and H. Weck-Hannemann” European Economic Review 32, no 4, 965-
976.
Hill, R. (2002) “The Underground Economy in Canada: Boom or Bust?” Canadian Tax Journal 50, no 5,
1641-1654.
Jacob, B. A. (2005) “Accountability, Incentives and Behavior: The Impact of High-Stakes Testing in the
Chicago Public Schools.” Journal of Public Economics 89, no 5-6, 761-796.
Jacob, B. A. (2007) Test-Based Accountability and Student Achievement: An Investigation of Differential
Performance on NAEP and State Assessments. NBER Working Paper, no 12817.
Jacob, B. A. e Levitt, S. D. (2003) “Rotten Apples: An Investigation of the Prevalence and Predictors of
Teacher Cheating.” Quarterly Journal of Economics 118, no 3, 843-877.
Jöreskog, K. G. e Goldberger A. S. (1975) “Estimation of a Model with Multiple Indicators and Multiple
Causes of a Single Latent Variable.” Journal of the American Statistical Association 70, no 351, 631-639.
Jöreskog, K. G. (2000) Latent Variable Scores and Their Uses. Scientific Software International,
http://www.ssicentral.com/lisrel.
Kane, T. J. e Staiger D. O. (2001) Improving School Accountability Measures. NBER Working Paper, no
8156.
Kane, T. J. e Staiger D. O. (2002) “The Promise and Pitfalls of Using Imprecise School Accountability
Measures.” Journal of Economic Perspectives 16, no 4, 91–114.
McCaffrey, D. et. al. (2003) Evaluating Value-Added Models for Teacher Accountability. Santa Monica,
CA: RAND.
McCaffrey, D. et. al. (2004) “Models for Value-Added Modeling of Teacher Effects” Journal of
Educational and Behavioral Statistics 29, 67-101.
Mizala, A., Romaguera, P. e Urquiola, M. (2007) “Socioeconomic Status or Noise? Tradeoffs in the
Generation of School Quality Information.” Journal of Development Economics 84, no 1, 61-75.
Raudenbush, S. W. (2004) “What are Value-Added Models Estimating and What Does this Imply for
Statistical Practice?” Journal of Educational and Behavioral Statistics 29, 121-129.
38
Raudenbush, S. W e Willms, J.D. (1995) “The Estimation of School
Effectshttp://www.aera.net/WorkArea/linkit.aspx?LinkIdentifier=id&ItemID=614” Journal of Educational and
Behavioral Statistics 20, no. 4, 121-129.
Reback, R. (2007) “Teaching to the Rating: School Accountability and the Distribution of Student
Achievement.” Journal of Public Economics (forthcoming).
Reckase, M. D. (2004) “The Real World is More Complicated than We Would Like” Journal of
Educational and Behavioral Statistics 29, 117-120.
Rubin, D. B., Stuart, E. A. e Zanutto, E. A. (2004) “A Potential Outcomes View of Value-Added
Assessment in Education” Journal of Educational and Behavioral Statistics 29, 103-116.
Smith, R. S. (2002) “The Underground Economy: Guidance for Policy Makers?” Canadian Tax Journal
50, no 5, 1655-1661.
Tekwe, C. D. et. al. (2004) “An Empirical Comparison of Statistical Models for Value-Added Assessment
of School Performance” Journal of Educational and Behavioral Statistics 29, 11-36.
Wooldridge, J. (2002) Econometric Analysis of Cross Section and Panel Data. Cambridge, Massachusetts,
MIT Press.
Wainer, H. (2004) “Introduction to the Value-Added Assessment Special Issue” Journal of Educational
and Behavioral Statistics 29, no. 1, 1-3.
39
Apêndice A
Tabela com itens do Censo Escolar utilizados na construção do indicador de infraestrutura das
escolas a partir da TRI
Item nome item
percentual de
acertos (todas
as escolas do
país) It
ens
de
abas
teci
men
to e
fun
cio
nam
ento
ITEM30
funcionamento da escola em prédio
escolar 90.3
ITEM01 água filtrada
87.1
ITEM02 água da rede pública
62.7
ITEM03 abastecimento de água adequado
90.0
ITEM04 energia elétrica da rede pública
87.5
ITEM05 esgoto_rede pública
39.9
ITEM06 tem esgoto sanitário
91.9
ITEM07 tem coleta periódica de lixo
63.4
ITEM08 recicla o lixo
5.8
Dep
endên
cias
exis
tente
na
esco
la
ITEM09 sala_diretoria
62.0
ITEM10 sala_professor
46.4
ITEM11 laboratório_informática
29.2
ITEM12 laboratório_ciências
9.0
ITEM13 quadra de esportes
27.0
ITEM14 Biblioteca
31.8
ITEM15 sala de leitura
11.0
ITEM16 sanitário dentro do prédio
82.0
ITEM17
sanitário adequado aos alunos com
deficiência 13.5
ITEM18
dependências e vias adequadas a
alunos com deficiência 11.5
Equip
amen
tos
esco
lare
s
ITEM19 TV
68.4
ITEM20 DVD
64.1
ITEM21 Copiadora
30.0
ITEM22 Impressora
53.7
ITEM23 Computadores
56.7
40
ITEM24 computador para uso dos alunos
33.9
ITEM25 Internet
40.9
ITEM26 internet banda larga
31.5
Ou
tro
s in
dic
ado
res
ITEM27
hora-aula-diária superior a 5h
5.6
ITEM28
Percentual de funções docentes com
curso superior entre 90% e 100% 19.9
ITEM29 média de até 30 alunos por turma
39.6
Fonte: Elaboração própria com dados do Censo Escolar 2009.
Apêndice B
Resultados da estimação do SUR
SARESP 2008 SARESP 2010
Coef.
Desvio-
padrão Coef.
Desvio-
padrão
Y1i = VA_efeito fixo matemática
barulho dos colegas -6.23*** 1.56 -16.82*** 2.49
prof. Passa e corrige lição 7.51*** 1.52 13.75*** 2.26
índice de atividade física 12.12*** 3.84 17.49*** 4.15
indicador de infraestrutura 0.09*** 0.01 0.10*** 0.02
experiência prof. - mín. 2 anos 8.02*** 2.54 14.29*** 5.57
experiência prof. - mín. 5 anos -6.96*** 2.11 -2.59 2.55
experiência prof. - mín. 15 anos 4.25*** 1.30 2.36 1.77
prof. trabalha em pelo menos 2 escolas -3.48*** 0.93 -6.02*** 1.34
gestão escolar analisa seu desempenho 3.37*** 0.82 4.92*** 1.21
diretor motiva os professores 2.00** 0.94 4.74*** 1.43
professores tem pós-graduação 3.02*** 1.14 3.69** 1.50
experiência diretor. - mín. 2 anos 1.74** 0.70 1.33 1.09
experiência diretor. - mín. 5 anos 1.76** 0.77 3.12*** 1.12
experiência diretor. - mín. 10 anos -0.73 1.17 -1.01 1.44
professores faltam pouco 1.62** 0.73 1.41 1.04
problema grave com falta prof. -2.57*** 0.75 -4.44*** 0.92
índice de violência na escola -1.89*** 0.41 -1.67*** 0.63
Y2i = VA_efeito between matemática
beta 2 0.63*** 0.01 0.74*** 0.01
Y3i = VA_efeito fixo português
beta 3 0.71*** 0.01 0.62*** 0.01
Y4i = VA_efeito between português
beta 4 0.39*** 0.01 0.42*** 0.01
R2 equação 1 0.18 0.21
R2 equação 2 0.72 0.80
R2 equação 3 0.61 0.73
R2 equação 4 0.34 0.54
N. obs. 1,570 1,570
***, ** coeficiente significante a 1% e 5% respectivamente.
Recommended