34
  CAPÍTULO 15 REGRESSÃO CATEGORIAL 761 15.3. REGRESSÃO ORDINAL Muitas das variáveis de estudo nas ciências sociais e humanas são ordinais. Com frequência, a variável dependente toma valores discretos, ou categorias, ordenáveis mas cujo distância entre elas não é conhecida, nem tão pouco cons- tante. Por exemplo, em estudos de opinião é frequente recorrer a escalas de tipo  Likert, para avaliar o grau de concordância/discordância com determinado tópico (discordo completamente; discordo; nem concordo nem discordo; concordo; con- cordo completamente). Em estudos epidemiológicos e de severidade de doença é usual classificar em graus de severidade uma determinada patologia (severidade baixa; média; alta). Em aplicações económicas é frequente considerar o grau-de- -risco, produtividade, (baixo(a), médio(a), elevado(a)), etc. Adicionalmente, as escalas ordinais podem resultar da necessidade de operacionalização de variáveis contínuas que por motivos de mensuração, impacto social, ou outros apenas podem ser medidas em categorias ordinais. O rendimento económico é um bom exemplo deste tipo de operacionalização. Se bem que o rendimento possa ser medido precisamente, até ao último euro, de uma forma geral esta variável é categorizada em classes ordinais de modo a reduzir a taxa de não respostas (por exemplo, o nível salarial “baixo – < 500 ”, “médio – 501 a 1000 ” e “alto –  > 1000 ”). Em termos analíticos, as classes das variáveis ordinais são, geral- mente, codificadas com valores inteiros de 1 ao número de classes e, por este motivo, o leitor pode ser levado a usar a regressão linear vulgar. Se bem que para um número de classes elevados (pelo menos 7) a regressão linear possa ser utili- zada, com alguns cuidados, em amostras grandes, na maior parte dos casos, a utilização da regressão linear com variáveis dependentes ordinais pode produzir resultados incoerentes ou mesmo incorrectos como demonstraram Winship & Mare (1984). A recomendação geral, para este tipo de variáveis é a de utilizar a regressão ordinal ou um outro modelo de regressão que evite a assumpção de distâncias constantes entre as classes da variável (ver  e.g. Long & Freese, 2006). Por outro lado, se a variável tiver classes ordenáveis, mas uma das suas classes não o for (por exemplo, a classe “Não sabe/Não tem opinião” que por vezes se encon- tra nas falsas escalas de tipo  Likert), poderá ser preferível recorrer à regressão multinomial, que não contempla a relação de ordem entre classes. Finalmente, se a ordenação das classes puder ser feita de forma diferente, em função do contexto social, experimental, etc. será sensato recorrer à regressão multinomial, já que a forma de ordenação das classes pode conduzir a diferentes conclusões.

regressão ordinal

Embed Size (px)

Citation preview

CAPTULO 15 REGRESSO CATEGORIAL

15.3. REGRESSO ORDINALMuitas das variveis de estudo nas cincias sociais e humanas so ordinais. Com frequncia, a varivel dependente toma valores discretos, ou categorias, ordenveis mas cujo distncia entre elas no conhecida, nem to pouco constante. Por exemplo, em estudos de opinio frequente recorrer a escalas de tipo Likert, para avaliar o grau de concordncia/discordncia com determinado tpico (discordo completamente; discordo; nem concordo nem discordo; concordo; concordo completamente). Em estudos epidemiolgicos e de severidade de doena usual classificar em graus de severidade uma determinada patologia (severidade baixa; mdia; alta). Em aplicaes econmicas frequente considerar o grau-de-risco, produtividade, (baixo(a), mdio(a), elevado(a)), etc. Adicionalmente, as escalas ordinais podem resultar da necessidade de operacionalizao de variveis contnuas que por motivos de mensurao, impacto social, ou outros apenas podem ser medidas em categorias ordinais. O rendimento econmico um bom exemplo deste tipo de operacionalizao. Se bem que o rendimento possa ser medido precisamente, at ao ltimo euro, de uma forma geral esta varivel categorizada em classes ordinais de modo a reduzir a taxa de no respostas (por exemplo, o nvel salarial baixo < 500 , mdio 501 a 1000 e alto > 1000 ). Em termos analticos, as classes das variveis ordinais so, geralmente, codificadas com valores inteiros de 1 ao nmero de classes e, por este motivo, o leitor pode ser levado a usar a regresso linear vulgar. Se bem que para um nmero de classes elevados (pelo menos 7) a regresso linear possa ser utilizada, com alguns cuidados, em amostras grandes, na maior parte dos casos, a utilizao da regresso linear com variveis dependentes ordinais pode produzir resultados incoerentes ou mesmo incorrectos como demonstraram Winship & Mare (1984). A recomendao geral, para este tipo de variveis a de utilizar a regresso ordinal ou um outro modelo de regresso que evite a assumpo de distncias constantes entre as classes da varivel (ver e.g. Long & Freese, 2006). Por outro lado, se a varivel tiver classes ordenveis, mas uma das suas classes no o for (por exemplo, a classe No sabe/No tem opinio que por vezes se encontra nas falsas escalas de tipo Likert), poder ser prefervel recorrer regresso multinomial, que no contempla a relao de ordem entre classes. Finalmente, se a ordenao das classes puder ser feita de forma diferente, em funo do contexto social, experimental, etc. ser sensato recorrer regresso multinomial, j que a forma de ordenao das classes pode conduzir a diferentes concluses.

761

ANLISE ESTATSTICA

15.3.1. O Modelo de Regresso OrdinalA relao de ordem entre as classes da varivel dependente obriga a que a tarefa de modelar a probabilidade de ocorrncia de uma das suas classes, seja feita em termos de probabilidades acumuladas. Por outro lado, a varivel ordinal medida, pode ser interpretada como a operacionalizao de uma outra varivel continua no medida (i.e. latente) como vimos anteriormente a propsito da regresso binomial. O modelo pode assim ser formalizado de uma forma probabilstica cumulativa no-linear ou atravs da operacionalizao de uma varivel latente no medida ou observada directamente. No MODELO DE PROBABILIDADES CUMULATIVAS, a probabilidade de se observar uma classe inferior ou igual a k do conjunto das K classes da varivel dependente, para um determinado vector de observaes das variveis independentes X, dada por P (Yj k|x) = 1 + 2 + ...k (j = 1, ..., n; k = 1, ..., K) onde 1 = P (Yj = 1), 2 = P (Yj = 2), ..., k = P (Yj = k). Naturalmente, porque as classes so ordenveis, as probabilidades acumuladas reflectem a ordenao natural P (Yj 1) P (Yj 2) ... P (Yj K 1). Note que o modelo no engloba a ltima classe K uma vez que P (Yj K) = 1 (i.e. a informao referente ultima classe redundante). Por analogia com a regresso logstica, podemos conceptualizar o modelo ordinal como um modelo logstico, com acontecimentos P (Yj k) e o seu complementar 1 P (Yj k) = P (Yj > k). Para linearizar o modelo de probabilidade cumulativa no linear, toma-se o Ln do rcio das chances acumuladas P (Yj k) / P (Yj > k), i.e. o Logit [ P (Yj k) ], que : P(Y j k | X) Logit [ P ( Y j k | x )] = Ln 1 P(Y k | X) j P(Y j k | X) = Ln = P(Y > k | X) j = k + X* (k = 1,..., K 1) =

Onde k representa o parmetro de localizao para as k = 1, ..., K 1 classes da varivel dependente (equivalente ordenada na origem na regresso linear), o vector dos coeficientes de regresso (declives) e X* a matriz das variveis independentes (sem a coluna de 1s como na regresso linear, caso con762

CAPTULO 15 REGRESSO CATEGORIAL

trrio o modelo indeterminado, pois essa coluna redundante com os k). No caso de uma nica varivel independente, o modelo simplifica-se a: P(Y j k | x) Logit [ P ( Y j k | x )] = Ln = P(Y j > k | x)

= k + X j ( j = 1, ..., n; k = 1, ..., K 1)Note que o coeficiente de regresso () no apresenta ndice k, obrigando o modelo a pressupor que o efeito da varivel independente sobre o Logit [ P ( Y j k | x )] igual para todas as classes (veremos adiante como testar este pressuposto conhecido por pressuposto da homogeneidade dos declives). Os k so parmetros de posio de cada uma das classes, reflectindo a caracterstica qualitativa da varivel dependente enquanto que o declive nico permite obter um modelo parcimonioso para dados ordinais. Assim, o modelo assume que o efeito das variveis independentes sobre o Logit idntico para todas as classes da varivel dependente, e que a resposta observada em cada classe apenas se encontra deslocalizada para a direita ou para a esquerda, em funo de k. O modelo ordinal atrs definido permite estimar o logaritmo da probabilidade de a varivel dependente tomar os valores de classes inferiores ou iguais a k, comparativamente com a probabilidade de tomar os valores das classes superiores a k. Se > 0, quando X aumenta, aumenta a probabilidade de a varivel dependente tomar valores de ordem inferiores ou iguais a k, i.e. quando X aumenta, Y diminui. Se < 0, ento quando X aumenta, Y aumenta. Esta relao entre o sinal de e a variao de Y contrria interpretao generalizada do sinal de em regresso. Assim, sendo > 0, para que quando X aumenta, aumente a probabilidade de Y tomar valores de ordem superiores, necessrio re-escrever o modelo como: P(Y j k | x) Logit [ P ( Y j k | x )] = Ln = k X j P(Y > k | x) j E esta a forma como a regresso ordinal modelada pela maioria dos softwares de anlise estatstica (nomeadamente o SPSS, Stata, e o Statistica, entre outros) pelo que ser, tambm, a forma adoptada neste livro. As duas formas alternativas do modelo ilustram-se na figura seguinte para uma varivel dependente com 3 classes, e uma nica varivel independente:

763

ANLISE ESTATSTICA

Logit [ P (Yj k | x)] = ak + bXj

1.0

P (Y 1)0.8 0.6 0.4 0.2 0.0X

P (Y 2)

P (Y 3)

Logit [ P (Yj k | x)] = ak + bXj

1.0

P (Y 3)0.8 0.6 0.4 0.2 0.0X

P (Y 2)

P (Y 1)

Note que nas figuras acima, cada uma das curvas equivalente curva da regresso logstica em que as classes, dicotmicas, so Yj k e Yj > k. As curvas tem exactamente a mesma forma, i.e. a variao da probabilidade em funo de X igual para todas as classes, estando apenas deslocalizadas horizontalmente por um factor constante (k k+d ) / . O rcio das chances acumuladas, igual para todas as classes, dado por: OR k = P(Y k | x = x + d ) / P(Y > k | x = x + d ) = P(Y k | x = x) / P(Y > k | x = x)

= e d = = e 1d

764

CAPTULO 15 REGRESSO CATEGORIAL

Neste modelo, o rcio das chances -proporcional distncia d entre os dois pontos da varivel independente, para todas as classes da varivel dependente e por isso o modelo tambm designado por modelo de chances proporcionais (Agresti, 2002). Em particular, se d = 1, as chances de observar uma classe inferior ou igual a k, comparativamente com as chances de se observar uma classe superior a k, variam e por cada unidade de X (mantendo constantes as restantes variveis independentes). O ajustamento do modelo ordinal feito iterativamente com o mtodo da mxima verosimilhana. Uma vez que o modelo pressupe que as curvas de probabilidade das K 1 classes da varivel dependente so iguais para todas as classes e so calculadas de forma cumulativa, a funo de verosimilhana (Agresti, 2002): L =

(P(Yj = 1 k =1

n

K

k | x j ) P(Y k 1 | x j )( k 1 x j ) ( k 1 x j )

Y kj

) =

= j =1 n

( x ) e k j (k x j ) k =1 1 + e

K

e

Y kj

1+ e

Onde Ykj regista a classe dicotmica ( k vs. > k) da varivel Y para o sujeito j. No MODELO DE VARIVEL LATENTE, assume-se que existe uma varivel latente continua () que no possvel medir directamente, e que a varivel manifesta (Y) resulta do corte da varivel latente em K-classes, ordinais e mutuamente exclusivas. O modelo estrutural que relaciona a varivel latente com as variveis independentes : j = x j + j ( j = 1, ..., n)

e o modelo de medida que operacionaliza a varivel manifesta ordinal Y : Yj = k se k1 k.

isto , a varivel ordinal toma a classe k, quando a varivel latente est entre os pontos de corte, ou thresholds, k1 e k ( = 0 < 1 < ... < K = +)

765

ANLISE ESTATSTICA

como ilustra a figura seguinte para uma varivel dependente Y com 4 classes e uma varivel independente X:

P (Y = 4 | x3) P (Y = 4 | x2)a1 classe 4

P (Y = 4 | x1)

classe 3 a2 classe 2 a3 classe 1

x1

x2

x3

Na representao grfica acima, o modelo latente j = 0 + X j + j e basta definir 3 pontos-de-corte, ou thresholds, para delimitar as 4 classes da varivel manifesta Y. Naturalmente, 0 = e 4 = +. As curvas em sino em torno de cada um dos pontos (xj, j) so as curvas de densidade de probabilidade dos erros do modelo tal como na regresso linear (rever cap. 14.1). Assim, a probabilidade de se observar uma determinada classe para um determinado valor de X dada pela rea da curva entre dois thresholds, como ilustra a figura para y = 4 (rea a cinzento nas curvas em sino). A probabilidade de se observar uma determinada classe de Y ento P (Yj = k |xj) = P (k 1 k | xj ). Designando por F a funo de distribuio dos erros do modelo estrutural, substituindo j por 0 + X j + j e rearranjando os termos, podemos ento escrever P (Yj = k | xj ) = F (k X j ) F(k 1 X j ) (eliminando a constante 0 que redundante com )1 (Long & Freese, 2006). Note que para a classe k = 1, 0 = pelo que F ( X i ) = 0 e P (Yj = 1|xj) = F (1 X j ). De

(1)

Para alm de fixar a ordenada na origem em 0, tambm necessrio definir a escala de o que geralmente se faz fixando a sua varincia em 1 (i.e. estandardizando a varivel latente).

766

CAPTULO 15 REGRESSO CATEGORIAL

modo anlogo, para k = 4, 4 = + pelo que F (+ X i ) = 1 e P (Yj = 4|xj) = 1 F (3 X j ). O inverso da funo F, i.e. F -1, designa-se por funo de ligao (link function) por fazer a ligao linear entre a parte aleatria do modelo (P [ Y k ]) e a parte sistemtica (X* ). Por exemplo, se F for a funo logstica definida anteriormente na regresso logstica (rever cap. 15.1.1), F 1 define a funo Logit, e o modelo designa-se por modelo logit ordinal; Se F for a distribuio normal, F 1 define a funo Probit, e o modelo diz-se probit ordinal. De uma forma linear generalizada, recorrendo funo Link, o modelo pode escrever-se como: Link (P [ Y k ]) = k X* No SPSS esto disponveis 5 funes Link cuja utilizao no modelo ordinal, recomendvel de acordo com o tipo de distribuio de probabilidades que as classes da varivel dependente apresentam. As principais recomendaes resumem-se na tabela seguinte (Adaptado de Agresti, 2002; Noruis, 2006; Long & Freese, 2006):

Funo Link (F 1)

Usar quando As classes de Y apresentam distribuio uniforme As classes de Y de maior ordem so as mais frequentes As classes de Y de menor ordem so as mais frequentes As classes de Y de menores e maiores ordens so as mais frequentes A varivel latente de tipo normal (assumpo)

Logit

P [Y k ] Ln P [Y > k ]

Log-log Complementar Log-log negativo

Ln ( Ln (1 P [Y k ])

Ln ( Ln ( P [Y k ] )

Cauchit

Tan ( ( P [Y k ] 0.5)

Probit

1( P [Y k ] ) onde a funo de distribuio N (0,1) (ver cap. 15.1.2)

A escolha da funo Link no ajustamento do modelo, deve pois considerar o tipo de distribuio das classes da varivel dependente. A escolha de uma funo Link inapropriada pode comprometer a significncia do modelo e a sua capacidade preditiva.767

ANLISE ESTATSTICA

O Modelo de escalaO SPSS permite ainda definir um modelo ordinal, mais flexvel e realista, que permite controlar diferenas de distribuio de probabilidades das classes da varivel dependente em funo das variveis independentes. Por exemplo, num estudo sobre opinio acerca da despenalizao do aborto, possvel que as respostas apresentem maior variabilidade nas mulheres do que nos homens; num estudo sobre crditos de risco, possvel que as empresas de novas tecnologias vs. tecnologias tradicionais apresentem maior variabilidade na liquidao dos crditos; a probabilidade de detectar uma situao anmala mais varivel se o instrumento de medida apresentar rudo, do que se no apresentar (situao muito frequente em Biomedicina), etc. Assim, o modelo de escala que incorpora o efeito da disperso das respostas (Agresti, 2002): Link ( P [ Y k ]) = k X * e X

Neste modelo, o denominador contem o vector dos parmetros de escala () que descreve o padro de disperso observado em X. Note que se = 0, obtemos o modelo ordinal original. Quando as frequncias das classes extremas so as mais elevadas, X > 0, e o modelo tende a aproximar as probabilidades cumulativas. Por outro lado, se X < 0 as probabilidades cumulativas tendem a afastar-se.

15.3.2. Avaliao da qualidade do modeloA avaliao da qualidade do ajustamento e do modelo feita de modo equivalente ao descrito anteriormente para a regresso logstica (ver cap. 15.1.4). A significncia do modelo avaliada pelo teste do rcio de verosimilhanas, ou pelos testes do Qui-quadrado e da Deviance (se estes puderem ser aplicados) enquanto que a significncia prtica do modelo avaliado pelos pseudo-R2. A avaliao do tipo de modelo (logit ordinal, probit ordinal, modelo de escala, etc.) pode fazer-se de uma forma simples, comparando o 2LL dos dois modelos em causa. O melhor modelo ser aquele que apresentar menor 2LL. Ainda que no existam, actualmente, mtodos para avaliar a qualidade dos resduos e observaes influentes especficos para a regresso ordinal, possvel recorrer aos resduos e medidas de observaes influentes definidos anteriormente para a regresso logstica. De acordo com Hosmer & Lemeshow (2000), este processo de anlise tem porm a desvantagem de ser uma aproximao ao modelo estimado, j que os768

CAPTULO 15 REGRESSO CATEGORIAL

coeficientes da regresso ordinal so apenas uma aproximao dos coeficientes da regresso logstica. Ainda assim, se o pressuposto da homogeneidade dos declives for vlido, a anlise de resduos ordinais com os mtodos da regresso logstica produz resultados fiveis (Long & Freese, 2006). Interessa agora, descrever o pressuposto da homogeneidade dos declives que especfico da regresso ordinal

15.3.3. Teste homogeneidade dos declivesO modelo de regresso ordinal apresentado anteriormente assume que a influncia das variveis independentes sobre a Link (P [ Y k ]) igual para todas as K classes da varivel dependente. Isto , que as linhas da funo Link utilizada sejam paralelas para as K classes (da este teste tambm ser designado por teste das linhas paralelas). Para avaliar este pressuposto ento necessrio testar:

H 0 : 1 = 2 = ... = K 1vs.

H1: k, l : k l

( k l ; k, l = 1, ..., K 1)

A estatstica de teste o rcio de verosimilhanas de dois modelos ordinais, o primeiro assumindo que os declives so iguais (i.e. que H0 vlida) e o segundo assumindo que os declives possam ser diferentes (i.e. que H1 vlida e que Link (P [ Yj k ]) = k xj k). Os 2LL dos dois modelos so usados para averiguar se o ganho de 2LLH1 (com declives livres) relativamente ao 2LLH0 (com declives homogneos) significativo. A estatstica de teste ento: L H1 2 X LP = 2 LL H1 ( 2 LL H 0 ) = 2 Ln L H0 a 2 ( k 2) p

Se o p-value = P (2 X2LP) do teste for muito pequeno, rejeita-se H0 e conclui-se que os declives no so homogneos. Note que se pretende, geralmente, no rejeitar a H0. ainda de referir que a escolha da funo Link afecta a significncia deste teste, e que a rejeio de H0 pode estar simplesmente associada escolha de uma funo Link inapropriada para a distribuio de probabilidades observadas nas classes da varivel dependente. Por outro lado, se este pressuposto

769

ANLISE ESTATSTICA

no for validado, poder ser aconselhvel recorrer regresso multinomial como alternativa de anlise.

15.3.4. Classificao com o modelo de regresso ordinalUma vez ajustado o modelo de regresso ordinal e demonstrada a sua significncia estatstica, os coeficientes do modelo podem ser usados para predizer a classificao de novos casos de estudo. Recorrendo, ao inverso da funo Link utilizada no modelo ento possvel estimar a probabilidade acumulada de cada uma das classes da varivel ordinal. Por exemplo, no caso da funo Link ser a Logit, tomando o inverso da funo Logit possvel definir a funo genrica da probabilidade acumulada (funo de distribuio logstica) da classe k: F ( k X* ) = P [ Y k ] =

1 1 + e(k X*

)

De modo equivalente se a funo Link for a Log-log complementar, a funo de distribuio ( k X F ( k X* ) = P [ Y k ] = 1 e e * )

Para a Log-log negativa a funo de distribuio ( k X F ( k X* ) = P [ Y k ] = e e *)

Note que estas funes do as probabilidades acumuladas de se observar uma classe inferior ou igual a k, e que para determinar a probabilidade de se observar a classe k, e necessrio subtrair a probabilidade de se observar uma classe inferior ou igual a k 1. De uma forma generalizada, podemos ento escrever, para cada um dos j = 1, ..., n sujeitos a sua probabilidade de ocorrncia para cada uma das K classes:P [Yj = 1] = F (1 xj ) P [Yj = 2] = F (2 xj ) F (1 xj ) ...

770

CAPTULO 15 REGRESSO CATEGORIAL

P [Yj = k] = F (k xj ) F (k1 xj )

...P [Yj = K] = 1 F (K1 xj )

Finalmente, o sujeito j classificado na classe k da varivel dependente onde a sua probabilidade de ocorrncia for maior. A comparao das classificaes observadas e das classificaes previstas pode tambm ser usada na avaliao da qualidade do modelo global. Vejamos agora um exemplo de aplicao da regresso ordinal com o SPSS. Num estudo sobre a despenalizao do aborto, um investigador perguntou a 25 pessoas que passavam na Rua Augusta (amostra de convenincia) qual o seu grau de concordncia com a despenalizao do aborto at s 10 semanas, usando para tal uma escala de tipo Likert com 5 pontos (1 Discordo completamente; 2 Discordo; 3 Nem concordo nem discordo; 4 Concordo; e 5 Concordo completamente). Em simultneo registou o gnero dos participantes e a sua idade. A matriz dos resultados a seguinte:Grau de Concordncia 5 Concordo completamente 1 Discordo completamente 3 Nem concordo nem discordo 1 Discordo completamente 4 Concordo 2 Discordo 1 Discordo completamente 2 Discordo 4 Concordo 2 Discordo 1 Discordo completamente 4 Concordo 1 Discordo completamente 3 Nem concordo nem discordo 1 Discordo completamente 3 Nem concordo nem discordo 1 Discordo completamente 5 Concordo completamente 2 Discordo Sexo F M F F F F M F M F M F F M M F M F F Idade 45 38 30 55 23 29 41 42 35 29 30 25 40 35 47 33 49 25 21

771

ANLISE ESTATSTICA

Grau de Concordncia 4 Concordo 1 Discordo completamente 2 Discordo 3 Nem concordo nem discordo 2 Discordo 4 Concordo

Sexo F M M F M F

Idade 28 25 21 35 45 24

Ser que a opinio sobre a despenalizao do aborto idntica entre homens e mulheres? E qual o efeito da idade? Depois de codificar a varivel gnero em 0 Feminino e 1 Masculino, e de introduzir a base de dados no SPSS, proceda para o menu Analyze Regression Ordinal:

Seleccione a varivel Despenalizao para a caixa Dependent, a varivel Sexo para a caixa Factor (as variveis independentes qualitativas so adicionadas como factores) e a varivel Idade para a caixa Covariate(s) (as variveis independentes quantitativas so adicionadas como covariveis):

772

CAPTULO 15 REGRESSO CATEGORIAL

para definir o tipo de modelo ordinal a De seguida clique no boto ajustar, o nmero de iteraes, etc. As opes do SPSS por default so, de um modo geral, apropriadas para a maioria das anlises, e neste menu, necessrio apenas seleccionar o tipo de funo Link. Seleccione, a opo Logit (ainda que, como veremos adiante, esta possa no ser a funo Link mais apropriada):

Clique no boto e, de seguida, no boto para definir as opes de anlise e os resultados a produzir. Na rea Display, seleccione a opo Test of parallel lines e na rea Saved variables, seleccione as opes Estimated response probabilities (para obter a probabilidade de cada sujeito responder a cada uma das773

ANLISE ESTATSTICA

classes da varivel dependente), e a opo Predicted category (para obter a classe da varivel dependente em que cada sujeito classificado). Pode ainda seleccionar a opo Predicted category probability para gravar na base de dados a probabilidade da classe de resposta onde o sujeito foi classificado:

Clique no boto , e no boto pode definir o tipo de modelo a ajustar: um modelo de efeitos principais (Main effects), um modelo com interaco (interaction), etc. Seleccione a opo Main effects uma vez que no estamos interessados em testar a interaco entre os factores.

774

CAPTULO 15 REGRESSO CATEGORIAL

Clique em para voltar ao menu da regresso ordinal. O boto permite definir um modelo de escala onde se assume que podem existir diferenas no padro de resposta/variabilidade nas classes resultantes dos cruzamentos das variveis independentes. Por exemplo, poder ser necessrio assumir que as frequncias de resposta s 5 classes da varivel dependente, so diferentes entre homens e mulheres. Assim, interessava definir um parmetro de escala para a varivel Sexo (para as variveis quantitativas esta assumpo menos comum, a menos que a varivel seja discreta). Um histograma de frequncias permite avaliar a plausibilidade de um modelo de escala para os dados observados. Este tipo de modelos pouco frequente nas cincias sociais e humanas pelo que ser, por para obter o output da regresagora, ignorado. Clique finalmente no boto so ordinal Logit (PoLytomous Universal Model Ordinal regression):

PLUM ORDINAL REGRESSIONWarnings There are 86 (78.2%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.

Case Processing Summary N Despenalizao 1 - Discordo completamente 2 - Discordo 3 - Nem concordo nem discordo 4 - Concordo 5 - Concordo completamente F M 8 6 4 5 2 15 10 25 0 25 Marginal Percentage 32.0% 24.0% 16.0% 20.0% 8.0% 60.0% 40.0% 100.0%

Sexo Valid Missing Total

775

ANLISE ESTATSTICA

Os dois primeiros quadros indicam a percentagem de clulas, resultantes do cruzamento das variveis independentes, que no apresentam qualquer observao. Recorde que a existncia de muitas clulas vazias impede a utilizao do teste do Qui-quadrado do ajustamento. No nosso exemplo, existem 78.2% de clulas vazias, pelo que a aplicao deste teste no aconselhada. Felizmente, esta condio no afecta a distribuio do rcio de verosimilhanas, e a sua aproximao distribuio do Qui-quadrado, que avaliada no quadro seguinte:

Model Fitting Information Model Intercept Only Final -2 Log Likelihood 73.442 63.371 Chi-Square 10.070 df 2 Sig. .007

Link function: Logit.

Goodness-of-Fit Pearson Deviance Chi-Square 86.638 60.599 df 82 82 Sig. .342 .963

Link function: Logit.

Pseudo R-Square Cox and Snell Nagelkerke McFadden Link function: Logit. .332 .348 .132

O quadro do Model Fiting Information revela que o modelo ajustado (Final) significativamente melhor do que o modelo nulo (intercept only) (G2 (2) = 10.070; p = 0.007), i.e. que pelo menos uma das variveis independentes do modelo afecta significativamente as probabilidades de ocorrncia das classes da varivel dependente. O quadro do Goodness-of-fit apresenta os testes qualidade do ajustamento do Qui-quadrado de Pearson e da Deviance. Relembre que, nestes testes, para que o modelo se ajuste aos dados (H0) necessrio no rejeitar a hiptese nula. Assim, em ambos os testes o p-value maior que os nveis de significncia habituais pelo que no se rejeita a H0 de que o modelo se ajusta aos dados, ainda que a utilizao destes testes seja desaconselhada face ao elevado

776

CAPTULO 15 REGRESSO CATEGORIAL

2 nmero de clulas com frequncias nulas ( X P (82) = 86.683; p = 0.342; D (82) = 60.599; p = 0.963). O quadro dos Pseudo R-square apresenta as estimativas dos pseudo-R2 mais comuns na regresso categorial. Todas as estatsticas calculadas so moderadas a baixas, em particular o pseudo-R2 de McFadden.

O quadro dos Parameters Estimates apresenta as estimativas dos Treshold e dos coeficientes de regresso associados s variveis independentes, os seus erros-padro, a estatstica de Wald, o p-value do teste, e o respectivo intervalo de confiana:

Parameter Estimates 95% Confidence Interval Lower Bound Upper Bound -5.933 .745 -4.390 2.028 -3.466 2.885 -1.912 4.733 -.168 .005 .162 3.512 . .

Threshold

Location

[Despenalizao = 1.00] [Despenalizao = 2.00] [Despenalizao = 3.00] [Despenalizao = 4.00] Idade [Sexo=.00] [Sexo=1.00]

Estimate -2.594 -1.181 -.291 1.410 -.082 1.837 0a

Std. Error 1.704 1.637 1.620 1.695 .044 .854 .

Wald 2.319 .520 .032 .692 3.427 4.622 .

df 1 1 1 1 1 1 0

Sig. .128 .471 .858 .405 .064 .032 .

Link function: Logit. a. This parameter is set to zero because it is redundant.

Uma vez que a varivel dependente apresenta 5 classes, o modelo apresenta 4 thresholds (k). De um modo geral, estes thresholds so usados apenas para o clculo de probabilidades, e para alm desta utilizao, o seu interesse diminuto. As estimativas dos declives (coeficientes de regresso) so utilizadas para inferir da significncia das variveis independentes sobre as probabilidades das classes da varivel dependente (em rigor sobre o Link das probabilidades acumuladas). No nosso exemplo, porque foi usado a funo Logit, o modelo pode escrever-se como:P [ Y k] Ln P [ Y > k ] = k ( 0.082 Idade + 1.837 Sexo [0])

777

ANLISE ESTATSTICA

ou em Probabilidade no-linear acumuladaP [ Y k] =

1 1 + e ( k 0.082 Idade +1.837 Sexo [0])

Assim, quando a idade aumenta 1 ano, o Ln da probabilidade de se observar uma classe de ordem inferior, relativamente a uma classe de ordem superior aumenta 0.082, i.e. medida que a idade aumenta, diminui a probabilidade de se observarem as classes de maior ordem (concordncia), relativamente s classes de menor ordem (discordncia). Dito de outra forma podemos afirmar que medida que a idade aumenta, diminui a concordncia com a despenalizao do aborto, ainda que este efeito seja apenas marginalmente significativo (b = 0.082; 2 X Wald (1) = 3.427; p = .064). Uma vez que estamos a usar a funo Logit, podemos calcular o rcio das chances usando a expresso e .1 Substituindo pela sua estimativa, obtemos e ( 0.082) = 1.085, ou seja por ano de idade o rcio da probabilidade de se observarem classes de menor ordem comparativamente probabilidade de se observarem classes de maior ordem aumenta 8.5%, revelando que com o aumento da idade maior a probabilidade de os inquiridos serem menos favorveis despenalizao do aborto. Relativamente varivel Sexo, podemos afirmar, de acordo com o modelo, que para a classe F relativamente classe omitida de referncia (M), o Ln da probabilidades de se observar uma classe de ordem inferior, relativamente a uma classe de ordem superior diminui 1.837. Na classe F, comparativamente com a classe M, as classes de menor ordem da varivel dependente (discordncia) so menos provveis do que as classes de maior ordem (concordncia) revelando que as mulheres so mais concordantes com a despenalizao do aborto do que os homens. O rcio de chances de se observar uma classe de menor ordem relativamente a uma classe de maior ordem pode ser facilmente calculado por e (1.837) = 0.338. O rcio das chances das classes de menor ordem (discordncia), relativamente s classes de maior ordem (concordncia), diminui 66.2% quando o sexo passa de Masculino (classe de referncia) para Feminino, revelando que as mulheres so mais favorveis despenalizao do aborto do que os homens. Note que os rcios das chances calculados para a Idade e para o Sexo, so constantes para todas as classes se os declives do modelo forem homogneos. O quadro seguinte Test of Paralell Lines permite testar este pressuposto:

(1)

O clculo do rcio das chances s vlido se a funo Link for a Logit, para as outras funes Link no faz sentido calcular este rcio.

778

CAPTULO 15 REGRESSO CATEGORIAL

Test of Parallel Lines c Model Null Hypothesis General -2 Log Likelihood 63.371 52.673a Chi-Square 10.699b df 6 Sig. .098

The null hypothesis states that the location parameters (slope coefficients) are the same across response categories. a. The log-likelihood value cannot be further increased after maximum number of step-halving. b. The Chi-Square statistic is computed based on the log-likelihood value of the last iteration of the general model. Validity of the test is uncertain. c. Link function: Logit.

O modelo sob H0 (Null Hypothesis) assume que todos os declives so iguais (i.e. que as linhas das funes Link so paralelas) enquanto que o modelo General assume que a H1: Existe pelo menos um declive diferente dos restantes, vlida. A diferena dos 2LL permite calcular uma estatstica com distribuio Qui-quadrado, e se esta estatstica no for significativa, i.e. se p-value > , podemos afirmar que o ajustamento do modelo no melhora libertando os coeficientes de regresso ou que, dito de outra forma, os declives so homogneos. Contudo, antes de analisar a significncia da diferena entre os dois modelos, de notar as notas de rodap a e b do quadro. Estas notas indicam que o programa foi incapaz de alcanar uma soluo com o nmero mximo de passos do algoritmo (maximum step-halving) previamente definido e que desta forma a validade do teste no garantida. Assim, antes de mais, necessrio refazer a anlise, e no menu Options, aumentar o Maximum step-halving para, por exemplo, 50:

779

ANLISE ESTATSTICA

Eis o novo quadro do teste da homogeneidade dos declives:

Test of Parallel Lines Model Null Hypothesis General -2 Log Likelihood 63.371 52.161 Chi-Square 11.210

a

df 6

Sig. .082

The null hypothesis states that the location parameters (slope coefficients) are the same across response categories. a. Link function: Logit.

2 Sendo X LP (6) = 11.210 e p = 0.082, no rejeitamos a H0 de que os declives so homogneos, validando assim o pressuposto da homogeneidade dos declives. No deve, porm, passar despercebido o facto de a significncia do teste ser marginal, i.e. se considerssemos uma probabilidade de erro de tipo I () maior, por exemplo = 0.10, j no era possvel assumir a veracidade do pressuposto de homogeneidade dos declives. Como referido anteriormente, a no rejeio de H0 pode dever-se escolha errada da funo Link, e nesta fase da anlise o leitor deveria considerar outros tipos de funes Link atendendo s recomendaes feitas atrs (cap. 15.3.1.) (voltaremos adiante a este tpico).

O passo final da regresso ordinal a avaliao da qualidade de classificao/previso do modelo. De acordo com as seleces efectuadas no menu Output foram adicionadas novas variveis base de dados que registam a probabilidade de ocorrncia de cada um dos sujeitos em cada uma das 5 classes da varivel dependente (EST1_1; EST2_1; EST3_1; EST4_1; EST5_1); a classe da varivel dependente prevista para cada sujeito (PRE_1) e a probabilidade de classificao estimada para a classe prevista (PCP_1):

780

CAPTULO 15 REGRESSO CATEGORIAL

Uma vez que usamos a funo Logit, a probabilidade acumulada de cada uma das classes dada porP [ Y k | x *] =

1 1+ e ( k ' x *)

Assim, para o primeiro sujeito da base de dados no nosso exemplo (Idade = 45; Sexo = F) a probabilidade da resposta ser na classe 1 da varivel dependente :

P [ Y = 1 | [45 F ] '] = P [ Y 1 | [45 F ] '] ===

1 1+ e ( k ' x *)

==

1 1 + e [ 2.594 ( 0.082 45 + 1.837 )]

= 0.322

781

ANLISE ESTATSTICA

De modo semelhante as probabilidades da resposta nas outras classes so:P [ Y = 2 | [45 F ] '] = P [ Y 2] P [ Y = 1] = =

1 1+ e [ 1.181 ( 0.082 45 + 1.837 )]

0.332 =

= 0.662 0.322 = 0.340P [ Y = 3 | [ 45 F ] '] = P [ Y 3] P [ Y 2] = =

1 1 + e [ 0.291 ( 0.082 45 + 1.837 )]

0.662 =

= 0.827 0.662 = 0.165 P [ Y = 4 | [45 F ] '] = P [ Y 4] P [ Y 3] = =

1 1+ e [ 0.141 ( 0.082 45 + 1.837 )]

0.827 =

= 0.963 0.827 = 0.136

P [ Y = 5 | [45 F ] '] = P [ Y 5] P [ Y 4] == 1 0.963 = 0.037

Estes so os valores (arredondados a 2 casas decimais) que se encontram na base de dados para o primeiro sujeito. Assim, a classe prevista para o primeiro individuo a classe 2 Discordo, j que nesta que se observa a maior probabilidade de resposta. De modo semelhante, para o 2 sujeito (Idade = 38; Sexo = M), as probabilidades de resposta em cada uma das classes so:

P [ Y = 1 | [38 M ] '] = P [ Y 1 | [38 M ] '] == =

1 1+ e 1+ e ( k ' x *)

= =

1 [ 2.594 ( 0.082 38 )]

= 0.628782

CAPTULO 15 REGRESSO CATEGORIAL

P [ Y = 2 | [38 M ] '] = P [ Y 2] P [ Y 1] = =

1 1+ e [ 2.594 ( 0.082 38 )]

0.628 =

= 0.874 0.628 = 0.246

P [ Y = 3 | [38 M ] '] = 0.070P [ Y = 4 | [38 M ] '] = 0.045 P [ Y = 5 | [38 M ] '] = 0.011

O sujeito 2 ento classificado na classe 1 Discordo completamente uma vez que nesta que se observa a maior probabilidade de resposta. Uma outra forma de avaliar a qualidade do modelo comparando a percentagem de classificaes correctas obtidas pelo modelo, com a percentagem de classificaes correctas proporcional por acaso. Relembre que se o modelo no classificar correctamente pelo menos 25% dos casos mais do que a classificao correcta proporcional por acaso, a capacidade predictiva do modelo reduzida (reveja o cap. 15.1.7). O SPSS (at v. 15 inclusive) no apresenta estes clculos, mas estes so fceis de realizar cruzando as classes da varivel dependente, com as classes previstas para a varivel dependente (usando a nova varivel PRE_1 da base de dados). Recorra ento ao menu Analyze Descriptive Statistics Crosstabs:

783

ANLISE ESTATSTICA

Seleccione agora as variveis respectivamente:

Despenalizao

e

PRE_1

para as

Rows

e

Columns

De seguida clique no boto e seleccione a opo Row na rea Percentapara obter a percentagem de classificaes correctas para cada uma das classes da varivel dependente:ges,

784

CAPTULO 15 REGRESSO CATEGORIAL

Clique em e em para obter o output. Eis a tabela de contingncia que relaciona as classes observadas e as classes previstas na resposta questo Concorda com a despenalizao do aborto:

Despenalizao * Predicted Response Category Crosstabulation Predicted Response Category Discordo completa mente Discordo Concordo 7 1 0 87.5% 12.5% .0% 1 2 3 16.7% 33.3% 50.0% 1 2 1 25.0% 50.0% 25.0% 1 0 4 20.0% .0% 80.0% 0 1 1 .0% 50.0% 50.0% 10 6 9 40.0% 24.0% 36.0%

Total 8 100.0% 6 100.0% 4 100.0% 5 100.0% 2 100.0% 25 100.0%

Despenalizao

Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente

Total

Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao Count % within Despenalizao

Note em primeiro lugar, que das 5 classes originais, apenas 3 so previstas pelo modelo. O modelo prediz correctamente 87.5% da classe Discordo completamente. A percentagem de previses correctas de 33% para a classe Discordo, 80% para a classe Concordo, e 0% para as classes Nem concordo nem discordo e Concordo completamente. O modelo classifica correctamente 7 + 2 + 4 = = 13 sujeitos e a percentagem sujeitos classificados correctamente pelo modelo 13 / 25 100 = 52%. Pelo contrrio a percentagem de classificao correcta proporcional por acaso (0.322 + 0.242 + 0.162 + 0.202 + 0.082) 100 = = 23.2%. O modelo classifica assim razoavelmente melhor do que a classificao por acaso. O leitor ter j reparado, ao longo da descrio dos resultados do modelo ordinal Logit, que existem vrios problemas com este modelo. Na verdade, o passo inicial do processo de ajustamento de um modelo ordinal deve ser sempre o da escolha da funo Link apropriada de acordo com a descrio feita anteriormente (reveja a tabela das funes Link no cap. 15.3.1). Fazendo um histograma de frequncias (Graphs Histogram) para a varivel Despenalizao, possvel observar que as classes de maior frequncia so as classes de menor ordem como se ilustra na figura seguinte:

785

ANLISE ESTATSTICA

8

6Frequencia

4

2

0 0 1 2 3 4 5 6 Despenalizao

Assim, a funo Link mais apropriada ser, provavelmente, a funo Log-log negativa. A diferena de qualidade entre os dois modelos pode ser avaliada heuristicamente comparando os 2LL dos dois modelos. Naturalmente, o melhor modelo aquele que apresentar menor 2LL. Adicionalmente, a significncia dos coeficientes, e do teste de homogeneidade dos declives, bem como a capacidade predictiva dos modelos podem ser tambm tidos em conta no processo de deciso da funo Link a usar. Refaamos ento o nosso exemplo, mas agora com a funo Link Log-log negativa (mantendo todas as outras opes de anlise):

786

CAPTULO 15 REGRESSO CATEGORIAL

Eis os novos outputs do SPSS para a regresso ordinal com a funo Log-log negativa:

Warnings There are 86 (78.2%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.

Case Processing Summary N Despenalizao Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente F M 8 6 4 5 2 15 10 25 0 25 Marginal Percentage 32.0% 24.0% 16.0% 20.0% 8.0% 60.0% 40.0% 100.0%

Sexo Valid Missing Total

Model Fitting Information Model Intercept Only Final -2 Log Likelihood 73.442 61.561 Chi-Square 11.881 df 2 Sig. .003

Link function: Negative Log-log.

Goodness-of-Fit Pearson Deviance Chi-Square 78.884 58.788 df 82 82 Sig. .577 .975

Link function: Negative Log-log.

Pseudo R-Square Cox and Snell Nagelkerke McFadden .378 .397 .156

Link function: Negative Log-log.

787

ANLISE ESTATSTICA

Parameter Estimates 95% Confidence Interval Lower Bound Upper Bound -3.761 .766 -2.722 1.685 -2.086 2.364 -.898 4.106 -.123 -.002 .212 2.595 . .

Threshold

Location

[Despenalizao = 1.00] [Despenalizao = 2.00] [Despenalizao = 3.00] [Despenalizao = 4.00] Idade [Sexo=.00] [Sexo=1.00]

Estimate Std. Error -1.498 1.155 -.518 1.124 .139 1.135 1.604 1.276 -.062 .031 1.403 .608 0a .

Wald 1.682 .212 .015 1.580 4.054 5.328 .

df 1 1 1 1 1 1 0

Sig. .195 .645 .903 .209 .044 .021 .

Link function: Negative Log-log. a. This parameter is set to zero because it is redundant.

Test of Parallel Linesa Model Null Hypothesis General -2 Log Likelihood 61.561 51.670 Chi-Square 9.891 df 6 Sig. .129

The null hypothesis states that the location parameters (slope coefficients) are the same across response categories. a. Link function: Negative Log-log.

Comparativamente ao modelo ordinal Logit, o novo modelo Log-log negativo, apresenta menor 2LL (61.561 vs. 63.371), sendo o p-value do modelo ordinal Log-log negativo cerca de 2 menor do que o p-value do modelo ordinal Logit. Adicionalmente, a varivel idade que no modelo ordinal Logit era apenas marginalmente significativa (p = 0.064) passou a ser estatisticamente significativa no novo modelo (p = 0.044). Tambm, no teste da homogeneidade dos declives o p-value do modelo Log-log negativo maior do que no modelo ordinal Logit (0.129 vs. 0.098), suportando a ideia de que a funo Log-log negativa mais apropriada para a distribuio de frequncias observada nas classes da varivel dependente. Finalmente, a percentagem de classes correctamente classificada dada na tabela de contingncia seguinte:

788

CAPTULO 15 REGRESSO CATEGORIAL

Despenalizao * Predicted Response Category Crosstabulation Predicted Response Category Discordo completa mente Discordo Concordo 7 1 0 87.5% 12.5% .0% 1 2 3 16.7% 33.3% 50.0% 1 2 1 25.0% 50.0% 25.0% 1 0 4 20.0% .0% 80.0% 1 0 1 50.0% .0% 50.0% 11 5 9 44.0% 20.0% 36.0%

Total 8 100.0% 6 100.0% 4 100.0% 5 100.0% 2 100.0% 25 100.0%

Despenalizao Discordo completamente

Total

Count % within Despenalizao Discordo Count % within Despenalizao Nem concordo nem Count discordo % within Despenalizao Concordo Count % within Despenalizao Concordo Count completamente % within Despenalizao Count % within Despenalizao

Assim, a taxa de classificaes correctas de 13/25 100 = 52% valor que, contudo, no melhor do que o obtido com o modelo ordinal Logit. Interessa agora avaliar a plausibilidade de um modelo ordinal de escala. Comecemos por fazer o histograma de frequncias para as classes da varivel dependente cruzadas com o sexo. Seleccione a opo Graphs Histogram e no menu do Histogram seleccione a varivel Despenalizao para a caixa Variable e a varivel Sexo para a caixa Columns:

789

ANLISE ESTATSTICA

Clique no boto

para obter o grfico:

Sexo F 6 5 4 3 2 1 0 1 2 3 4 5 1 2 3 4 5 Despenalizao M

Como ilustra a figura anterior, a distribuio das frequncias de resposta entre os dois sexos so algo diferentes. Nos homens a classe mais frequente a classe 1 Discordo completamente enquanto que nas mulheres as classes mais frequentes so as classes 2 Discordo e 4 Concordo. Observadas as diferenas das frequncias de resposta, entre as classes da varivel sexo, podemos agora averiguar se a introduo de um parmetro de escala para a varivel Sexo, resultar num melhor modelo predictivo. Voltemos ao menu da regresso ordinal no SPSS: Analyze Regression Ordinal e no menu Scale seleccionemos a varivel Sexo para a caixa Scale model:

790

Frequencia absoluta

CAPTULO 15 REGRESSO CATEGORIAL

Clique no boto novo modelo:

e no boto

para obter os outputs para o

PLUM ORDINAL REGRESSIONWarnings The TPARALLEL keyword specified in the PRINT subcommand is ignored because an non-empty SCALE subcommand is specified. The score test for equal slopes assumption is available only for a model without a scale component, and there are effects beside the intercept in the location component. There are 86 (78.2%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.

Case Processing Summary N Despenalizao Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente F M 8 6 4 5 2 15 10 25 0 25 Marginal Percentage 32.0% 24.0% 16.0% 20.0% 8.0% 60.0% 40.0% 100.0%

Sexo Valid Missing Total

Model Fitting Information Model Intercept Only Final -2 Log Likelihood 73.442 61.542 Chi-Square 11.900 df 3 Sig. .008

Link function: Negative Log-log.

Goodness-of-Fit Pearson Deviance Chi-Square 79.892 58.769 df 81 81 Sig. .514 .970

Link function: Negative Log-log.

791

ANLISE ESTATSTICA

Pseudo R-Square Cox and Snell Nagelkerke McFadden .379 .398 .156

Link function: Negative Log-log.

Parameter Estimates 95% Confidence Interval Sig. Lower Bound Upper Bound .295 -4.074 1.236 .678 -2.759 1.796 .902 -2.020 2.292 .253 -1.076 4.082 .099 -.132 .011 .039 .071 2.656 . . . .889 -1.125 .975 . . .

Estimate Std. Error Threshold [Despenalizao = 1.0 -1.419 1.355 [Despenalizao = 2.0 -.482 1.162 [Despenalizao = 3.0 .136 1.100 [Despenalizao = 4.0 1.503 1.316 Location Idade -.060 .037 [Sexo=.00] 1.363 .659 [Sexo=1.00] 0a . Scale [Sexo=.00] -.075 .536 [Sexo=1.00] 0a .

Wald 1.098 .172 .015 1.305 2.718 4.275 . .020 .

df 1 1 1 1 1 1 0 1 0

Link function: Negative Log-log. a. This parameter is set to zero because it is redundant.

Note em primeiro lugar, que no caso dos modelos de escala o SPSS no produz o teste homogeneidade dos declives. Para comparar o novo modelo de escala, com o modelo anterior interessa comparar os 2LL dos dois modelos. O 2LL do modelo de escala 61.542, valor idntico ao 2LL do modelo anterior (61.561). Por outro lado, o coeficiente associado varivel Sexo reduzido2 e no significativo ( (F ) = 0.075; X Wald (1) = 0.020; p = 0.889). O modelo

de escala no apresenta melhores qualidades estatsticas do que o modelo sem escala. Por questes de parcimnia, o melhor modelo o modelo mais simples, e no nosso exemplo, o modelo Log-log negativo , assim, o mais apropriado para descrever as probabilidades cumulativas observadas neste estudo.

792

CAPTULO 15 REGRESSO CATEGORIAL

Exemplo de como reportar resultadosMtodos(...) Anlise Estatstica (...) Para avaliar se a idade e o sexo apresentavam um efeito estatisticamente significativo sobre as probabilidades de resposta varivel Concorda com a despenalizao do aborto at s 9 semanas, recorreu-se regresso ordinal com funo Link Log-log negativa. A escolha da funo Link foi feita de acordo com os critrios de distribuio de frequncias das classes da varivel dependente definidos em Maroco (2007). Consideraram-se tambm outras funes Link, nomeadamente a Logit, mas a Log-log negativa foi a que apresentou melhor significncia estatstica. O pressuposto do modelo da homogeneidade 2 de declives foi validado ( X LP (6) = 9.891 e p = 0.129). Todas as anlises foram feitas com o software SPSS (v. 14; SPSS Inc., Chicago) e os outputs do programa so apresentados em anexo.

ResultadosOs coeficientes e a significncia do modelo ordinal ajustado Ln ( ln (P (Y k) = k ( 0.062 Idade + 1.403 Sexo [F ]) so apresentados na tabela 1. O modelo estatisticamente significativo ( G 2 (2) = 11.881; p = 0.003), ainda que a dimen2 2 2 so do efeito seja algo reduzida ( RMF = 0.156; RN = 0.397; RCS = 0.378). Tabela 1. Estimativas e significncia do modelo Log-log negativo ajustadoIntervalo de confiana a 95%]3.761;0.766[

Parmetros [Despenalizao = 1.00] Threshold [Despenalizao = 2.00] [Despenalizao = 3.00] [Despenalizao = 4.00] Localizao Idade

Estimativa

Erro-padro1.155

2 X Wald

g.l.

p-value

1.498

1.682

1

.195

.518

1.124

.212

1

.645

]2.722; 1.685[

.139

1.135

.015

1

.903

]2.086; 2.364[

1.604

1.276

1.580

1

.209

].898; 4.106[

.062

.031

4.054

1

.044

].123; .002[

[Sexo = .00]

1.403

.608

5.328

1

.021

]0.212; 2.595[

793

ANLISE ESTATSTICA

De acordo com o modelo, medida que a idade aumenta, diminui a probabilidade de se observarem classes de maior ordem (concordncia) ( bIdade = 0.062; p = 0.044). Relativamente ao sexo, observa-se maior probabilidade das classes de maior ordem (concordncia) nas mulheres, comparativamente com os homens (bF = 1.403; p = 0.021). A evoluo das probabilidades de cada uma das classes em funo da Idade e por sexo so ilustradas na figura 1. de referir que nos homens a classe mais provvel a classe 1 Discordo completamente e que a probabilidade de observar esta resposta aumenta com a Idade de forma marcada. Nas mulheres a probabilidade de observar classes de menor ordem tambm aumenta com a idade e, a partir dos 45 anos, a classe 1 a classe de maior probabilidade. Para as mulheres at aos 30 anos, a classe de resposta mais provvel a classe 4 Concordo, entre os 30 e os 45 anos a classe mais provvel a classe 2 Discordo (Fig. 1).Sexo F 1,0Discordo completamente Discordo Nem concordo nem discordo Concordo Concordo completamente

M

0,8

0,6

P[Y=k]0,4 0,2 0,0 20 30 40 50 Idade 20 30 40 50

Figura 1. Evoluo das probabilidades de resposta em cada uma das 5 classes da varivel Concorda com a despenalizao do aborto ( Discordo completamente; Discordo; Nem concordo nem discordo; Concordo; 2 2 Concordo completamente) ( G 2 (2) = 11.881; p = 0.003; RMF = 0.156; RN = 0.397; 2 RCS = 0.378)

794