1
Corpus ESCOLEX ESCOLEX: Uma base lexical com medidas de frequência para crianças do 1º ao 6º ano de escolaridade . Universidade do Minho, Escola de Psicologia Laboratório Cognição Humana Projecto de Investigação PTDC/PSI-PCO/104679/2008 financiado pela Fundação para a Ciência e a Tecnologia (FCT) e co-finaciado pelo FEDER (Fundo Europeu de Desenvolvimento Regional ) no âmbito do programas COMPETE (Programa Operacional Factores de Competitividade) e do QREN (Quadro de Referência Estratégico Nacional). A investigação psicolinguística alargou o âmbito de recrutamento das suas amostras. Do adulto saudável ou do adulto com algum tipo de défice linguístico assistimos, na actualidade, à inclusão progressiva de crianças na investigação experimental. Este trabalho apresenta a ESCOLEX, uma base lexical com medidas de frequência para 50.000 formas extraídas de um corpus de 4 milhões de palavras obtido a partir de 171 manuais escolares do 1º ao 6º ano de escolaridade do ensino básico português. Seguindo os procedimentos de Carroll, Davies e Richman (1971), a ESCOLEX disponibiliza para cada ano de escolaridade (A 1 , A 2 , A 3 , A 4 , A 5 e A 6 ), para cada um dos ciclos (1º - A 1-4 - e 2º - A 5-6 ) e para todos os anos (A 1-6 ): o número de vezes em que a palavra ocorre no corpus (F); o índice de dispersão das palavras nos manuais escolares considerados (D); a frequência estimada por milhão de palavras (U); e o índice de frequência standard (SFI). PALAVRA: contém 49.588 formas flexionadas (flexões verbais e nominais) do português europeu que ocorrem no corpus ESCOLEX. Da base lexical fazem parte todas as formas distintas, não se diferenciando os casos das homógrafas não homófonas (ex. “sede” ['sedə] e “sede” ['sɛdə] e as palavras homónimas (ex. “castanha” [nome] e “castanha" [adjectivo]), que constituem entrada única na base. FREQ cont (F): número de vezes que a palavra ocorre no corpus ESCOLEX (i.e., no total de 3.608.211 palavras). LOG10 cont : valor que resulta do calculo do logarítmo de base 10 da FREQ cont +1. Como a medida FREQ cont se baseia num corpus de 3.608.211 palavras, um valor LOG10=0,3 corresponde a palavras que ocorrem apenas uma vez no corpus e LOG10>5 que ocorrem mais de 100.000 vezes no corpus. É apresentada com 4 dígitos de precisão. DISPersão (D): número de manuais escolares nos quais a palavra ocorre (num valor máximo de 171 manuais) ajustada à distribuição da sua frequência nos manuais. Varia ente 0 e 1: D=0 - todas as ocorrências da palavra registam-se num único manual a D=1 todas as ocorrências estão distribuídas na mesma proporção por todos os manuais. É apresentada com dois dígitos de precisão. FREQ_estimada (U): medida estimada de frequência por milhão de palavras ajustada a D. Se D=1, U calculada como frequência por milhão simples, se D=0, U apresenta um valor mínimo baseado na média ponderada de ocorrência das palavras nos manuais. É apresentada com 2 dígitos de precisão. Frequência_standard (SFI): índice standard de frequência derivado de U. Varia entre 0 e 100. Ex.: SFI=90 palavras que ocorrem uma vez em cada 10 palavras; SFI=80 ocorrem uma vez em cada 100 palavras e SFI=40 ocorrem uma vez num milhão de palavras. 1º ano 8.461 palavras (193.228 ocorrências) 2º ano 13.210 palavras (259.833 ocorrências) 3º ano 20.857 palavras (526.424 ocorrências) 5º ano 32.053 palavras (1.037.174 ocorrências) 4º ano 19.794 palavras (382.751 ocorrências) 1º ciclo 29.617 palavras (1.296.515 ocorrências) 6º ano 35.891 palavras (1.200.674 ocorrências) 2º ciclo 42.847 palavras (1.934.901 ocorrências) 1º e 2º ciclos 49.588 palavras (3.231.416 ocorrências)

ESCOLEX: Uma base lexical com medidas de frequência para ...p-pal.di.uminho.pt/static/files/APPE_2012_poster_ESCOLEX.pdf · e nominais) do português europeu que ocorrem no corpus

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ESCOLEX: Uma base lexical com medidas de frequência para ...p-pal.di.uminho.pt/static/files/APPE_2012_poster_ESCOLEX.pdf · e nominais) do português europeu que ocorrem no corpus

Corpus

ESCOLEX

ESCOLEX: Uma base lexical com medidas de frequência para crianças do 1º ao 6º ano de escolaridade

.

Universidade do Minho, Escola de Psicologia

Laboratório Cognição Humana

Projecto de Investigação PTDC/PSI-PCO/104679/2008 financiado pela Fundação para a Ciência e a Tecnologia (FCT) e co-finaciado pelo FEDER (Fundo Europeu de Desenvolvimento Regional ) no âmbito do programas COMPETE (Programa Operacional Factores de Competitividade) e do QREN (Quadro de Referência Estratégico Nacional).

A investigação psicolinguística alargou o âmbito de recrutamento das suas amostras. Do adulto saudável ou do adulto com algum tipo de défice linguístico assistimos, na actualidade, à inclusão progressiva de crianças na investigação experimental. Este trabalho apresenta a ESCOLEX, uma base lexical com medidas de frequência para ≈50.000 formas extraídas de um corpus de ≈4 milhões de palavras obtido a partir de 171 manuais escolares do 1º ao 6º ano de escolaridade do ensino básico português. Seguindo os procedimentos de Carroll, Davies e Richman (1971), a ESCOLEX disponibiliza para cada ano de escolaridade (A1, A2, A3, A4, A5 e A6), para cada um dos ciclos (1º - A1-4 - e 2º - A5-6) e para todos os anos (A1-6): o número de vezes em que a palavra ocorre no corpus (F); o índice de dispersão das palavras nos manuais escolares considerados (D); a frequência estimada por milhão de palavras (U); e o índice de frequência standard (SFI).

PALAVRA: contém 49.588

formas flexionadas (flexões verbais e nominais) do português europeu que ocorrem no corpus ESCOLEX. Da base lexical fazem parte todas as formas distintas, não se diferenciando os casos das homógrafas não homófonas (ex. “sede” ['sedə] e “sede” ['sɛdə] e as palavras homónimas (ex. “castanha” [nome] e “castanha" [adjectivo]), que constituem entrada única na base.

FREQcont (F): número de vezes que a palavra ocorre no corpus ESCOLEX (i.e., no total de 3.608.211 palavras).

LOG10cont: valor que resulta do calculo do logarítmo de base 10 da FREQcont+1. Como a medida FREQcont se baseia num corpus de 3.608.211 palavras, um valor LOG10=0,3 corresponde a palavras que ocorrem apenas uma vez no corpus e LOG10>5 que ocorrem mais de 100.000 vezes no corpus. É apresentada com 4 dígitos de precisão.

DISPersão (D): número de manuais escolares nos quais a palavra ocorre (num valor máximo de 171 manuais) ajustada à distribuição da sua frequência nos manuais. Varia ente 0 e 1: D=0 - todas as ocorrências da palavra registam-se num único manual a D=1 – todas as ocorrências estão distribuídas na mesma proporção por todos os manuais. É apresentada com dois dígitos de precisão.

FREQ_estimada (U): medida estimada de frequência por milhão de palavras ajustada a D. Se D=1, U calculada como frequência por milhão simples, se D=0, U apresenta um valor mínimo baseado na média ponderada de ocorrência das palavras nos manuais. É apresentada com 2 dígitos de precisão.

Frequência_standard (SFI): índice standard de frequência derivado de U. Varia entre 0 e 100. Ex.: SFI=90 palavras que ocorrem uma vez em cada 10 palavras; SFI=80 ocorrem uma vez em cada 100 palavras e SFI=40 ocorrem uma vez num milhão de palavras.

1º ano 8.461 palavras

(193.228 ocorrências)

2º ano 13.210 palavras

(259.833 ocorrências)

3º ano 20.857 palavras

(526.424 ocorrências)

5º ano 32.053 palavras

(1.037.174 ocorrências)

4º ano 19.794 palavras

(382.751 ocorrências)

1º ciclo 29.617 palavras

(1.296.515 ocorrências)

6º ano 35.891 palavras

(1.200.674 ocorrências)

2º ciclo 42.847 palavras

(1.934.901 ocorrências)

1º e 2º ciclos 49.588 palavras

(3.231.416 ocorrências)