MOTIVAÇÃO
• Cícero
• Linguística de corpus • Dados dizem muito
• Apoio dos resultados do inglês • Pesquisas similares (pra ensino) • Linguística aplicada no mundo real é em inglês
IMPLEMENTAÇÃO
• Dados abertos
• Corpora • Curadoria • Trabalho constante • Fonte de respostas
• Filtros e montagem • Stopwords • XML
• Programação • Python • NLTK
• Análise de Distribuição de Frequência
USOS POSSÍVEIS
• Mais programação, mais análises
• Estudo estilístico ou gramatical do latim • Ensino de latim a partir dos corpora
• Concordâncias • Vocabulários reais • Reading Latin
OBJETIVOS
• Criar corpora usáveis em computação: 75 de Cícero, mais de 1 milhão de termos • Criar análises com programação de computadores: 1.000 linhas • Criar catálogo lexical pra estudo/ensino: ≈ 550 termos • Criar catálogo de stopwords para o latim: ≈ 600 termos