View
499
Download
2
Embed Size (px)
Citation preview
Os usos literários do espaço de alta dimensãoThe literary uses of high-dimensional
space – Ted Underwood
Apresentação Síntese de Artigo: Grupo de Estudos em Métodos Digitais
Integrante: Luis Felipe
Data: 07/10/2016
Conceitos - Chave
• Topic Modeling – É um processo assistido por um software que usa estatística para apresentar temas, ou grupos de palavras que representem conjuntos textuais.
• Regressão Linear – Uma esquação estatística que tenta demonstrar a relação existente entre uma variável (dependente), e outras variáveis (independentes).
• High Dimension Space – É uma das referências existentes ao big data que é caracterizada pela grande quantidade de variáveis, e dimensões em que dados podem ser processados.
Contexto do Artigo
• O objeto de estudo do artigo é a história da literatura poética.
Foram reunidas amostras de textos entre 1820 e 1919, de 14 revistas e 53,200 volumes aleatórios.
• As amostras de texto foram analisadas utilizando o conceito de
espaço de alta dimensão, de forma supervisionada, em busca de prever quais textos foram revisados e quais não.
Desconfiança nos Dados
• “Para a maioria dos humanistas, “Big Data” não implica em um
conjunto particular de novos métodos, mas somente faz
referência a uma nublada e gigante versão de tudo que nos desconfiamos sobre os números” (Marche, 2012).
• “Por que não tínhamos modelos estatísticos em nossas
disciplinas anteriormente e agora temos, o que mudou que fez com que eles funcionem agora?” (Underwood, 2015)
Desconfiança nos Dados
• Com poucas variáveis era possível tornar os dados estruturados com métodos de modelagem.
• Ao analisar a história (história literária no caso), fica difícil
comparar os diferentes períodos existentes (devido aos
diferentes grupos de variáveis) e mesurá-los, então os métodos quantitativos tem provido grande apoio nesta área.
Por que os Dados Importam Agora?
• Existe uma nova abordagem que permite identificar as
variáveis dos diferentes gêneros de um texto sem que
sejam pré-definias pelo pesquisador. (Modelagem Estatística)
• E como resultado temos “sacos de palavras”.
• “Como escritores e leitores, experienciamos a escrita sequencial, e não como uma distribuição sob o lexical.
Por que os Dados Importam Agora?
• “Mas, na verdade, palavras são pequenas coisas
importantes, e um espaço de alta dimensão definido por
milhares delas nos dá espaço para rastrear complexas
fronteiras literárias que não apareceriam com um único termo.”
• Os conjuntos de palavras podem representar gêneros, tópicos, tom, e até mesmo o contexto social da escrita.
• Mas, para fazermos inferências com base nessa estrutura de
dados, é necessário compreender a ordem das palavras, de
forma que os pesquisadores precisem ter conceitos iniciais sobre seu problema de pesquisa.
Estratégias Supervisionadas e Não Supervisionadas
• Estratégias Não Supervisionadas: São estratégias que não recebem nenhuma interferência humana em seu processo, normalmente softwares processam dados e retornam um resultado.
• Estratégias Supervisionadas: São estratégias que permitem ao pesquisador inferir alguns entendimentos prévios e aplicar eles sobre o processamento dos dados. (O autor cita Machine Learning).
Estratégias Supervisionadas e Não Supervisionadas
• Inferir dados sobre estratégias não supervisionadas (Topic Modeling) pode deixar pesquisador inseguro, e talvez limitar uma conclusãomais concreta.
• Utilizar a estratégia supervisionada por vezes não aparece como uma área estudada na história literária, mas isso pode ser pelo falo da grande utilização do Topic Modeling e Estratégias não supervisionadas.
• “Modelos Preditivos Supervisionados nos permitem mapear o campo literário a partir de amostras de trabalhos de diferentes localizações sociais, e modelar as fronteiras entre eles.”
Um Modelo de Distinção Poética – 1820 a 1919
Hipótese: “O prestígio literário pode também ter sido governado por fronteiras sociais duráveis.”
A diferença das fontes utilizadas apresentam o conceito de fronteiras entre os textos revisados ou ignorados, que pode indicar fronteiras sociais.
“Mesmo se pudéssemos de alguma forma treinar um modelo para predizer “se um volume foi revisado” baseado somente no texto, o que poderia ser apontado?”
Um Modelo de Distinção Poética – 1820 a 1919
Distinção e Mudança Histórica
Este resultado não permite tirar muitas conclusões sobre a distinção entre volumes revisados e ignorados, mas o modelo utilizado em si já é algo significante a ser observado.
A utilização da linha preta que correlaciona a revisão dos modelos com o aumento de produção de acordo com o tempo, resultou em uma precisão maior, porém não pode ser indicado como uma relação causal.
Conclusão
O termo Big Data não vem sendo entendido apropriadamente pelos humanistas, por medo ou aversão, porém deve-se levar em consideração a quantidade de mudanças metodológicas existentese abertura de fronteiras.
Ao utilizar métodos supervisionados nesta área, é possível pressupor alguns contextos sociais, e aplicar métodos preditivos para agrupá-los, caracterizá-los e compará-los de maneira otimizada.