Os Usos Literários do Espaço de Alta Dimensão

Os usos literários do espaço de alta dimensãoThe literary uses of high-dimensional

space – Ted Underwood

Apresentação Síntese de Artigo: Grupo de Estudos em Métodos Digitais

Integrante: Luis Felipe

Data: 07/10/2016

Conceitos - Chave

• Topic Modeling – É um processo assistido por um software que usa estatística para apresentar temas, ou grupos de palavras que representem conjuntos textuais.

• Regressão Linear – Uma esquação estatística que tenta demonstrar a relação existente entre uma variável (dependente), e outras variáveis (independentes).

• High Dimension Space – É uma das referências existentes ao big data que é caracterizada pela grande quantidade de variáveis, e dimensões em que dados podem ser processados.

Contexto do Artigo

• O objeto de estudo do artigo é a história da literatura poética.

Foram reunidas amostras de textos entre 1820 e 1919, de 14 revistas e 53,200 volumes aleatórios.

• As amostras de texto foram analisadas utilizando o conceito de

espaço de alta dimensão, de forma supervisionada, em busca de prever quais textos foram revisados e quais não.

Desconfiança nos Dados

• “Para a maioria dos humanistas, “Big Data” não implica em um

conjunto particular de novos métodos, mas somente faz

referência a uma nublada e gigante versão de tudo que nos desconfiamos sobre os números” (Marche, 2012).

• “Por que não tínhamos modelos estatísticos em nossas

disciplinas anteriormente e agora temos, o que mudou que fez com que eles funcionem agora?” (Underwood, 2015)

Desconfiança nos Dados

• Com poucas variáveis era possível tornar os dados estruturados com métodos de modelagem.

• Ao analisar a história (história literária no caso), fica difícil

comparar os diferentes períodos existentes (devido aos

diferentes grupos de variáveis) e mesurá-los, então os métodos quantitativos tem provido grande apoio nesta área.

Por que os Dados Importam Agora?

• Existe uma nova abordagem que permite identificar as

variáveis dos diferentes gêneros de um texto sem que

sejam pré-definias pelo pesquisador. (Modelagem Estatística)

• E como resultado temos “sacos de palavras”.

• “Como escritores e leitores, experienciamos a escrita sequencial, e não como uma distribuição sob o lexical.

Por que os Dados Importam Agora?

• “Mas, na verdade, palavras são pequenas coisas

importantes, e um espaço de alta dimensão definido por

milhares delas nos dá espaço para rastrear complexas

fronteiras literárias que não apareceriam com um único termo.”

• Os conjuntos de palavras podem representar gêneros, tópicos, tom, e até mesmo o contexto social da escrita.

• Mas, para fazermos inferências com base nessa estrutura de

dados, é necessário compreender a ordem das palavras, de

forma que os pesquisadores precisem ter conceitos iniciais sobre seu problema de pesquisa.

Estratégias Supervisionadas e Não Supervisionadas

• Estratégias Não Supervisionadas: São estratégias que não recebem nenhuma interferência humana em seu processo, normalmente softwares processam dados e retornam um resultado.

• Estratégias Supervisionadas: São estratégias que permitem ao pesquisador inferir alguns entendimentos prévios e aplicar eles sobre o processamento dos dados. (O autor cita Machine Learning).

Estratégias Supervisionadas e Não Supervisionadas

• Inferir dados sobre estratégias não supervisionadas (Topic Modeling) pode deixar pesquisador inseguro, e talvez limitar uma conclusãomais concreta.

• Utilizar a estratégia supervisionada por vezes não aparece como uma área estudada na história literária, mas isso pode ser pelo falo da grande utilização do Topic Modeling e Estratégias não supervisionadas.

• “Modelos Preditivos Supervisionados nos permitem mapear o campo literário a partir de amostras de trabalhos de diferentes localizações sociais, e modelar as fronteiras entre eles.”

Um Modelo de Distinção Poética – 1820 a 1919

Hipótese: “O prestígio literário pode também ter sido governado por fronteiras sociais duráveis.”

A diferença das fontes utilizadas apresentam o conceito de fronteiras entre os textos revisados ou ignorados, que pode indicar fronteiras sociais.

“Mesmo se pudéssemos de alguma forma treinar um modelo para predizer “se um volume foi revisado” baseado somente no texto, o que poderia ser apontado?”

Um Modelo de Distinção Poética – 1820 a 1919

Distinção e Mudança Histórica

Este resultado não permite tirar muitas conclusões sobre a distinção entre volumes revisados e ignorados, mas o modelo utilizado em si já é algo significante a ser observado.

A utilização da linha preta que correlaciona a revisão dos modelos com o aumento de produção de acordo com o tempo, resultou em uma precisão maior, porém não pode ser indicado como uma relação causal.

Conclusão

O termo Big Data não vem sendo entendido apropriadamente pelos humanistas, por medo ou aversão, porém deve-se levar em consideração a quantidade de mudanças metodológicas existentese abertura de fronteiras.

Ao utilizar métodos supervisionados nesta área, é possível pressupor alguns contextos sociais, e aplicar métodos preditivos para agrupá-los, caracterizá-los e compará-los de maneira otimizada.

Education

Os Usos Literários do Espaço de Alta Dimensão