33
3 Decisões em tempos de Big Data
3.1 Os fundamentos da área de Big Data
Sendo necessária a adoção de uma abordagem sistêmica para a resolução
dos maiores problemas do nosso tempo (CAPRA & LUISI, 2014), de fato pode-se
observar hoje o nascimento e o desenvolvimento de áreas multidisciplinares do
conhecimento que tratam justamente do desafio inerente a se por em prática tal
abordagem. Na ampla área de análise de dados quantitativos e qualitativos, que
permeia praticamente todas as grandes disciplinas acadêmicas, a emergência dessa
necessidade é particularmente notável.
A área de conhecimento hoje denominada genericamente de Big Data
concentra os esforços de se extrair conhecimento de grandes quantidades, diversas
qualidades e intensa dinamicidade de dados, a fim de se permitir tal abordagem
sistêmica para a resolução de problemas. O problema desta pesquisa - a decisão
por uma alternativa de viagem realizada por um potencial viajante autônomo - é
claramente um problema que requer uma abordagem sistêmica por parte do
viajante. Para sua decisão, ele hoje se vale de interfaces com recursos
desenvolvidos especificamente para ajudá-lo e, em última instância, para fazê-lo
realizar uma compra.
Toda essa nova área do conhecimento vem sendo instrumentalizada e
delineada para que seja possível coletar, armazenar e analisar dados não apenas
em grande quantidade e velocidade, mas principalmente dados não estruturados,
“sujos”, altamente dinâmicos, não-lineares, sistêmicos, tal como os fenômenos
que se tentam compreender.
Vale ressaltar que a viabilização tecnológica dos recursos de Big Data foi
possível especialmente devido à participação massiva de comunidades open
source (de conhecimento aberto e sem fins lucrativos) e colaborações em grande
escala em todo o mundo. Na área de infraestrutura, por exemplo, iniciativas sem
fins lucrativos como o Apache Hadoop 2 viabilizaram o armazenamento e
processamento distribuído de dados tanto a empresas quanto a pesquisadores e
outras instituições inclusive do poder público, enquanto na área de análise e
modelagem matemática iniciativas igualmente sem fins lucrativos – tais como o 2 Disponível em: http://hadoop.apache.org/
34
projeto R3 – democratizaram sobremaneira o acesso a ferramentas de exploração,
tratamento e processamento analítico de dados através de bibliotecas de poderosos
algoritmos e modelos matemáticos.
Há, portanto, no DNA da área de Big Data que emerge, uma natureza
sistêmica devido à abordagem multidisciplinar e multicultural própria da
comunidade que a constrói. Esse fato explica a coerência dos recursos e
ferramentas desenvolvidos com a necessidade humana de decidir.
3.1.1 Dados e decisão
Como consolidado por Rowley (2007), a representação do relacionamento
entre dados, informação, conhecimento e sabedoria (das iniciais em inglês:
DIKW) na forma da pirâmide abaixo vem sendo há décadas reconhecida e
fortalecida como uma representação fundamental para a compreensão do processo
de geração de sabedoria e, por conseguinte, para o processo de decisão de um
indivíduo qualquer.
Segundo essa representação, informação, conhecimento e sabedoria –
matérias-primas essenciais para a tomada de decisões – requerem dados, mesmo
se o consumo desses dados for indireto ou tenha se dado em um tempo anterior ao
momento da decisão.
Figura 7: Pirâmide DIKW (do inglês: Data, Information, Knowledge, Wisdom)
O reconhecimento quase consensual pela comunidade acadêmica de tal
relação vem sendo um dos combustíveis para o desenvolvimento de áreas que
3 Disponível em: http://www.r-project.org/
SABEDORIA
CONHECIMENTO
INFORMAÇÃO
DADOS
35
estudam em maior detalhe os processos de transformação que ocorrem da base
para o topo da pirâmide. Nesta pesquisa, entretanto, assume-se uma transformação
não-linear de dados em decisões, segundo resultados de pesquisas
comportamentais e neurológicas, abstraindo-se assim eventuais etapas
intermediárias de processamento – como preconizam os modelos apresentados no
capítulo 2.
Vale notar que mesmo os modelos apresentados levam em conta
indiretamente as transformações intermediárias sugeridas pela pirâmide. Isso fica
evidente quando, por exemplo, alguns modelos assumem que a intuição advém de
experiências prévias, encrustadas em nosso sistema nervoso na forma de
conhecimentos – ou seja, informações interpretadas e armazenadas – e sabedorias
– ou seja, um espectro de conhecimentos agregados em torno de um tema de
expertise.
Abstraindo-se, portanto, os detalhes dos mecanismos de transformações
intermediárias, esta pesquisa aborda a relação direta entre a capacidade de decisão
do viajante e os recursos de processamento e representação aplicados diretamente
a um sistema complexo e vasto de dados brutos, como os define Ackoff (1989):
“Dados são crus. Eles simplesmente existem e têm nenhuma significância além da
sua existência (...). Eles podem existir em diversas formas, úteis ou não. Eles não
têm significado em si mesmos.”
3.1.2 Complexidade e decisão
Ao introduzir o livro “The Systems View of Life: A Unifying Vision” (“A
Perspectiva Sistêmica da Vida: Uma Visão Unificadora”, tradução nossa), em que
aborda a importância de uma abordagem sistêmica para a resolução de problemas,
Capra e Luisi (2014) discorrem sobre a magnitude do impacto da simplificação
para as maiores crises do nosso tempo: Conforme o século XXI se desdobra, torna-se mais e mais evidente que os maiores problemas do nosso tempo – energia, meio ambiente, mudança climática, segurança alimentar, segurança financeira – não podem ser entendidos isoladamente. São problemas sistêmicos, o que significa que são todos interconectados e interdependentes. Em última análise, esses problemas devem ser vistos como diferentes facetas de uma única crise, que é em grande parte uma crise de percepção. Ela deriva do fato de que a maioria das pessoas em nossa sociedade moderna, e especialmente nossas grandes instituições sociais, adotam conceitos de uma visão de mundo ultrapassada, uma percepção da realidade
36
inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3)
Decerto, historicamente, para lidar com a complexidade incerta e ruidosa, o
pensamento científico clássico se apoiou sobre três princípios simplificadores: a
“ordem”, a “separabilidade” e a “razão” (MORIN, 2000, p. 199) na busca de
teorias generalizadoras a partir de um paradigma reducionista e, por isso, isolando
interferências que hoje sabemos serem essenciais para a compreensão de sistemas
orgânicos.
Tal paradigma, apoiado sobre uma percepção simplificada de realidade,
quando aplicado ao mundo complexo, resultou em decisões notavelmente
catastróficas, que vão desde a estiagem completa do mar de Aral para a irrigação
de culturas de algodão na antiga URSS (MORIN, 2000, p. 208) até a morte
inadvertida de 209 civis em um vôo comercial pela marinha americana por engano
em 1988 (MCCABE, 2014, p. 10), entre tantos outros. Dos exemplos mais atuais,
é imperativo citar a crise financeira mundial de 2008, que trouxe efeitos
comparados aos da Segunda Guerra Mundial (CLAESSENS, 2006, p. 1), e que se
originou em análises reducionistas de títulos de dívidas, onde não se avaliavam
nem mesmo suas procedências e riscos.
E se por um lado é evidente a emergência da consciência dos perigos do
reducionismo analítico, por outro também é indiscutível a aceleração escalante da
disponibilização de dados que permitiriam uma análise muito mais holística de
problemas. Enquanto a IBM estima que geramos 2,5 quintilhões (1 seguido de 18
zeros) de bytes diariamente, e que mais de 90% de todos os dados foram criados
nos últimos dois anos (SILVER, 2012), o McKinsey Global Institute estima em
40% o crescimento anual da geração de dados no mundo enquanto,
comparativamente, o custo de um disco para armazenar toda a música produzida
mundialmente até 2011 era de apenas 600 dólares. (MANYIKA, 2011) A
crescente valorização da análise sistêmica aliada à vasta disponibilidade de dados
e à viabilização tecnológica dessa forma de análise complexa – com o uso de
ferramentas de aprendizado de máquina e outros modelos matemáticos – gerou
um movimento acelerado para o desenvolvimento de metodologias analíticas para
grandes volumes, velocidades e variedade de dados.
37
Do ponto de vista do consumidor, é notável ainda o perigo à saúde que o
convívio com esse excesso pode produzir. Hemp (2009) argumenta, com base em
resultados de pesquisas relacionadas, que “o estresse de não ser capaz de
processar informações tão rapidamente quanto elas chegam – combinado com a
expectativa pessoal e social de que, por exemplo, você vai responder cada uma
das mensagens de e-mail que receber – pode exaurir e desmoralizar” um
indivíduo. Segundo o autor, o único remédio para indivíduos sobreviverem a uma
“morte por sobrecarga de informações”, está na adoção de uma mudança profunda
de mentalidade e comportamento – mais flexível, que permita ignorar
informações conforme o contexto –, e de uso da tecnologia para acesso a
informações – com o uso de ferramentas online que auxiliem a curadoria da
informação. (HEMP, 2009, pp. 3-9)
Há, portanto, um movimento convergente de adoção de ferramentas que
combinem a capacidade computacional e a capacidade perceptiva de que
dispomos para que seja possível não apenas o convívio mas também a cognição e
o usufruto dos dados disponíveis. Não obstante, enquanto as soluções
tecnológicas para coleta e armazenamento de dados vão sendo desenvolvidas em
ritmo acelerado, tal etapa de análise conjugada (computacional e perceptiva) para
cognição sistêmica dos dados – e, portanto, dos eventos que esses dados
representam – requer uma abordagem muito mais dinâmica e complexa.
Na tentativa de criar uma abordagem aplicável à inteligência da
complexidade, Morin (2000, pp. 208-212) sugere sete princípios gerais que se
sobrepõem e se reforçam:
1. O princípio sistêmico ou organizacional: que liga o conhecimento das
partes ao conhecimento do todo, que se opõe à ideia reducionista, e que
admite que o todo é diferente da soma das partes, podendo ser mais ou
menos, inclusive simultaneamente.
2. O princípio “hologramático”: que considera que não somente a parte
está no todo, mas também que o todo está codificado na parte. O
exemplo mais claro deste princípio é a codificação do DNA nas células
(todo inscrito na parte) enquanto as células compõem o todo.
3. O princípio do círculo retroativo: que rompe o princípio da
causalidade linear e permite a compreensão de mecanismos de auto-
regulagem de sistemas através de múltiplas retroações ou feedback.
38
4. O princípio do círculo recursivo: um círculo gerador no qual os
produtos e os efeitos são eles próprios produtores e causadores daquilo
que os produz. Nesta pesquisa, o estudo de tendências de mercado
ilustra um exemplo deste princípio, uma vez que tendências de
comportamento de consumo são produzidas por padrões de
comportamentos e reforçam esses mesmos padrões de comportamentos
simultaneamente.
5. O princípio da auto-eco-organização: que explicita a dialogia
autonomia-dependência inerente aos sistemas orgânicos que são
igualmente autônomos em si mas dependentes de fatores em seus
entornos.
6. O princípio dialógico: que une dois princípios ou noções que devem
excluir-se um ao outro, mas são indissociáveis numa mesma realidade.
Vale ressaltar que estes próprios princípios já são exemplos dessa
dialogia intrínseca de sistemas complexos.
7. O princípio da reintrodução do conhecimento em todo
conhecimento: que torna presente a problemática cognitiva central em
que, da percepção à teoria científica, “todo conhecimento é uma
reconstrução/tradução por um espírito/cérebro numa cultura e num
tempo determinados.”
De fato, essa análise tão rica de perspectivas acaba por implicar não apenas
na cognição da complexidade, mas em um grande impacto sobre o potencial
criativo do analista. Segundo especialistas em criatividade (Ferguson, 2012;
Ridley, 2010; Johnson, 2010) e em interfaces para estímulo à inovação
(Shneiderman, 2000), o poder da associação livre de ideias para a geração
espontânea de novas ideias é inquestionável, e é justamente esse poder que passa a
ser ativado quando tantas perspectivas tão distintas – até mesmo aparentemente
conflitantes – sobre o mesmo objeto de análise são incluídas. O próprio método de
Brainstorming, tão amplamente utilizado para ideação, se baseia explicitamente
nesse poder. Ben Shneiderman (2000), especialmente, ao caracterizar “interfaces
para suporte à inovação”, é enfático ao elencar “visualização de dados e
processos” e “associações livres entre dados e informações” como ações
essenciais que tais interfaces devem facilitar.
39
Portanto, a capacidade de cognição sistêmica traz consigo um potencial
inerente de ativação da capacidade criadora, e a percepção dessas vantagens
estimularam, no decorrer das primeiras décadas do século XX, a adoção do
“pensamento sistêmico” em diversas áreas da ciência ocidental. (CAPRA &
LUISI, 2014, p. 63) Segundo Capra e Luisi (2014), a Biologia foi a precursora
dessa nova forma de pensar – quando passou a estudar o comportamento de
organismos como um todo –, seguida pelo desenvolvimento de áreas com
abordagens igualmente sistêmicas tais como a Psicologia Gestalt, a Ecologia e a
Física Quântica. O que essas áreas do conhecimento têm em comum é justamente
a necessidade da adoção de um novo conceito de causalidade, desta vez não-
linear, que pressupõe uma forma de pensar contextual em vez de analítica, que
inverte a noção de que o estudo das partes pode ser generalizado para o todo para
a noção de que somente o estudo da organização do todo pode elucidar claramente
as propriedades das partes.
Capra e Luisi (2014) sumarizam ainda a transição de um pensamento
mecanicista para um pensamento sistêmico enfatizando oito características
principais desse movimento:
• Das partes para o todo: As propriedades das partes só podem ser
compreendidas através do contexto, da conectividade e dos padrões de
relacionamento organizacionais do todo. Quando um sistema é
dissecado, ele perde as propriedades sistêmicas que o definem.
• Multidisciplinaridade inerente: Ao se considerar que todos os
sistemas orgânicos, dos biológicos aos empresariais, compartilham de
propriedades e princípios organizacionais comuns, o pensamento
sistêmico pode integrar as partes e diferentes granularidades do sistema.
Contudo, para se emigrar da análise unidisciplinar tradicional a uma
capaz de integrar tantos diferentes escopos, faz-se necessária a
integração de diversas disciplinas, respectivas à cada parte e
granularidade.
• De objeto para relações: O que se chama de “parte” é, na realidade,
um padrão que se repete em diversas granularidades: “células são partes
de tecidos, tecidos são partes de órgãos, órgãos são partes de
organismos [...] que são partes de ecossistemas e sistemas sociais.”
Sendo assim, em vez de inferir relações entre objetos deve-se passar a
40
ver o próprio objeto como uma rede de relações: “as relações são
primárias [...] os ‘objetos’ são secundários.” (CAPRA & LUISI, 2014,
p. 80)
• De medição para mapeamento: Essa mudança radical de foco dos
objetos para as relações, descrita no item acima, pode parecer pouco
intuitiva para o indivíduo do mundo ocidental, já que a ciência
ocidental é amplamente construída sobre a comparação de medições, e
relações são muito difíceis de serem medidas: relações são mais
passíveis de serem mapeadas. Quando mapeadas as relações de um
sistema, o estudo de um fenômeno passa a ser relacionado à busca de
padrões tais como ciclos, fronteiras, redes e clusters (sub-conjuntos de
amostras que compartilham de propriedades muito semelhantes). Em
visualização de dados geo-localizados, por ser uma aplicação que
acomoda o mapeamento mais intuitivamente, há muito tempo essa
abordagem é bastante empregada.
• De quantidades para qualidades: O mapeamento de relações para o
estudo de padrões não é uma tarefa majoritariamente quantitativa.
Segundo Capra e Luisi, a matemática da complexidade vem se
desenvolvendo principalmente com o emprego de ferramentas visuais,
que são mais efetivas para a investigação de padrões de relacionamento.
Essa análise visual de padrões é uma analise qualitativa e naturalmente
é uma das tendências que motivaram mais profundamente esta
pesquisa.
• De estruturas para processos: A organicidade de sistemas vivos,
como o que está em estudo nesta pesquisa por exemplo, não permite
reduzi-los a uma configuração de componentes que compõem um todo.
Para evitar essa redução e permitir a compreensão sistêmica, é
necessário traduzir as estruturas de componentes como um conjunto de
processos comuns e, estes sim, recorrentes e replicáveis dentro do todo.
• De ciência objetiva para ciência epistêmica: Ao se adotar uma
abordagem sistêmica, é inevitável que se perca a objetividade, uma vez
que não é mais possível que haja a separação clara entre o investigador
(observador) e o que é investigado (objeto). “A ciência sistêmica, em
41
contraste, implica que a epistemologia – o entendimento do processo de
construção de conhecimento – deve ser incluída explicitamente na
descrição do fenômeno” (p. 81), uma vez que “o que observamos não é
a própria natureza, mas a natureza exposta ao nosso método de
questionamento.” (HEISENBERG, 1958, p.58 in CAPRA & LUISI
p.82)
• De certeza Cartesiana para conhecimento aproximado: Em suma, se
“a natureza é vista como uma rede interconectada” – virtualmente sem
limites – “de relações, em que a identificação de padrões específicos
[...] depende do observador humano e do processo de construção de
conhecimento”, a noção de conhecimento aproximado é crucial para o
delineamento de uma ciência sistêmica. (p. 82) Esta mudança de
paradigma requer, em verdade, uma mudança de percepção. Em vez de
se buscar uma certeza sobre um recorte mínimo que praticamente não
reproduz a realidade, busca-se, conscientemente, um conhecimento
aproximado sobre um grande escopo, que pode informar muito mais
sobre a realidade de suas relações e processos componentes.
Tanto os princípios de Morin (2000) quanto o paradigma emergente descrito
por Capra e Luisi (2014) podem ser percebidos nos recursos mais atuais de Big
Data, que buscam justamente auxiliar na compreensão de fenômenos sistêmicos e
complexos. De forma conceitual, esses recursos podem ser vistos como a
exploração prática daqueles princípios para endereçar este novo paradigma:
enquanto a área de Ciência de Dados oferece uma abordagem automatizadora de
etapas da decisão através do processamento computacional de dados, a área de
Visualização de Dados explora novas formas de representação de dados que
favoreçam um processamento visual mais eficiente dos dados.
3.2 Ciência de dados para suporte à decisão
A área de Ciência de Dados, em franco desenvolvimento especialmente
desde meados de 2010, vem sendo amplamente discutida tanto na indústria quanto
nos meios acadêmicos, cada viés com preocupações bastante distintas e
42
complementares. Na academia, matemáticos, estatísticos, programadores e
cientistas buscam tecnologias que consigam lidar com a complexidade crescente
que a vasta disponibilidade de dados proporciona, quase sempre optando por uma
abordagem de código aberto para desenvolvimento em comunidade; na indústria,
a preocupação desses cientistas está voltada para a aplicação “em produção”
dessas novas tecnologias, que estão, portanto, sendo constantemente postas à
prova.
A partir desses ciclos acelerados de destruição criadora (SCHUMPETER,
1942), tecnologias, práticas e aplicações vêm se consolidando, ainda que seja
consensual a percepção de que as tecnologias para armazenamento, transferência
e processamento desses dados ainda precisam amadurecer. Em contrapartida, há
certas aplicações para Ciência de Dados que já se encontram em um estágio muito
mais maduro, como será detalhado a seguir.
Assim, como confirma a tendência de interesse de usuários da ferramenta de
busca da Google (Figura 8), a área de Ciência de Dados vem acompanhando –
mesmo que com certo atraso – a tendência de interesse por Big Data,
impulsionada por demandas da indústria que financiam e facilitam pesquisas que
viabilizem o tratamento de dados em grande volumes, variedades e velocidades, e
permitam a produção de vantagens competitivas a partir de insights diferenciados
e automatizações de conteúdo para customização em massa de experiências
digitais.
Figura 8: Tendências de interesse por buscas por “data science” e “big data”
(GOOGLE, 2015)
43
As aplicações para Ciência de Dados na indústria vêm, desta forma, se
consolidando em duas frentes principais, condizentes com o desafio de
compreensão do mundo complexo a partir de dados descrito acima: a geração de
insights e a customização de experiência.
3.2.1 Geração de insights
Para a geração de inteligência capaz de prever tendências, comportamentos
e anomalias, utiliza-se fartamente os princípios recursivos, retroativos e de
reintrodução de conhecimento sobre o todo de Morin na forma de algoritmos de
aprendizado de máquina. Esses algoritmos são capazes de produzir um
aprendizado contínuo sobre as relações intrínsecas entre muitos fatores sistêmicos
(traduzidos na forma de dados). De forma simplificada, tal aprendizado é
armazenado na forma de relações probabilísticas ou determinísticas de causa e
efeito em rede dentre todos os fatores.
Sendo assim, os recursos para geração de insights mais utilizados e
desejados por empresas digitais são:
• Cálculo de índices inteligentes: Trata-se da redução de diversos
atributos a um único número a partir do cálculo de índices e indicadores
capazes de sinalizar a ocorrência de anomalias, problemas ou
oportunidades de melhoria em tempo quase real.
• Curadoria inteligente de dados: A partir de características
demográficas ou comportamentais do usuário, algoritmos decidem quais
dados em quais formatos devem ser apresentados para esse usuário.
Esses mesmos algoritmos são usados para a compreensão de segmentos
de mercado e padrões de comportamento.
• Registro (log) de dados históricos: Trata-se simplesmente da
manutenção constante do registro de dados históricos de navegação,
pesquisa e preferências pessoais. Hoje já é possível – apesar de caro –
coletar e armazenar praticamente cada interação de cada usuário com
uma interface. Esses dados, quando disponibilizados ao usuário, além de
facilitarem a geração de insights, também suportam sua decisão.
44
3.2.2 Customização de experiência
Recursos mais avançados utilizam ainda o mesmo aprendizado, integrado
em tempo real a interfaces digitais, para a automatização de conteúdos e
experiências. Estes recursos representam o estado-da-arte da área de Ciência de
Dados e dependem ainda de soluções incompletas, em desenvolvimento.
Os recursos para customização da experiência do usuário mais utilizados e
desejados por empresas digitais são:
• Recomendação preditiva: A partir de dados históricos de consumo por
todos os usuários, algoritmos são capazes de inferir, no momento da
navegação, o que cada usuário, novo ou frequente, tem maior propensão
a querer consumir.
• Integrações com outras fontes de dados: Ao trazer dados
personalizados de outras fontes, como aqueles de redes sociais
associados ao perfil do usuário, a experiência pode ser customizada de
forma a incluir a opinião de amigos, familiares ou outras entidades de
confiança. Outras integrações usuais são aquelas com fontes de notícias
e bancos de dados de referência. O uso deste recurso visa reduzir a
percepção de riscos.
3.3 Visualização de dados para suporte à decisão
Para McCabe (2014) e Capra e Luisi (2014), há uma crise de percepção que
felizmente - ainda que lentamente - nos últimos 30 anos vem sendo substituída em
diversos campos avançados do saber em favor de um pensamento que comporta a
sistematicidade do mundo. (CAPRA & LUISI, 2014) Para os três autores, esse
pensamento deve ser mais qualitativo, mas é alimentado por informações
qualitativas e quantitativas, indiscriminadamente. Enquanto McCabe enfatiza o
poder dos sentidos para perceber informações sistêmicas, Capra e Luisi avaliam
que a “nova matemática da complexidade é a matemática de padrões visuais”,
seguida da “análise qualitativa” desses padrões (CAPRA & LUISI, 2014, p. 81).
45
Com opinião semelhante, Manovich (1995) já argumentava anos antes que a
sociedade pós-industrial em que vivemos exige uma mudança na forma como
consumimos informação, favorecendo “o processamento visual e mental de
informações.”
Para se permitir essa nova forma de se perceber informações, diversos
campos do saber têm desenvolvido técnicas e tecnologias absolutamente
impensáveis há até poucos anos (CAPRA & LUISI, 2014), inclusive para o design
de representações visuais de informações quantitativas. (YAU, 2014) De fato,
como mostram as evidências, a visualização de dados ilustra claramente o abuso
do reducionismo, assim como o movimento de transição para uma nova
abordagem mais sistêmica. Também desde 2009, a busca crescente por novas
formas visuais para compreensão de dados evidencia uma maior consciência da
importância de se incluir mais complexidade para uma melhor compreensão do
mundo em que vivemos: “um universo onde a ordem não é absoluta, [onde] a
separabilidade é limitada, onde a lógica comporta buracos.” (MORIN, 2000)
Apenas bem mais recentemente, contudo, em função da necessidade
imperativa de representação de dados em volume, velocidade e variedades
anteriormente inimagináveis para a compreensão de sistemas cada vez mais
mensuráveis e interconectados, percebemos a maior gravidade do desafio, que
estimulou e foi estimulado pelo desenvolvimento acelerado de tecnologias para a
interatividade de interfaces de dados, para a representação de dados em alta
definição e para a colaboração de interpretações. Tais tecnologias são
imprescindíveis para o processo de percepção e cognição, uma vez que permitem
e exploração dos dados por etapas e de acordo com a necessidade do visualizador,
bem como a troca de opiniões e percepções. (CHOU, 2003)
Assim, hoje, quando dispomos de tecnologia capaz de acessar e representar
dados com muitas dimensões interativamente, novos autores e pesquisadores
amplificam o desafio da abstração para a compreensão de dados
multidimensionais mais complexos. Yau (2013), por exemplo, enfatiza que o dado
em si já é uma abstração simplificada da realidade e que, sendo a visualização
uma abstração dos dados, ela deve ser vista como uma abstração da abstração do
real.
46
3.3.1 Princípios da representação de dados
Contrastando com a demanda emergente e urgente por formas mais visuais
e sistêmicas para consumo de dados – segundo Tufte (2001), ainda em 2001, em
torno de 2 trilhões (2 x 1012) de imagens de gráficos estatísticos eram impressos
anualmente em todo o mundo –, as pesquisas sobre visualização de dados ainda
são recentes e incipientes. Apesar dos trabalhos seminais para uma linguagem
visual universal para comunicação de informações, liderados por Otto Neurath
ainda na década de 1930 (NEURATH, 1936), apenas por volta da década de 1970,
com a publicação de “Semiologie Graphique” por Jacques Bertin (1967) e
“Exploratory Data Analysis” por John Tukey (1977), as bases para uma teoria
para a representação visual de dados quantitativos começou a ser consolidada.
Enquanto Bertin partira de fundamentos da cartografia e da semiologia para
sugerir representações que privilegiassem a percepção do visualizador (BERTIN,
1967; ARBEX, 2013), Tukey se apoiara em princípios estatísticos e matemáticos
e concentrou-se em processos visuais para exploração investigativa de dados,
processo esse que denominou “análise exploratória de dados” (TUKEY, 1977). A
Bertin e Tukey seguiram os trabalhos pioneiros de Tufte (1983-2001) e Cleveland
(1984, 1985).
Notavelmente, Tufte (1983-2001) foi responsável pela consolidação destes
trabalhos pioneiros para o desenvolvimento de princípios que até hoje permeiam a
prática da representação de dados, seja a infografia estática ou a visualização
interativa de dados, apesar da ausência de interatividade da época. Seus princípios
delineiam principalmente uma abordagem para a representação clara e imparcial
de dados. Para isso se valeu de uma extensa pesquisa do uso de representações de
informações quantitativas para a comunicação de dados, desde a antiguidade,
enquanto Cleveland (1985) aprofundou tais princípios abordando aspectos de
percepção e cognição empiricamente.
Segundo Tufte (2001), o desafio da visualização de dados para a informação
está na dificuldade de se representar muitas dimensões sobre uma superfície
bidimensional, como o papel ou, analogamente, o monitor. Nesse âmbito, ele
sugere cinco táticas principais para escapar das limitações da mídia plana:
47
• Leituras micro/macro: representações que permitem o zoom in/out
permitem a inferência de diferentes informações a partir de diferentes
perspectivas.
Figura 9: Exemplo de leitura micro/macro (TUFTE, 2001)
• Estratificação (em camadas) e separação: Esta tática esclarece
relações em camadas ou espaços diferentes para maior clareza de grupos
de informações que devem ser lidos em conjunto.
Figura 10: Exemplo de estratificação e separação (TUFTE, 2001)
• Pequenos múltiplos: A repetição de elementos semelhantes permite a
visualização das diferenças com mais clareza. Hoje, com a facilidade de
construção de animações e de inclusão de interatividade, o uso de
pequenos múltiplos está praticamente limitado a mídias impressas.
48
Figura 11: Exemplo de pequenos múltiplos (TUFTE, 2001)
• Cor e anotações: O uso de cores e anotações é essencial para explicitar
definições e codificar novas dimensões.
• Narrativas de espaço e tempo: Destacando espaço e tempo das demais
dimensões é possível construir narrativas poderosas. Isso se deve ao fato
de essas quatro dimensões serem muito familiares a qualquer pessoa,
pois somos obrigados a viver de acordo com elas.
Figura 12: Exemplo de narrativa de espaço e tempo (TUFTE, 2001)
49
Desde a pesquisa de Tufte, como citado, pôde-se observar avanços
espantosos em tecnologia da informação e em computação gráfica que
viabilizaram a construção de visualizações dinâmicas, interativas, em tempo real e
em alta definição. Assim, enquanto os princípios de Tufte continuam
incrivelmente atuais, é imprescindível interpretá-los à luz dessas novas
tecnologias, especialmente com relação à viabilidade da interatividade, essencial à
vinculação pessoal do visualizador aos dados e ao aprimoramento da cognição
(CHOU, 2003), e de altíssimas definições, que permite representar muitas
dimensões simultaneamente.
De fato, com a ascensão da relevância do tópico, as ferramentas
tecnológicas para ativar esse novo interesse por dados de diversas fontes seguem
em franco desenvolvimento. A democratização de ferramentas para análise visual
é evidente com a popularização sem precedentes de softwares e aplicativos
específicos à área (como o Tableau4, o Spotifire5 e o R), e de linguagens e
bibliotecas específicas para visualização de dados (como o Google Charts6, o
Processing7 e o D3.js8) – além dos já consagrados softwares de processamento de
planilhas e tabelas de dados (como o Microsoft Excel9) e de design e diagramação
de informações (como o Adobe Creative Suite10). Esse fato é corroborado por
Silva (2001), que lista ainda websites geradores de conteúdo, empresas e eventos
especializados que se tornaram referência nos últimos 4 anos.
Apesar da democratização das ferramentas, contudo, a dificuldade inerente
da criação de visualizações interativas de dados, especialmente em se tratando de
dados multidimensionais de sistemas complexos, interdependentes, se dá
principalmente pela profunda interdisciplinaridade dessa temática ainda em
amadurecimento, que envolve matemática computacional, estatística, ciência da
informação, design, arte e psicologia – entre outras disciplinas mais específicas ao
propósito da visualização. Horn (1999) descreve a situação do profissional de
4 Disponível em: http://www.tableausoftware.com/ 5 Disponível em: http://spotfire.tibco.com/ 6 Disponível em: https://developers.google.com/chart/ 7 Disponível em: http://processing.org/ 8 Disponível em: http://d3js.org/ 9 Disponível em: http://office.microsoft.com/en-us/excel/ 10 Disponível em: http://www.adobe.com/br/products/cs6.html
50
Design de Informação no fim do século XX, quando a disciplina começava a se
definir:
O Design de Informação ainda não é uma profissão completamente
integrada. Seus praticantes têm visões bastante diferentes da profissão – até
mesmo diferentes nomes para ela. Em jornais e revistas chama-se infográfico; em
administração, chamam-na apresentação gráfica ou business graphics; e nas
ciências é conhecido por visualização científica. Engenheiros da Computação
chamam-na design de interface [...]. Designers gráficos a chamam simplesmente
de design. Enquanto esses praticantes sem dúvida têm interesses distintos que
possam justificar os nomes diferentes, muitas das suas preocupações e práticas
principais são similares. (HORN, 1999, pp. 16-17)
E desde então a multidisciplinaridade vem se aprofundando para caminhos
menos relacionados à mera comunicação e que tirem proveito de todo o potencial
criativo e de solução de problemas que a análise visual permite, como, por
exemplo, ao se tornar ferramenta de análise exploratória essencial a times de Big
Data.
3.3.2 Percepção Visual e Interatividade
Entre 1940 e 1960, a sociedade industrial – até então caracterizada pelo foco
exclusivo em temáticas referentes basicamente à eficiência produtiva – passou a
dedicar mais atenção a conceitos relativos à eficiência de um novo instrumento de
trabalho: a mente. (MANOVICH, 1995)
Nos anos 1950 a Psicologia Cognitiva começou a deslocar o então
dominante behaviorismo. Desde então, o que está sob o escrutínio de psicólogos
são funções mentais: percepção, atenção, compreensão de texto, memória, e
resolução de problemas. (...) A ascensão das ciências cognitivas é um aspecto da
maior mudança da sociedade industrial para a pós-industrial e a correspondente
nova imagem de trabalho e diversão: o processamento visual e mental de
informações ao invés de atividade corporal. (MANOVICH, 1995, p. 7)
Nesse sentido, enquanto Treisman (1980) realizou experimentos para o
estudo do que denominou pre-attentive processing (Figura 13), ou seja, uma etapa
primitiva do mecanismo de processamento visual – que inconsciente e
51
constantemente absorve informações do ambiente – Cleveland (1985) seguiu
nessa mesma linha e expandiu essa noção ao tentar elencar elementos visuais
segundo sua capacidade de estímulo à percepção (Figura 14), embora o próprio
autor tenha sugerido as limitações de sua generalização.
Figura 13: Contrastes visuais de processamento anterior à atenção (pre-attentive
processing) (TREISMAN, 1980)
Figura 14: Contrastes visuais para a representação de dados quantitaivos,
ordenados do mais perceptivo ao menos perceptivo (CLEVELAND, 1985)
Nos últimos 20 anos, a consagração da internet como meio principal para
aquisição de dados e informações não apenas vem reforçando a emergência dessa
tendência ao entendimento do funcionamento do nosso processamento visual, mas
52
também fez da própria internet uma plataforma para novos experimentos. As
limitações desse canal – bidimensional, com qualidade e acessibilidade variáveis,
e inicialmente capaz de estimular apenas a visão e a audição do usuário –
demandaram o aprofundamento de pesquisas sobre percepção visual e questões
tecnológicas inerentes ao desenvolvimento de uma linguagem visual mais efetiva
para diversos fins, dentre eles comunicação, colaboração e marketing. Essa
preocupação já era central na pergunta de abertura de Tufte para “Envisioning
Information”: “O mundo é complexo, dinâmico, multidimensional; o papel é
estático, plano. Como poderemos representar este rico mundo visual de
experiências e medições sobre um mero espaço plano?” (TUFTE, 1990, p. 16)
Nesse contexto, trocando o papel pela tela, o uso de elementos interativos
para o aprimoramento da cognição tem se mostrado uma prática viável e eficaz,
desde que cuidadosamente projetados para o público, a tecnologia e a interface
gráfica adequados (CHOU, 2003). Segundo Chou, funções interativas são
necessárias ou mesmo indispensáveis para a facilitação de interações cognitivas.
Sweller (1994) enfatiza assim a importância da interatividade para o aprendizado:
Uma carga cognitiva intrínseca é caracterizada em termos da interatividade
dos elementos. Os elementos contidos na maioria dos esquemas [representações
visuais] devem ser compreendidos simultaneamente porque eles interagem e essa
interação que é crítica. (SWELLER, 1994, p. 45)
Shneiderman, por sua vez, ainda em 1996, profetiza sobre o desafio que
vivemos hoje e sumariza a oportunidade:
Designers estão apenas descobrindo como usar telas coloridas de alta
resolução para apresentar grandes volumes de informação de formas ordenadas e
controladas pelo usuário. Psicólogos cognitivos, estatísticos e designers gráficos
(...) oferecem orientação valiosa sobre a apresentação estática de informações,
mas a oportunidade para displays dinâmicos levam designers de interfaces para
muito além do conhecimento atual. (SHNEIDERMAN, 1996, p. 2)