4
5/21/2018 big-data-slidepdf.com http://slidepdf.com/reader/full/big-data-561a9d0d9e436 1/4 tomada de decisões mais consistentes. Um bom exemplo é o banco de dados sobre acidentes de trabalho que está armaze- nado num laboratório no Departamento de Ciências da Computação e Estatística da Unesp de São José do Rio Preto. Os servidores ali guardam os registros de 100 mil acidentes de trabalho ocorridos na região, incluindo nome, idade e sexo dos acidentados, parte do corpo atingida, local do acidente e causas. Quem cuida deste projeto é o pesquisador Carlos Va- lêncio, chefe do departamento. Para prospectar essas informações, Valêncio criou uma série de complexos algoritmos computacionais. Estes algorit- mos são capazes de preparar e cruzar os dados disponíveis, e apresentar os resul- tados sob novas formas, que podem trazer perspectivas inéditas para os gestores daquele setor. Foi graças a este recurso, por exemplo, que a prefeitura da cidade ficou sabendo que 20% dos acidentes de trabalho notificados em 2012 aconteceram enquanto o paciente estava se deslocando de motocicleta. E, entre os acidentados, um número considerável era de meno- res de idade. “Todo mundo sabe que menores não podem dirigir”, diz Valêncio. “A prefei- tura, que não tinha como saber dessa tendência sem nosso algoritmo, teve que tomar uma atitude imediatamente”, diz o pesquisador. Os bancos de dados têm importância crucial para a ciência da computação desde o surgimento das primeiras má- quinas, ainda nos anos 1950. Nas últi- mas décadas, no entanto, sua relevância fora da academia só tem aumentado. O motivo é a sempre crescente capacidade de armazenar digitalmente informações sobre praticamente todos os aspectos da vida moderna. O advento da Internet tornou este ce- nário ainda mais complexo, ao permitir que um único usuário possa acessar, si- multaneamente, diversos reservatórios de informações espalhados planeta. Assim, a ciência da c passou a ter que lidar não ma mas sim com múltiplos banc por vez. E ao mesmo tempo realidade é chamada de Big No Brasil um dos focos d em Big Data é o Grupo Banc (GBD), do qual Carlos Valênc nador. “Hoje tudo está interli só pode ter uma análise mais comportamentos e padrões s de varrer as várias fontes de plica Valêncio. “Isso inclui, p as redes sociais. Nosso traba sempre na fronteira do conh diz o pesquisador. Acidentados e tabelados Entre todos os bancos de da volvidos pelo GBD, o que já r informações úteis sobre o m o Sistema de Informação de Acidentes do Trabalho (SIVA TEXTO Guilherme Rosa Q uer saber qual a fórmula do sucesso da seleção de futebol alemã para vencer a Copa do Mundo? Bem, combine planejamento de longo prazo, disciplina, bons jogadores e... muita informação sobre o que acon- tece em campo. Desde março, o técnico alemão, Joachim Low, dispunha de um novo sistema de armazenamento e de pro- cessamento de dados que capturava com oito câmeras todos os lances dos treinos e jogos, e os convertia em estatísticas e imagens que ele podia acessar via tablet ou celular e assim fazer opções táticas. “No jogo contra a França, por exemplo, vimos graças ao software que o time deles estava muito concentrado no meio, dei- xando espaço nas laterais, e exploramos isso”, explicou numa entrevista Oliver Bierhoff, diretor técnico e ex-atacante da seleção alemã. E não foi só no mundo do futebol que se percebeu que o uso de quantidades cada vez maiores de informação pode levar à Big Data A ciência do Avanço nas conexões entre bancos de dados e na capacidade de processamento torna disponível quantidades gigantescas de informação. Novas pesquisas geram conhecimentos em gestão urbana, planejamento ambiental e física de partículas unespciência .:.  agosto de 2014 18 agosto de 2014  .:. computação

big-data

Embed Size (px)

Citation preview

  • tomada de decises mais consistentes. Um bom exemplo o banco de dados sobre acidentes de trabalho que est armaze-nado num laboratrio no Departamento de Cincias da Computao e Estatstica da Unesp de So Jos do Rio Preto. Os servidores ali guardam os registros de 100 mil acidentes de trabalho ocorridos na regio, incluindo nome, idade e sexo dos acidentados, parte do corpo atingida, local do acidente e causas. Quem cuida deste projeto o pesquisador Carlos Va-lncio, chefe do departamento.Para prospectar essas informaes,

    Valncio criou uma srie de complexos algoritmos computacionais. Estes algorit-mos so capazes de preparar e cruzar os dados disponveis, e apresentar os resul-tados sob novas formas, que podem trazer perspectivas inditas para os gestores daquele setor. Foi graas a este recurso, por exemplo, que a prefeitura da cidade ficou sabendo que 20% dos acidentes de trabalho notificados em 2012 aconteceram

    enquanto o paciente estava se deslocando de motocicleta. E, entre os acidentados, um nmero considervel era de meno-res de idade. Todo mundo sabe que menores no

    podem dirigir, diz Valncio. A prefei-tura, que no tinha como saber dessa tendncia sem nosso algoritmo, teve que tomar uma atitude imediatamente, diz o pesquisador. Os bancos de dados tm importncia

    crucial para a cincia da computao desde o surgimento das primeiras m-quinas, ainda nos anos 1950. Nas lti-mas dcadas, no entanto, sua relevncia fora da academia s tem aumentado. O motivo a sempre crescente capacidade de armazenar digitalmente informaes sobre praticamente todos os aspectos da vida moderna. O advento da Internet tornou este ce-

    nrio ainda mais complexo, ao permitir que um nico usurio possa acessar, si-multaneamente, diversos reservatrios

    de informaes espalhados por todo o planeta. Assim, a cincia da computao passou a ter que lidar no mais com um, mas sim com mltiplos bancos de dados por vez. E ao mesmo tempo. Esta nova realidade chamada de Big Data. No Brasil um dos focos de pesquisa

    em Big Data o Grupo Banco de Dados (GBD), do qual Carlos Valncio coorde-nador. Hoje tudo est interligado e voc s pode ter uma anlise mais depurada de comportamentos e padres se for capaz de varrer as vrias fontes de dados, ex-plica Valncio. Isso inclui, por exemplo, as redes sociais. Nosso trabalho estar sempre na fronteira do conhecimento, diz o pesquisador.

    Acidentados e tabeladosEntre todos os bancos de dados desen-volvidos pelo GBD, o que j rendeu mais informaes teis sobre o mundo real o Sistema de Informao de Vigilncia e Acidentes do Trabalho (SIVAT). O grupo

    texto Guilherme Rosa

    Q uer saber qual a frmula do sucesso da seleo de futebol alem para vencer a Copa do Mundo? Bem, combine planejamento de longo prazo, disciplina, bons jogadores e... muita informao sobre o que acon-tece em campo. Desde maro, o tcnico alemo, Joachim Low, dispunha de um novo sistema de armazenamento e de pro-cessamento de dados que capturava com oito cmeras todos os lances dos treinos e jogos, e os convertia em estatsticas e imagens que ele podia acessar via tablet ou celular e assim fazer opes tticas. No jogo contra a Frana, por exemplo, vimos graas ao software que o time deles estava muito concentrado no meio, dei-xando espao nas laterais, e exploramos isso, explicou numa entrevista Oliver Bierhoff, diretor tcnico e ex-atacante da seleo alem.E no foi s no mundo do futebol que se

    percebeu que o uso de quantidades cada vez maiores de informao pode levar

    Big DataA cincia do

    Avano nas conexes entre bancos de dados e na capacidade de processamento torna disponvel quantidades gigantescas de informao. Novas pesquisas geram conhecimentos em gesto urbana, planejamento ambiental e fsica de partculas

    unespcincia .:. agosto de 201418 agosto de 2014 .:. unespcincia

    computao

  • foi chamado a desenvolver a tecnologia em 2005 pela prefeitura de So Jos do Rio Preto, que precisava informatizar os dados sobre esse tipo de acidente coleta-dos em hospitais e prontos-socorros de 100 cidades da regio. Antes de comear a funcionar, um banco

    de dados precisa ser alimentado com in-formaes. Por isso, a equipe de Valncio visitou os hospitais da regio, fornecendo equipamentos e softwares para a instala-o da tecnologia. Em seguida, treinaram os funcionrios dos locais para fazer o catlogo das informaes dos acidenta-dos. At 2013, as equipes nos hospitais haviam alimentado o sistema com mais de 110 mil casos. Essa parte de instalao da infraestru-

    tura foi importantssima para a gerncia hospitalar, mas pouco valiosa para a ci-ncia da computao. A parte realmen-te importante para o GBD veio a seguir, quando sua equipe comeou a desenvol-ver os algoritmos para analisar os dados presentes no sistema. Escritos em lingua-gem de programao, so eles que do as ordens lgicas para os computadores cruzarem e coletarem as informaes. O primeiro algoritmo geralmente usado

    pela equipe o de limpeza de dados, ou data clean. Ele organiza todas as infor-maes coletadas, para que estejam no mesmo formato e possam ser compara-das entre si. Os dados de acidentes do trabalho so coletados em hospitais, um ambiente onde existe muito estresse, e podem ser preenchidos de maneira er-rada ou incompleta. Precisamos de um coquetel de algoritmos que deixem a base ntegra, diz Valncio. Depois, os algoritmos de extrao de

    dados podem fazer o seu trabalho, cole-tando informaes teis administrao da cidade. Entre 2005 e 2012, os pesqui-sadores apresentaram relatrios anuais prefeitura, com o conhecimento extrado durante o perodo. Foi possvel descobrir, por exemplo, que a atividade com o maior nmero de acidentados era a metalrgica, com 6.999 acidentes, seguida da sade, construo civil e servios automotivos. Os dados tambm podiam ser organiza-dos por outros viezes, como a parte do

    corpo machucada e a causa do acidente (a mais comum foi o impacto de objetos, seguida por quedas de motocicletas). A prefeitura tambm podia ver quais em-presas estavam envolvidas em mais aci-dentes, e intervir nos estabelecimentos. Alm dos dados em forma de tabela,

    os algoritmos do GBD permitem a visua-lizao das informaes na forma de um mapa. Isso torna possvel, por exemplo, visualizar quais regies da cidade con-centram determinados tipos de acidentes. Graas a esse recurso, a prefeitura de So Jos do Rio Preto pde perceber que uma avenida concentrava um grande nmero de acidentes de moto. Em especial, havia trs pontos da via particularmente peri-gosos, onde o ndice de feridos era maior. A cada tendncia que constatvamos, a

    prefeitura agia para resolver o problema. Nossa tecnologia ajudou a salvar vidas, diz Valncio. Com o sucesso do SIVAT, a equipe foi chamada para aplicar o mes-mo sistema na regio de Ilha Solteira, que abrange outras 12 cidades.

    Um poo de algoritmos O desenvolvimento de um novo algorit-mo quase sempre se baseia na melhora de algum algoritmo anterior. So essas contribuies que saem publicadas em artigos cientficos, proporcionam avan-os para a cincia e garantem o mrito acadmico dos pesquisadores. Valncio, no entanto, afirma que essa no a ni-ca parte importante de suas pesquisas. Sempre fao questo de que nossos al-goritmos possam ser aplicados imediata-mente. Quero fazer cincia para mostrar

    sociedade que vale a pena investir na universidade pblica, diz. Um exemplo disso est nos sistemas

    desenvolvidos por Valncio para dar su-porte gesto ambiental. A tecnologia foi desenvolvida a convite de um amigo de Valncio, o engenheiro Antonio Carlos Carvalho, que atua como membro do Co-mit da Bacia do Turvo/Grande. O Comit responsvel por gerir os recursos pagos por usinas hidreltricas para preservar os rios da bacia, e estava em busca de um banco de dados capaz de catalogar informaes sobre os poos artesianos e semiartesianos perfurados na regio. Os fazendeiros precisam registrar, jun-

    to prefeitura, toda vez que vo captar gua ou cavar um poo, mas sabemos que nem todos fazem isso. Isso grave, pois eles esto consumindo gua dos rios e lenis freticos, diz Carvalho. O projeto foi testado nas cidades de

    Votuporanga e Monte Azul Paulista. Uma equipe coordenada por Carvalho visitou todas as propriedades agrcolas da regio. L, registraram quais recursos hdricos cada uma possua, de minas dgua a poos profundos. Tambm anotavam in-formaes como o tipo de bomba usado, o volume e o destino da gua. Usando dados da literatura, os pesquisadores pu-deram calcular o volume hdrico captado em cada regio. Depois de registrar a presena de mais

    de 600 poos, os pesquisadores aplica-ram no banco de dados uma srie de al-goritmos desenvolvidos pelo GBD. Com o cruzamento das informaes, ficou claro que havia um descontrole, e que o poder pblico ignorava grande parte dos po-os cavados naqueles municpios. Mas o que me deixou realmente preocupado foi a falta de proteo dos recursos hdri-cos, diz Carvalho. Um poo artesiano de onde se capta gua para irrigar uma plantao, por exemplo, est sujeito contaminao, e pode afetar todo o len-ol fretico, explica. Com o novo sistema, os gestores tm

    disponvel, na tela do computador, a lo-calizao de cada um dos poos, sua exa-ta vazo e proteo sanitria, que evita contaminaes. Uma ferramenta dessa

    Os pesquisadores trabalham desenvolvendo algoritmos

    capazes de organizar e cruzar as informaes

    disponveis em bancos de dados. Assim, enxergam

    tendncias e padres que no estavam visveis em um primeiro momento

    EntRE moRtos E fERiDos o sistema siVAt permite registrar todos os acidentes de trabalho e cruzar os dados, facilitando a visualizao de solues

    1 A DimEnso Do pRoBlEmAo sistema identifica todos os pontos da cidade onde ocorreram acidentes de trabalho. Este mapa mostra os dados registrados em 2011, em so Jos do Rio preto

    2 EnxERGAnDo os DEtAlhEs os algoritmos permitem identificar regies que acumulam eventos semelhantes. Esta via, por exemplo, apresenta trs esquinas com grande ndice de acidentes

    Fontes: Grupo Banco de Dados

    DE olho nA sADEo sistema particularmente estratgico para monitorar contaminaes e incidncia de doenas

    1 pAciEntEs no mApA os pesquisadores usaram o sistema para apontar no mapa de so Jos do Rio preto a ocorrncia de casos de hepatite (amarelo) e epilepsia (azul)

    2 QUEntE E fRioUm algoritmo esmia a taxa de incidncia das doenas e permite que os pesquisadores tirem concluses. A epilepsia, por exemplo, foi mais comum em bairros pobres da cidade

    Fontes: Grupo Banco de Dados

    unespcincia .:. agosto de 201420 agosto de 2014 .:. unespcincia

    computao

  • 1 DEscontRolEo sistema foi testado em Votuporanga. o mapa mostra todos os poos construdos na regio rural da cidade. Em roxo, aparecem os que no tm autorizao da prefeitura

    2 GEsto AfinADA possvel visualizar os poos organizados conforme critrios que favoream a formulao de polticas pblicas. Aqui, eles esto classificados por finalidade de uso

    3 sElEo tERRitoRiAlo sistema permite selecionar pontos especficos do mapa, para que sejam analisados de modo independente.

    4 noVos pontos DE VistAos dados selecionados nas etapas anteriores tambm podem ser visualizados em outros formatos, como tabelas e grficos. isso facilita a identificao de padres

    no informado

    licena de operao

    cadastrado outorga de Direito de Uso

    implantao Autorizada

    sem Autorizao

    comrcio lazer/paisagismo

    gua mineral

    industrial minerao

    piscicultura pulverizao

    condomnio horizontal cultura 0

    1 4 4 0

    113

    204

    10 1 121019

    50

    100

    150

    200

    250

    Qua

    ntidad

    e

    comrcio

    industrial

    lazer/paisagismo

    consumo prprio

    gua mineral

    piscicultura

    Abatedouro

    irrigao

    cultura

    condomnio

    horizontal

    confinamento

    de Animais

    pulverizao

    minerao

    consumo prprioAbatedouro

    irrigao

    confinamento de Animais

    *Legenda dos itens 2 e 3

    pa a incidncia de epilepsia na cidade de So Jos do Rio Preto, ficou muito ntida a relao socioeconmica da doena. Ve-mos que ela se concentra nas regies mais pobres, onde vivem as classes C e D. Ns mostramos por meio de dados cientficos onde e como a poltica pblica deve atu-ar, diz Borges, que j enviou a pesquisa para ser publicada numa das revistas de maior relevncia na rea.

    tesouros binriosAgora, os pesquisadores pretendem ins-talar o mesmo tipo de banco de dados no Hospital Bezerra de Menezes, uma institui-o que atende pacientes com problemas psiquitricos e dependentes qumicos em So Jos do Rio Preto. A infraestrutura j est sendo instalada no hospital, e sua equipe treinada para aliment-la com as informaes dos pacientes. O grupo foi chamado apenas para aju-

    dar a informatizar os pronturios do hos-pital, mas Valncio espera que os dados possam ser usados em pesquisas. Seria possvel traar o perfil dos doentes da regio. A partir de sua distribuio ge-

    ogrfica, poderamos chegar a padres que no percebemos antes. A sociedade no costuma ter ideia da importncia dos dados com que lida, diz Carlos Valncio. Nenhum dos sistemas citados pode ser

    chamado, isoladamente, de Big Data. Se-gundo o pesquisador, esse termo s ca-be quando os algoritmos desenvolvidos so capazes de analisar no s o banco de dados local, mas todos os outros que sejam de interesse dos cientistas, incluin-do os que esto na Internet. Por sorte, os programas desenvolvidos pelo GBD so feitos levando em conta essa capacidade. Nosso coquetel de algoritmos j capaz de fazer isso. Ns podemos, por exemplo, varrer de forma conjunta todos os nossos bancos de dados na rea da sade. Desse cruzamento, ainda deve sair muita infor-mao til para a sociedade, diz. A rea da cincia da computao pos-

    sui um jargo para denominar a extra-o de conhecimentos a partir de bancos de dados: o data mining, ou minerao de dados, em portugus. A extrao de conhecimentos se parece mesmo com o trabalho de prospectar o solo e encontrar

    Fontes: Grupo Banco de Dados

    tais como o local e a maneira pela qual um caso de contgio ocorreu vital para conter epidemias. O sistema nos permite enxergar instantaneamente informaes que seriam impossveis de obter manu-almente, como o local de residncia dos pacientes de acordo com sua idade ou tipo de vrus, diz Paula Rahal, que usa o banco de dados em suas pesquisas. O biobanco tambm est sendo usado

    em uma pesquisa do neurologista Moacir Alves Borges, da Faculdade de Medicina de So Jos do Rio Preto. Em seu estudo, ele registrou mais de 6.500 casos de epi-lepsia na cidade e anotou as informaes sobre os pacientes. Ao analisar os dados, concluiu que, alm de fatores genticos e da presena de tumores, os principais fatores de risco para a epilepsia na regio eram a incidncia de AVCs, problemas no parto, meningite, cisticercose e trauma-tismo craniano. Ao jogar essas informaes no sistema

    do GBD, Borges pde confirmar sua sus-peita de que a maior parte desses fatores de risco estava associada classe social dos pacientes. Quando coloquei no ma-

    os poos E os RiosUm outro sistema, desenvolvido pelo grupo, registra informaes ambientais, como os poos artesianos de uma regio

    natureza de vital importncia para a tomada de decises na gesto dos recur-sos hdricos. No futuro essa ferramenta poder ser adotada por diversas prefeitu-ras do Brasil, uma vez que o estado est, aos poucos, transferindo a responsabili-dade dessa gesto aos municpios, diz o engenheiro. Em cima do mesmo banco de dados,

    a equipe do GBD desenvolveu uma srie de novos algoritmos, que permitem o re-gistro e a anlise de outros parmetros ambientais. O sistema pode ser usado, por exemplo, para gerenciar o desmata-mento de uma regio ou a presena de matas ciliares ao redor de rios. A tecno-logia tambm foi adaptada para cumprir uma nova exigncia que a legislao faz aos municpios: registrar todas as rvores da zona urbana. O novo sistema para in-ventrios arbreos foi testado no Cmpus da Unesp em So Jos do Rio Preto, onde foram registradas 2 mil rvores, separa-das por tamanho e espcie.

    cncer, drogas e epilepsiaHoje o sistema mais promissor desenvol-

    vido pelo GBD envolve a rea da sade. O projeto teve incio em 2005, a partir de uma parceria de Valncio com a biloga Paula Rahal, da Unesp de Rio Preto, a fim de desenvolver um banco de tumores para o Hospital do Cncer de Barretos. A tecnologia seria capaz de armazenar e gerir todas as amostras de tumor e de tecidos benignos coletadas no hospital, e organiz-las de modo a permitir acesso fcil. Isso beneficiaria tanto aos mdicos, que poderiam acompanhar a evoluo dos pacientes, quanto aos pesquisadores,

    que se dedicariam a estudos mais amplos sobre a incidncia da doena. Em menos de dois anos, o sistema ca-

    talogou mais de 13 mil amostras, classi-ficadas de acordo com caractersticas do tumor, do doador ou mesmo da regio on-de ele morava. Se um cientista quisesse realizar anlises genticas em tumores de mama que atingiam apenas mulheres com menos de 40 anos, o sistema podia lhe mostrar onde essas amostras esta-vam de modo imediato, diz Paula Rahal. A equipe no trabalha mais com o ban-

    co de tumores, mas a tecnologia evoluiu. Agora, capaz de armazenar informaes referentes a qualquer tipo de tecido pro-veniente de seres vivos. So os chamados biobancos. Eles podem ser usados, por exemplo, para gerir amostras sanguneas de pacientes com hepatite C coletadas em So Jos do Rio Preto. A doena causa-da por um vrus que ataca o fgado e transmitida pelo sangue dos pacientes. Hoje, o principal modo de disseminao

    desse mal pelo compartilhamento de seringas para injeo de drogas. Por isso, a capacidade de sistematizar informaes

    Os algoritmos desenvolvidos pelos pesquisadores so capazes de analisar bancos de dados espalhados por toda a Internet. a esse imenso acervo de informao, espalhado por servidores de todo o mundo, que os pesquisadores chamam de Big Data

    unespcincia .:. agosto de 201422

    nonononon

    agosto de 2014 .:. unespcincia

    computao

  • Um BiG compUtADoR pARA o BiG DAtA o ncleo de computao cientfica hospeda os computadores dos projetos GridUnEsp (acima) e spRAcE. investimento ultrapassou os R$ 8 milhes

    A piRmiDE DA infoRmAoDados do lhc so distribudos em rede de trs nveis que envolve 170 centros. Unesp abriga o nico no Brasil

    1 sua: centro de Dados cERn

    2 canad: tRiUmf

    3 Alemanha: Kit

    4 Espanha: pic

    5 frana: in2p3

    6 itlia: infn

    7 pases nrdicos: nordic Datagrid facility

    8 holanda: niKhEf/sARA

    9 Repblica da coreia: GsDc em Kisti

    10 federao Russa: RRc-Ki e JinR

    11 taipei: AsGc

    12 Reino Unido: Gridpp

    13 Us: fermilab-cms

    14 Us: Bnl AtlAs

    15 Brasil

    nvel 0

    nvel 1

    nvel 2

    Foto: F

    bio Lau

    b

    14

    2

    15

    13

    3

    4

    5

    6

    12

    107

    8

    9

    11

    1

    fonte: cERn

    tesouros. Esses dados so ouro puro para a sociedade, podem salvar vidas. Com o Big Data, esse potencial fica ainda maior, afirma o pesquisador.Para a maior parte dos cientistas, o

    Big Data, at o momento, ainda figura um pouco no campo da promessa, isto , uma nova ferramenta cujo uso ace-na com a possibilidade de descobertas importantes no futuro. Mas, no campo da cincia da computao, as novas de-mandas esto obrigando os cientistas da rea a levarem a prpria criatividade a novos limites. Um bom exemplo dos no-vos desafios que esto surgindo na rea a trajetria do Ncleo de Computao Cientfica da Unesp, que fica sediado no Cmpus da Barra Funda. A estrutura do NCC inclui dois grandes

    aglomerados de computadores que aten-dem projetos diferentes, denominados GridUNESP e SPRACE. Um dos clusters dispe de 2.048 ncleos de processamento e armazenamento do tipo Storage rea Network (SAN), e est disponvel para ser usado por toda a comunidade da Unesp. O outro dispe de 1.066 ncleos de proces-

    samento, quatro servidores de controle e 12 servidores de armazenamento, todos com interface de rede de 10 gigabits por segundo. Tambm h outros ncleos de processamento menores funcionando nos Cmpus de Botucatu, Bauru, Ilha Soltei-ra, So Jos do Rio Preto, Araraquara e Rio Claro. O diretor cientfico do NCC o fsico Srgio Novaes.Foi Novaes quem deu incio ao NCC.

    Em 2003, o grupo de pesquisas liderado por ele e Eduardo Gregores comeou a colaborar com o laboratrio Fermilab. O projeto foi denominado So Paulo Rese-arch and Analysis Center (SPRACE). Em 2006, passaram a colaborar tambm com o CERN, o centro de pesquisas especiali-zado em fsica de altas energias localiza-do na Sua, que abriga o mais poderoso acelerador de partculas do mundo, o LHC. Devido ao imenso volume de dados que se antecipava que o LHC geraria (ele s entrou em funcionamento em 2008), os colaboradores do CERN organizaram uma complexa estrutura de processamento compartilhado das informaes. Os dados gerados nas colises que ocor-

    rem nos detectores so registrados nos com-putadores do CERN e enviados a centros de pesquisa situados em 12 pases. Estes centros, denominados de Tiers-1, por sua vez, esto conectados a outros 155, numa estrutura em trs nveis (veja quadro na pgina seguinte). O nome desta estrutu-ra Worldwide LHC Computing Grid, ou WLCG. Em 2003, Novaes e Gregores solicitaram Fapesp financiamento para a criao de um cluster de computado-res de alta performance que permitisse ao SPRACE candidatar-se a ser um dos centros de classe Tier-2. Rogrio Iope, que comeou a trabalhar

    no SPRACE em 2005, diz que nos centros localizados mais baixo na arquitetura do WLCG que a pesquisa realmente aconte-ce. atravs deles que os pesquisadores solicitam os conjuntos de dados relativos a eventos registrados nos detectores para fazer as anlises, explica. Esses conjun-tos de dados chegam a ter 5 terabytes de informao. S para comparar, 1 terabyte equivale a 1.000 gigabytes. Numa rede menos veloz, o pesquisador pode levar dias para conseguir obter estes dados e trabalhar e com eles. No SPRACE, isso leva poucas horas, afirma. Embora o sistema esteja funcionando a contento, j est claro que ele ter que crescer. E rpido. Desde 2013, o LHC suspendeu suas operaes a fim de realizar um up-grade de suas capacidades. Dever vol-tar ativa no ano que vem. O resultado ser um aumento em sua capacidade de gerar colises de altas energias e do volume de informao a ser analisada. Estimamos que os conjuntos de dados tripliquem de tamanho e cheguem aos 15 terabytes. Isso influenciar toda a cadeia operacional, analisa Iope. Isso inclui aumentar a velocidade de

    funcionamento da rede de comunicao de dados, dos atuais 10 gigabits para 40 gigabits por segundo, no mnimo. Pre-parando-se para este e outros desafios, o NCC j obteve um financiamento de US$ 1 milho para fazer um upgrade no seu maquinrio. Mas isso envolve um processo mais complexo do que apenas abrir um catlogo e fazer encomendas. Desde o comeo, temos nos reunido com

    os fabricantes e analisado o cronograma deles para o lanamento de novos produ-tos. Desta forma, podemos j colocar no projeto a compra de equipamentos que s estaro venda meses ou anos depois. Isso tem nos ajudado a nos manter em sintonia com as principais Tiers-2 dos EUA e da Europa, explica Iope. Graas a este trabalho, o SPRACE, tem mantido um padro de operao de excelncia, re-conhecido como um dos mais confiveis de todo o WLCG.

    De olho no trfegoOutro fator chave para manter a exceln-cia o gerenciamento do trfego de in-formaes por toda a rede. necessrio manter a taxa de transferncia de dados em direo aos servidores do SPRACE sempre elevada. E isso um desafio, de-vido, tambm, aos 6.000 km de cabos que separam a Barra Funda da Tier-1 do Fermilab, que fica em Chicago, nos EUA. Quando o sistema detecta uma saturao na transferncia de informa-es, ele automaticamente reduz a taxa de transferncia metade, explica Iope.

    So necessrios vrios ajustes finos, tan-to no gerenciamento de trfego de rede quanto na capacidade dos servidores de armazenamento em registrar os dados, a fim de manter o canal de comunicao sempre cheio de informaes, diz. J o GridUNESP tem sido o canal para

    o processamento de grandes volumes de dados para os pesquisadores da universida-de. Atualmente so cerca de 300 usurios, de 13 diferentes reas de pesquisa, que tocam 57 projetos diferentes utilizando o maquinrio ofertado pelo Grid. O GridU-

    NESP surgiu como forma de compartilhar com toda a universidade o conhecimento adquirido com a implantao do SPRA-CE, explica Novaes. Os recursos foram obtidos atravs do projeto PROINFRA, da Finep. Os computadores comearam a funcionar em setembro de 2009. Hoje, a estrutura oferece aos pesquisadores da universidade a oportunidade de recorrer a computadores de alta capacidade a fim de processarem os clculos e simulaes de suas pesquisas, diz o fsico.Embora a rede de processamento mun-

    dial organizada a partir do CERN para trabalhar com os dados gerados pelo LHC parea ainda algo pouco comum no pa-norama da produo mundial de cincia, pode ser vista, tambm, como um carto de visitas do que est por vir. Com Big Data o universo de onde podemos extrair informao expandiu-se de maneira vio-lenta. O potencial de processamento de nossas mquinas e a capacidade de nos-sos algoritmos tiveram de se multiplicar, pondera Carlos Valncio. Agora os dados podem vir de qualquer lugar. No temos mais fronteiras.

    Os algoritmos desenvolvidos pelos pesquisadores so

    capazes de analisar bancos de dados espalhados

    por toda a Internet. a esse imenso acervo de

    informao, espalhado por servidores de todo o mundo,

    que os pesquisadores chamam de Big Data

    unespcincia .:. agosto de 201424 agosto de 2014 .:. unespcincia 25

    computao