Informática na Biodiversidade

Preview:

DESCRIPTION

Informática na Biodiversidade: onde estamos, como chegamos aqui e para onde vamos

Citation preview

Informática na Biodiversidade: onde estamos, como chegamos

aqui e para onde vamos

Eduardo DalcinNúcleo de Computação Científica e Geoprocessamento

Diretoria de PesquisasInstituto de Pesquisas Jardim Botânico do Rio de Janeiro

Seminário LNCCSetembro de 2013

Tópicos da apresentação

• Um pouco de história– O início da relação da Biodiversidade com a

Informática– A “renascença”– Como chegamos onde estamos

• Onde estamos?• Para onde estamos indo?• O que precisamos

Meu viés• Biólogo• Botânica - Inst. De Pesquisas Jardim Botânico do Rio de Janeiro (1983)• Banco de Dados e Qualidade de Dados

– Qualidade de Dados em Bancos de Dados Taxonômicos (Ph.D. - 2005)• Biodiversidade

– Diversidade de espécies (taxa) e suas ocorrências (indivíduos e populações)• Coleções científicas botânicas

– Herbário• Interesses

– Gestão e entrega de informação sobre biodiversidade (“biodiversity information management and delivery”)

– Governança de Dados sobre Biodiversidade– Arquitetura de Informações e Sistemas sobre Biodiversidade

O que é Biodiversidade?• Diversidade biológica significa a variabilidade de organismos vivos de

todas as origens, compreendendo, dentre outros, os ecossistemas terrestres, marinhos e outros ecossistemas aquáticos e os complexos ecológicos de que fazem parte; compreendendo ainda a diversidade dentro de espécies, entre espécies e de ecossistemas (“Convenção sobre Diversidade Biológica - CDB”, 1992).

• Há, então, três níveis de biodiversidade:– Diversidade de ecossistemas, representada pela diversidade de combinações

únicas da diversidade de organismos e ambientes e suas relações que formam os diferentes ecossistemas.

– Diversidade de espécies, representada pela diversidade de espécies individuais.– Diversidade genética, representada pela diversidade de genes dentro de cada

espécie, e pela diversidade de suas combinações em cada espécie.

Voltando no Tempo...

O encontro da informática com a biodiversidade

“Engenho analítico” (1837)

Charles Babbage (1791 - 1871) Charles Darwin (1809 - 1882)

1859

Gregor Mendel(1822 - 1884)

1865 – Leis da Hereditariedade

Alan Turing1912 - 1954

• Pai da Ciência da Computação e da Inteligência Artificial

• Formalizou os conceitos de Algoritmo e Computação

Linguagens de Alto Nível

Fortran1954 Especificação (John W. Backus)1956 – Primeiro ManualIBM 704

• IBM 7090– Lançado em 11/1959– Vendido por

US$2,900,000.00– Versão transistorizada do

IBM 709

Scientific American, 215(6) 1966

1966

1967

“Diversidade Biológica” (1968)

D.D. Chamberlin and R.F. Boyce, Proc. ACM SIGMOD Workshop on Data Description, Access and Control, Ann Arbor, Michigan (May 1974) pages 249-264.

Programa Flora – CNPq1975

Programa Flora – CNPqObjetivos

Programa Flora – CNPqImplementação - Informática

Programa Flora – CNPqResultados - Informática

Organismos unicelulares na sua vasta maioria e que não apresentam seu material genético delimitado por uma membrana

Os seres vivos com células com um núcleo celular rodeado por uma membrana e com vários organelas.

Até 1977 era assim

As arquebactérias são semelhantes às bactérias em muitos aspectos da estrutura celular – o mais importante dos quais é a ausência de um núcleo celular diferenciado - e metabolismo, mas apresentam diferenças importantes como, por exemplo, os processos de transcrição do DNA e da síntese proteica que são idênticos aos dos eucariotas, mas o aspecto mais marcante talvez seja o metabolismo de alguns destes seres:

• Algumas espécies de Archaea (Halobacteria), produzem energia a partir da luz, por uma estrutura celular chamada bacteriorrodopsina.

• Outras vivem em fumarolas nas profundezas do oceano, sendo a base da vida destes ambientes, como as plantas são em terra.

• Há ainda aquelas que vivem no trato intestinal de vários animais, produzindo metano.

“Renascimento”A década de 80 e 90

• Período marcado por transformações• Assinala o fim da Idade Média e o início

da Idade Moderna

• Período de grande produtividade intelectual e, consequentemente, bibliográfica na Informática na Biodiversidade

“Suppose all the information stored in computers everywhere were linked... All the best information in every computer at CERN and on the planet would be available to me and enyone else.”

Tim Berners-Lee, 1980

“TCP + DNS + HTTP + HTML = WEB!”

“IBM-PC Compatível”

1981

Dbase II e Dbase III Plus (1979 – 1980)

1984

1985

• The first meeting of the Taxonomic Databases Working Group was held at the Conservatoire et Jardin botaniques in Geneva, from 28th to 30th September, 1985.

Surgimento dos primeiros padrões

O avanço mais significativo do Século!MS-EXCEL

1985 (Mac) – 1987 (Windows)

Biodiversity (Papers from the 1st National Forum on Biodiversity, September 1986, Washington, D.C.) – Publicado em 1988

“word cloud” criada com definições de “biodiversidade” encontradas com o Google

(1993)

Vicia faba

Vicia alba

Vicia adriatica

Nomes

Vicia faba

Vicia alba

Vicia adriatica

Espécie (Taxon)

Vicia alba

Vicia faba

Vicia adriatica

Vicia alba

Vicia faba

Vicia adriatica

Ainda é um problema!

Pris, U. Conceptual Structures for Knowledge Creation and Communication Lecture Notes in Computer Science Volume 2746, 2003, pp 309-322

1991 1993

1989

1992

1992

1993 1996

1993 / 1994

O surgimento do primeiro“Web Browser”

• “Pauly recruited Rainer Froese, and the beginnings of a software database along these lines was encoded in 1988. This database, initially confined to tropical fish, became the prototype for FishBase. FishBase was subsequently extended to cover all finfish, and was launched on the Web in August 1996. It is now the largest and most accessed online database for fish in the world. In 1995 the first CD-ROM was released as "FishBase 100". Subsequent CDs have been released annually.”

1996

1997

2000

2001

2003 - 2007

2005

2006

“Livro Laranja”

2008

Lista de Espécie da Flora do Brasil

2010

Em resumo• Experimentar

– Taxonomia numérica– Início da informatização das

coleções• Informatizar

– Coleções e Herbários– Evolução dos modelos

• Publicar– Internet– Global Species Databases

• Integrar – Padrões e Protocolos

• Qualificar– “Data Cleaning”

• “Reutilizar”– SOA– “Web Services”

1960

Onde estamos

Reunião da “Flora do Mundo On-line”16 – 18 de Julho de 2012

Missouri Botanical Garden - USA

Padrões e protocolos maduros

Cabeças pensantes e falantes

“…If I'd like to see one thing in biodiversity informatics in 2013 it is the emergence of a "platform" that makes the links the centre of their efforts. Because without the links we are not building "platforms", we are building silos…."

http://iphylo.blogspot.com.br/2013/01/megascience-platforms-for-biodiversity.html

“We conclude by noting that each aggregator out there seems to want to mint its own flavor of GUIDs, perhaps as much to “brand” an identifier space as for any other reason. We wonder if this strategy of proliferating such spaces is a great idea. A huge advantage of DOIs and EZIDs is abstraction. You know what they mean and how to resolve them because they are well-known and have organizations with specific missions to support identifier creation. This strategy ensures that identifiers can persist and resolve well into the future, and be recognizable not just within the biodiversity informatics community but any other community we interoperate with: genomics, publishing, ecology, earth sciences. This is what we’re talking about when we want to break down walled gardens.”

Gente que faz!

Farta documentação e guias de “boas práticas” disponível

Presentations and documents for the conference may be found at: http://www.gbic2012.org

Unprocessed outputs from all the workshops are stored in Google Docs and may be accessed via: http://bit.ly/LLUhUb

Outubro de 2012Brasil assina MoU com o GBIF

Para onde vamos?

Impacto das novas Tecnologias de Informação e Comunicação na Ciência

Citizen Science

• 1999• Cientistas fotografam a

baleia “#1363” na costa do Brasil (Fernando de Noronha)

• 2001• Um turista fotografa a

cauda de uma baleia na costa de Madagascar

• 2009• O turista compartilha a

foto no Flickr

Dados de migração de baleias-corcunda foram atualizados, de uma média de 3.000 milhas para 6.000 milhas

72 Milhões de registros

Open Science

Robert J. Robbins ( http://www.rj-robbins.com/slides/RJR-GBIC-2012.pdf )

Estamos “Informatizando” toda a Biodiversidade?

Fungos

Animais

Plantas

O “resto” não parece muito importante...

Os liquens são seres vivos “muito simples” que constituem uma simbiose de um organismo formado por um fungo e uma alga ou cianobactéria.

Um líquen é uma unidade viva, mas não é um "indivíduo" como classicamente concebido. Nem pode ser decomposto em indivíduos sem a perda da sua essência e sua viabilidade.

Um líquen é um organismo composto, que não pode ser subdividido em "indivíduos" e permanecer vivo.

Como isto se encaixa com a ideia do "indivíduo", como a "unidade fundamental” da natureza?

Ok. Mas liquens podem ser considerados casos especiais. Uma exceção à regra...

Mesmo não sendo raros....

E os cupins?

São criticamente importantes, algumas vezes espécies dominantes em alguns ecossistemas, que não sobrevivem sem a presença de organismos simbiontes no seu aparelho digestivo.

Podemos considerar que são exceções também?

E os mamíferos ruminantes, com sua flora microbial, capaz de digerir celulose?

8 Junho de 2012 14 Junho 2012

E nós?

Figure 1 Variation in diversity. Researchers of the Human Microbiome Project are studying the microbial inhabitants of the human body, using samples taken from 242 healthy adults at 15 (for males) or 18 (for females) body sites — from the skin (four sites), mouth and throat (nine sites), vagina (three sites), nostrils and faeces (to represent the distal gastrointestinal tract). Huttenhower et al. and Methé et al. have estimated the number of microbial species and their genes in these samples, and found substantial variation in microbial community composition at different body habitats. The two groups used different counting methodologies, and their numbers vary accordingly, such that exact figures are not available. However, crude estimations of number of microbial species (red) and number of microbial genes (blue) are shown for examples of: sites containing high species diversity, such as the gastrointestinal tract and teeth (supragingival plaque); sites with intermediate diversity, such as the inside of the cheek (buccal mucosa) and nostrils (anterior nares); and sites with lower diversity, such as the vaginal posterior fornix. The authors also found substantial variation in both the diversity and the composition of the microbial communities at different sites within the same general body region.

Dentro de nós habitam cerca de 7.300 espécies diferentes.

“Micróbios”

• Além de ser onipresente e abundantes nos organismos “macro”, procariontes ocorrem em todos os ambientes imagináveis (e talvez um pouco mais);

• Existem mais bactérias em um balde de água do mar do que mamíferos em toda a África;

• Localmente diversos – em 1g de solo existem 107-109 células procarióticas, com 2.000 – 18.000 genomas diferentes.

Isso significa dizer que em uma colher de sopa de solo, temos entre 2.000 a 18.000 espécies diferentes!

Isso é que é DIVERSIDADE!

A noção de que podemos atingir essa meta somente olhando para esta parte é equivocada.

Se o objetivo dos estudos da biodiversidade é entender toda a diversidade na biosfera terrestre…

Precisamos documentar e entender a diversidade microbiótica.

Taxonomical bias

Registros no GBIF mostram essa “tendência”

Tudo isso junto. Para quê?

O que precisamos• A aplicação de ferramentas computacionais para analisar o volume avassalador de dados

relacionado com o fato biológico, em seus escopos espaciais, temporais, biológicos, ambientais e socioeconômicos é a chave que abre a porta que leva ao conhecimento, conservação e uso sustentado e socialmente justo da biodiversidade;

• Precisamos de uma nova plataforma para lidar e, acima de tudo, integrar essa quantidade monumental de dados;

• Caminhamos muito na organização (modelos, padrões, protocolos, etc.) de dados primários de uma parte da biodiversidade;

• Caminhamos pouco no registro do fato biológico em grupos taxonômicos menos “carismáticos”;• Caminhamos muito pouco na indexação e integração de diferentes “recursos de informação”

relacionados com a Biodiversidade (bibliografia, dados socioeconômicos, histórico-culturais, etc);• Precisamos urgentemente formar recursos humanos que irão desenvolver os algoritmos, modelos e

ferramentas computacionais necessárias para organizar, integrar, analisar e oferecer os dados e informações sobre a Biodiversidade à sociedade, geradores de conhecimento, formadores de opinião, tomadores de decisão e formuladores de políticas públicas;

• Precisamos promover junto aos órgãos de fomento e as sociedades científicas uma política de premiação e reconhecimento pelo compartilhamento e qualificação de dados sobre a Biodiversidade;

• Precisamos de uma infraestrutura (inter)nacional de informação sobre biodiversidade, baseada em padrões e sistemas abertos e colaborativos, modular, escalável, baseada em serviços, e que promova a “open and networked science” de forma plena e justa.

O Mapa:

Eduardo DalcinInstituto de Pesquisas Jardim Botânico do Rio de Janeiro

Diretoria de PesquisasNúcleo de Computação Científica e Geoprocessamento

edalcin@jbrj.gov.br

Obrigado!

Recommended