Upload
internet
View
103
Download
0
Embed Size (px)
Citation preview
1
DA COMUNICAÇÃO CIENTÍFICA AO CONHECIMENTO PÚBLICO: ARTIGOS CIENTÍFICOS DIGITAIS COMO BASES DE
CONHECIMENTOS
VI ENANCIB – Encontro da Associação Nacional de Pesquisa e Pós-graduação em Ciência da Informação, UFSC,
Florianópolis, SC, nov.2005
Equipe de pesquisaCarlos H. Marcondes, [email protected]
Marília A. R. Mendonça,[email protected] de Ciência da InformaçãoLuciana R. Malheiros, [email protected]
Departamento de Fisiologia e FarmacologiaHenrique Mendonça e Vera Rolim, bolsistas de IC
Universidade Federal Fluminense, Niterói – RJ, Brasil
2
QUESTÕES
“Os diferentes fragmentos de informação contidos nos diferentes trabalhos primários precisam ser reunidos e fundidos numa só peça, compondo uma coerente máquina intelectual” (ZIMAN, 1979, p. 135).
Meadows (1999, p. 127), comentando os impactos da tecnologia da informação sobre o artigo científico, assim se expressa: “talvez seja possível no futuro, incluir software apropriado que permita fazer deduções a partir dos dados e informações, acrescentando assim a estes uma função de conhecimento”.
Convergência CIÊNCIA DA INFORMAÇÃO, FILOSOFIA DA CIÊNCIA, EPISTEMOLOIA DA CIÊNCIA, CIÊNCIAS DA SAÚDE, CIÊNCIA DA COMPUTAÇÃO
3
CENÁRIO SEMANTIC GRID (DE ROURE, 2001)
“knowledge acquisition set the challenge of getting hold of the information that is around, and turning it into knowledge by making it usable. This might involve for instance, making tacit knowledge explicit, identifying gaps in the knowledge already held, acquiring and integrating knowledge from multiple sources (e.g. different experts, or distribuited sources on the web), or acquiring knowledge from unstructured media (e.g. natural language or diagrams” (DE ROURE, 2001, p. 56.).
“Exemples are the integration of authoring and reviewing processes in on-line documents. Such environments allow structured discussions of the evolution and development of an idea, paper or concept. The structured discussion is another annotation that can be held in perpetuity. This means that the reason for a position in a paper or design choice is linked to the object of discussion itself” (DE ROURE, 2001, p. 59.)
4
Papel central dos periódicos na comunicação científica
TIs aplicadas para prover acesso a textos completos de documentos, não ao seu conteúdo
Comunicação científica depende da produção de textos, leitura, interpretação e citação
Periódicos científicos publicados na Web são baseados no modelo impresso
QUESTÕES
5
É possível publicar artigos científicos na Web simultaneamente como texto e em formato legível por programas, identificando e registrando o conteúdo do conhecimento novo contido em elementos tais como Problema, Hipóteses e Conclusões?
Estrutura/representação do novo conhecimento?
Conseqüências para a comunicação científica e para o desenvolvimento da Ciência?
PROBLEMA
6
PRESSUPOSTOS
A publicação na Web de artigos científicos pode vir a ser uma ferramenta cognitiva cujas potencialidades ainda não estão totalmente avaliadas
Iniciativa Web Semântica (BERNERS-LEE, 2001): disponibilidade na Web de ontologias científicas, em especial a UMLS – Unified Medical Language System, http://www.nlm.nih.gov/pubs/factsheet/umls.html
A Ciência tem um método formal de raciocínio, o Método Científico
Artigos científicos têm uma estrutura textual altamente formalizada
7
HIPOTESE
“The text of observational and experimental articles is usually (but not necessarily) divided into sections with the headings Introduction, Methods, Results, and Discussion. This so-called “IMRAD” structure is not simply an arbitrary publication format, but rather a direct reflection of the process of scientific discovery” (http://www.icmje.org)
Os artigos científicos possuem, além da estrutura textual, chamada aqui de “estrutura superficial”, uma “estrutura profunda” ou “estrutura de conhecimento”, que pode ser extraída do texto e representada em formato legível por programas
8
OBJETIVO GERAL
Explorar as potencialidades deste artefato sócio-técnico que é o artigo científico quando publicado na Web, ampliando suas potencialidades como ferramenta cognitiva
9
OBJETIVOS ESPECÍFICOS
Propor Modelo da “estrutura profunda” ou “estrutura de conhecimento” dos artigos científicos em XML, ligando a “estrutura do conhecimento” de um artigo com o conhecimento já estabelecido (bases de conhecimento e outros artigos)
Validar o Modelo, analisando artigos do periódico Memórias do Instituto Oswaldo Cruz
base para o desenvolvimento um editor de textos científicos que permita publicar eletronicamente não só o texto de artigos mas também o conhecimento contido neles, em formato processável por programas;
base também para o desenvolvimento de outras ferramentas para recuperação semântica e validação de novos conhecimentos
10
Padrão do W3C – base da iniciativa Web Semântica: estrutura de documentos digitais legível por pessoas e por programas
Permite a validação de conjuntos de documentos através de um DTD ou Schema
Permite a utilização simultânea de diversos vocabulários através da facilidade de “name spaces” (http://www.w3.org/TR/1998/WD-xml-names-19980916):
Outras experiências: MathML, CML, SBML
Modelo da “Estrutura do conhecimento” em XML permitirá seu processamento por programas “agentes inteligentes”, realização de inferências
XML como linguagem para especificar a Estrutura de Conhecimento de artigos científicos
11
Projeto da National Library of Medicine, EUA, Combina diversas fontes terminológicas num único instrumento (MEDLINE, SNOMED International, Read Codes, etc.)
Estrutura terminológica hierárquica – o Metathesaurus, com730.000 conceitos, 1.500.000 nomes de conceitos
complementanda por uma estrutura classificatório, a Semantic Network
Semantic Network agrega os termos do Metathesaurus em 134 tipos semânticos e 53 tipos de relações (ex. causality, "is a", etc.) entre termos médicos
UMLS – Unified Medical Language System, http://www.nlm.nih.gov/pubs/factsheet/umls.html
12
Iniciativa do W3C. proposta pela primeira vez por Tim Berners-Lee inventor da WWW, do Browser, da linguagem HTML, em fins da década de 90
Objetivos: uma Web não só de documentos legíveis por pessoas, mas
também légíveis por programas; estruturar o conteúdo disponível na Web e adicionar valor
semântico à este conteúdo documentos eletrônicos conteriam CONHECIMENTO legível por
programas, que permitiriam a estes fazer inferências este programas – os “agentes inteligentes” – poderiam ajudar
as pessoas em diferentes tarefas
A iniciativa Web Semântica (BERNERS-LEE, 2001):
13
14
Klahr & Simon (1999, p. 8), citando Reichenbach:“a major goal of empirical work in science is to discover new phenomena and generate hypotheses for describing and explain them”.
Segundo estes autores, as pesquisas científicas podem se dar: -a partir da busca de novos fenômenos para se chegar a hipóteses que os expliquem (1) ou - a partir de hipóteses que expliquem um fenômeno, testá-las para verificar sua validade ou rejeitá-las (2).
Conhecimento prévio Teorias existentes
Lacuna, contradição ou problema, novos fenômenos
Conjecturas, soluções ou hipóteses
Consequências falseáveiss Enunciados deduzidos
Técnicas de falseabilidade
Testagem
Análise dos resultados
Avaliação das conjecturas, soluções ou hipóteses
Corroboração
Nova teoria
Nova lacuna, contradição ou problema
Refutação (rejeição)
1
2
Esquema geral do Método Hipotético-Dedutivo, tirado de Marconi & Lakatos, 2004, p.75.
15
1. fatos, ou mais precisamente, fatos problemáticos
2. formalização de um problema de pesquisa ou questão
3. desenvolvimento de uma hipótese, que é uma explicação provisória para o problema de pesquisa
4. testes empíricos da hipótese
5. análise dos resultados dos testes
6. conclusão: ratificação ou negação da hipótese
Método Hipotético-Dedutivo, baseado em Marconi & Lakatos, 2004, p.75.
16
PESQUISA EMPÍRICA
análise de artigos do periódico eletrônico Memórias do Instituto Oswaldo Cruz, http://www.scielo.br/revistas/mioc, visando identificar no texto elementos de metodologia científica que poderiam se constituir na “estrutura de conhecimento” do artigo .
escolha de artigos da relação dos mais visitados, que consta do “site” do periódico, supostamente os mais importantes, os que trazem uma contribuição mais significativa para a Ciência
17
18
METODOLOGIA DE ANÁLISE – “forma” das hipóteses
“Há várias maneiras de formular hipóteses, mas a mais comum é “ Se x, então y” (Marconi & Lakatos, 2004, p.141).
“A hipótese poderá ser simbolizada de duas formas: “Se x, então y, sob as condições r e s”, ou “Se x1, x2 e x3, então y” (Marconi & Lakatos, 2004, p.141).
“a scientific explanation consist of two major “constituints”: an explanandum, a sentence “describing the phenomenon to be explained” and an explanans, “the class of those sentences which are adduced to account for the phenomenon” (Hempel, 1965, p.247).
19
“O pensamento pode ser definido como a capacidade de estabelecer relações por meio do processo de unir e separar conceitos e objetos ... Pensar é justamente o processo de descobrir ou realizar associações ou disjunções, ou seja, traçar relacionamentos” (Máttar Neto, 2002, p.33).
“Distinguem-se três operações fundamentais do pensamento, em Lógica: a concepção (ou formação de uma idéia ou conceito); o juízo (ou afirmação de uma relação entre duas idéias) e o raciocínio (ou a derivação de uma relação de conseqüência entre dois ou mais juízos” (Maciel, 1974, p.27).
“As leis científicas são enunciados gerais que indicam relações entre dois ou mais fatores”... “em todos os casos em que se realizam as condições A, serão realizadas as condições B” (Alves-Mazotti, 2002, p. 11)
Cont...
20
RESULTADOS INICIAIS – Método de análise
Identificação, no texto dos artigos analisados, de “Relações” : Antecedente + Tipo de Relação + Conseqüente; mapeamento dos elementos dessas relações no “conhecimento estabelecido”
Antecedente: HPV termos MESH -> conhecimento estabelecido
Tipo de Relação: causa “causes” – T147 da UMLS Semantic Network -> conhecimento estabelecido
Conseqüente: lesões pré-neoplásicas e neoplásicas termos MESH -> conhecimento estabelecido
• Condição contextual: mulheres, Distrito Federal, Brasil
21
<?xml version="1.0" encoding="ISO8859-1" ?> <estrutura_de_conhecimento art-id="352387“ fonte=“Lilacs”>
<fato></fato> <problema><!-- Pergunta ou Questao-->
tipos de HPV prevalentes no grupo testado? <condicao_contextual>Mulheres</condicao_contextual><condicao_contextual>Distrito Federal, Brasil</condicao_contextual>
</problema> <metodo>
Estudo para ampliar o escopo de uma Hipótese ja estabelecida <metodologia></metodologia>
</metodo> <hipotese>
<condicao_de_validade></condicao_de_validade> <antecedente>
HPV, diversos tipos <!-- Termo MESH--></antecedente><relacao> causa ("causes"(T147)/UMLS SN)</relacao><consequente> lesoes pre-neoplasicas e neoplasicas <!-- Termo MESH--></consequente>
</hipotese> <resultado></resultado> <conclusao></conclusao>
<citacao><referencia_bibliografica></referencia_bibliografica>
<motivo_para_citar></motivo_para_citar> </citacao>
</estrutura_de_conhecimento>
Modelo, em XML
22
UMLS – Semantic Network – 134 tipos semanticos e 53 tipos de relações
UI: T147RL: causesABR: CARIN: caused_byRTN: R3.2.2DEF: Brings about a condition or an effect. Implied here is that an agent, suchas for example, a pharmacologic substance or an organism, has brought about theeffect. This includes induces, effects, evokes, and etiology.HL: {isa} brings_aboutSTL: [Bacterium|Pathologic Function];[Fungus|Pathologic Function];[Invertebrate|Pathologic Function];[Manufactured Object|Anatomical Abnormality];[Manufactured Object|Injury or Poisoning];[Manufactured Object|Pathologic Function];[Rickettsia or Chlamydia|Pathologic Function];[Substance|Anatomical Abnormality];[Substance|Injury or Poisoning];[Substance|Pathologic Function];[Virus|Pathologic Function]
23
RESULTADOS INICIAIS
Identificação, no texto dos artigos analisados, de “Relações”; a explicação científica enquanto Relação
• Relações enquanto questões: Problema
• Relações enquanto respostas provisórias: Hipótese
• Relações enquanto afirmações ou confirmações: Conclusão
24
RESULTADOS INICIAIS
Existência de três níveis de vocabulários nos artigos analisados (“name spaces” da linguagem XML, http://www.w3.org/TR/1998/WD-xml-names-19980916):
Termos referentes a Metodologia Científica,
• “problema”, “hipóteses”, “metodologia”, “conclusões”, etc;
Termos referentes a Metodologia Científica específica da área:
• “in vitro”, “in vivo”, “polymerase chain reaction”, etc;
Termos referentes a Terminologia específica da área
• “human papillomavirus”, “neoplastic cervical lesions”, etc
Sempre se conseguiu identificar Relações nos artigos analisados
25
POSSIBILIDADES DE RECUPERAÇÃO SEMÂNTICA DA INFORMAÇÃO
“que artigos (também) tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?”
“que artigos tem hipóteses relacionando outros fatores que não HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?”
que artigos tem hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em outros grupos?”
que artigos tem hipóteses relacionando HPV como causa de outras patologias em mulheres?”
em que diferentes condições contextuais existem artigos com hipóteses relacionando HPV como causa de lesões pré-neoplásicas e neoplásicas em mulheres?”
maiores facilidade para revisões estruturadas / medicina baseada em evidências
26
CONCLUSÕES INICIAIS
“Ciência Normal” (Kuhn); qual a forma da “novidade científica”?
A Ciência da Informação deve intervir diretamente na produção do documento eletrônico pelo autor, procurando estruturá-lo desde a sua criação
27
“NOVIDADE” CIENTÍFICA
Qual (ou quais) elementos das relações identificadas é desconhecido?
• Antecedente: ?
• Tipo de Relação: ?
• Conseqüente: ?
• Antecedente + Tipo de Relação + Conseqüente?
• Condição contextual: ?
28
“NOVIDADE” CIENTÍFICA
Qual (ou quais) elementos das relações identificadas é desconhecido?
“ o antecedente A esta relacionado com o conseqüente B em que diferentes condições contextuais?”
• A R B (condição contextual a1) • A R B (condição contextual a2) • A R B (condição contextual a3)
•A R B (condição contextual a)a é uma generalização de a1, a2 e a 3
29
AGENDA DE DESENVOLVIMENTO DA PESQUISA
Pesquisa empírica: Analisar artigos científicos em outros periódicos em Ciências
da Saúde para validar o modelo Integrar Problema, Método/metodologia e Conclusões à análise Estudar a estrutura dos tipos de documentos padronizados em
C. da Saúde como Revisões Sistemáticas, Ensaios Clínicos, etc Analisar artigos científicos modelares que veiculam
descobertas significativas Entrevistar autores de artigos
Pesquisa teórica: Diretrizes para o desenvolvimento de editor de textos
científicos Motivos para citações? “Novidade” na Ciência? Representação da “estrutura de conhecimento” do artigo
científico: RDF? DAML+OIL? OWL?
30
QUESTÕES EM ABERTO / Pesquisa
O Modelo proposto de “estrutura de conhecimento” é comum a todas as áreas científicas?
Que tipos de inferências poderão ser feitas baseadas na “estrutura de conhecimento” de um artigo científico?
Maior enfoque da representação da informação nas RELAÇÕES; uma Taxonomia dos Tipos de Relações em Ciência?
É viável uma Scientific Methodology Markup Language – SmML?
31
REFERÊNCIAS BIBLIOGRÁFICAS
ALVES_MAZZOTTI, Alda, GEWANDSZNAJDER, Fernando. O Método nas Ciências naturaais e sociais: pesquisa qunatitativa e qualitativa. São Paulo : Pioneira Thomson Learning, 2002.
ALVES, Rubem. Filosofia da Ciência: introdução ao jogo e suas regras. São Paulo : Ed. Brasiliense, 1987
BERNERS-LEE, Tim, HENDLER, James, LASSILA, Ora. The semantic web. Scientific American, May, 2001. Disponível em <http://www.scian.com/2001/0501issue/0501berners-lee.html >, visitado em 24 maio 2001.
DE ROURE, David; JENNINGS, Nicholas; SHADBOLT, Nigel. Research agenda for the Semantic Grid: a future s-Science infraestructure. (Report commissioned for EPSRC/DTI Core e-Science Programme). 2001.
GONZALES DE GOMEZ, Maria Nélida. Comunicação-Informação-Cognição: interfaces. Mimeo, [s.d.]
HEMPEL, Karl. Aspects fo scientific explanation and other esssays in the philosophy of sceince. New York : Free Press, 1965.
32
REFERÊNCIAS BIBLIOGRÁFICAS
KLAHR, David; SIMON, Herbert A.. Studies of scientific discovery: complementary approaches and convergent fidings. Psycological Bulletin, 124, 5, p.524-543, 1999. Disponível em <http://www.psy.cmu.edu/psy/faculty/Kands99.pdf>. Acesso em 05 Mar. 2005.
MACIEL, Jarbas. Elementos de teoria geral dos sistemas. Petrópolis : Vozes, 1974.
MARCONI, Marina de Andrade; LAKATOS, Eva Maria. Metodologia científica. São Paulo : Editora Atlas, 2004.
MATTAR NETO, José Augusto. Metodologia científica na era da informática. São Paulo : Saraiva, 2002.
MEADOWS, Arthur Jack. A comunicação científica. Brasília : Briquet de Lemos, 1999.
VELTMAN, Kim H. Towards a Semnatic Web for Culture. Journal of Digital Information v.4, n. 4, 2004.. Disponível em http://jodi.ecs.ac.uk/Articles/v4/i04/Veltmen/. Acesso em 24 nov. 2004.
ZIMAN, John. Conhecimento público. Belo Horizonte : Itatiaia, São Paulo : Ed. da Universidade de São Paulo, 1979.