9
Bioinformática: una nueva área de oportunidad Eugenio Jacobo Hernández Valdelamar Fundación Arturo Rosenblueth. Insurgentes Sur 670-3. Colonia del Valle. CP 03100. México, D.F., México [email protected] [email protected] Resumen. Este artículo presenta los conceptos fundamentales relativos a la bioinformática con el fin de difundir y enfatizar la importancia del desarrollo en esta área. Palabras clave: biocomputación, bioinformática, vida artificial, biología molecular, biotecnología. 1. ¿Qué es la bioinformática? La bioinformática es el campo de la ciencia en donde la biología, las ciencias de la computación y las tecnologías de la información (TI) se unen para formar una sola disciplina. Este campo interdisciplinario comprende la investigación y desarrollo de herramientas útiles para llegar a entender el flujo de información desde los genes a las estructuras moleculares, a su función bioquímica, a su conducta biológica y, finalmente, a su influencia en las enfermedades y características agronómicas Una definición generalmente aceptada es: Una disciplina científica que se interesa por todos los aspectos relacionados con la adquisición, almacenamiento, procesamiento, distribución, análisis e interpretación de información biológica, mediante la aplicación de técnicas y herramientas de las matemáticas, de la biología y de la informática, con el propósito de comprender el significado biológico de una gran variedad de datos. 2. Orígenes y desarrollo Desde la propuesta de Wienner, los trabajos de Rosenblueth, Pitts, etc., siempre ha existido una gran influencia de los modelos biológicos aplicados a las computadoras o sus aplicaciones, por ejemplo: La inteligencia artificial (IA) toma muchas cosas sobre el funcionamiento del cerebro.

Bioinformática: una nueva área de oportunidad

Embed Size (px)

DESCRIPTION

Eugenio Jacobo Hernández ValdelamarPresentado en el CNCIIC del ANIEI. Jalisco, 2002.

Citation preview

Page 1: Bioinformática: una nueva área de oportunidad

Bioinformática: una nueva área de oportunidad

Eugenio Jacobo Hernández Valdelamar

Fundación Arturo Rosenblueth. Insurgentes Sur 670-3. Colonia del Valle. CP 03100. México, D.F., México

[email protected] [email protected]

Resumen. Este artículo presenta los conceptos fundamentales relativos a la bioinformática con el fin de difundir y enfatizar la importancia del desarrollo en esta área. Palabras clave: biocomputación, bioinformática, vida artificial, biología molecular, biotecnología.

1. ¿Qué es la bioinformática? La bioinformática es el campo de la ciencia en donde la biología, las ciencias de la computación y las tecnologías de la información (TI) se unen para formar una sola disciplina. Este campo interdisciplinario comprende la investigación y desarrollo de herramientas útiles para llegar a entender el flujo de información desde los genes a las estructuras moleculares, a su función bioquímica, a su conducta biológica y, finalmente, a su influencia en las enfermedades y características agronómicas Una definición generalmente aceptada es: Una disciplina científica que se interesa por todos los aspectos relacionados con la adquisición, almacenamiento, procesamiento, distribución, análisis e interpretación de información biológica, mediante la aplicación de técnicas y herramientas de las matemáticas, de la biología y de la informática, con el propósito de comprender el significado biológico de una gran variedad de datos.

2. Orígenes y desarrollo Desde la propuesta de Wienner, los trabajos de Rosenblueth, Pitts, etc., siempre ha existido una gran influencia de los modelos biológicos aplicados a las computadoras o sus aplicaciones, por ejemplo:

• La inteligencia artificial (IA) toma muchas cosas sobre el funcionamiento del cerebro.

Page 2: Bioinformática: una nueva área de oportunidad

• La vida artificial (VA) lleva los comportamientos de los animales a modelos de cómputo.

• Hay técnicas de optimización basadas en el procesamiento de información a nivel de genes (algoritmos genéticos)

Históricamente, el uso de las computadoras para resolver cuestiones biológicas comenzó con el desarrollo de algoritmos y su aplicación en el entendimiento de las interacciones de los procesos biológicos y las relaciones filogenéticas entre diversos organismos. El incremento exponencial en la cantidad de secuencias disponibles, así como la complejidad de las técnicas que emplean las computadoras para la adquisición y análisis de datos, han servido para la expansión de la bioinformática. El reto en la construcción de bases de datos es el establecimiento de una arquitectura que permita la realización de búsquedas inteligentes, comunicación con otras bases de datos y la unión con herramientas de análisis y minería de datos específicas que permitan dar respuesta a problemas biológicos concretos. Los científicos que se encarguen de la construcción de esas bases de datos deben tener unos conocimientos previos que les permitan determinar qué problemas científicos concretos necesitan una resolución y cuál o cuáles métodos son los mejores para resolverlos. La bioinformática comprende tres especialidades:

• La investigación y desarrollo de la infraestructura y sistemas de información y comunicaciones que requiere la biología moderna. (Redes y bases de datos para el genoma, estaciones de trabajo para procesamiento de imágenes). Bioinformática en sentido estricto.

• La computación que se aplica al entendimiento de cuestiones biológicas básicas, mediante el modelado y simulación como sistemas de vida artificial, algoritmos genéticos, redes de neuronas artificiales (biología molecular computacional).

• El desarrollo y utilización de sistemas computacionales basados en modelos y materiales biológicos. (biochips, biosensores, computación basada en ADN). Los computadores basados en DNA se están empleando para la secuenciación masiva y el análisis de diversas enfermedades, explotando su característica de procesamiento paralelo implícito (biocomputación).

3. Conceptos y técnicas principales Para entender el trabajo que se hace en bioinformática es necesario conocer algunos términos. Un genoma es el conjunto de los genes que caracterizan a una especie. Los genes (agrupados en cromosomas) están hechos de ADN, una molécula que puede considerarse un largísimo rosario en el que cada cuenta es un compuesto químico llamado base o nucleótido. Hay cuatro tipos de bases: A para la adenina, la T para la

Page 3: Bioinformática: una nueva área de oportunidad

timina, la G para la guanina y la C para la citosina, y éstas son las letras químicas con las que se escribe el lenguaje de la vida. La información genética está contenida en el orden exacto (o secuencia) de las bases a lo largo del ADN, al igual que la información literaria está contenida en el orden de las letras a lo largo de un texto. La combinación o la secuencia de las letras determinan el código genético de la célula. "Secuenciar" significa determinar el orden de las bases. El genoma humano mide cerca de 3.000 millones de bases: de ahí la dificultad de describirlo. El genoma no es más que el libro de instrucciones generales; quienes realizan el trabajo de verdad son las proteínas. El conjunto de todas las proteínas que intervienen en los procesos biológicos de una especie es lo que se conoce como proteoma de esa especie, y el objetivo que se plantea ahora es llegar a determinar la composición, estructura y funciones de todas y cada una de ellas. La bioinformática se ocupa de la aplicación de la computación a secuencias biológicas, tales como ADN o proteínas. No hay que confundirla con otras aplicaciones de la computación en el ámbito de la salud, como la informática médica y la telemedicina. El principal proceso que se realiza en bioinformática es el análisis de secuencias, el cuál consiste en "tratar de encontrar algo" relativo a una secuencia de un aminoácido o un nucleótido empleando técnicas de biología in silico. Este algo puede ser:

• aprender lo que hace una secuencia de ADN • confirmar que la clonación de un gen ha sido exitosa

• saber si un gusano tiene una proteína similar a los humanos

Page 4: Bioinformática: una nueva área de oportunidad

Fig. 1. Bioinformática: estructuras biológicas, datos, procesamiento y aplicaciones El análisis puede consistir de tareas como:

• extraer una secuencia de un gen

• buscar una secuencia en un gen o proteína Las tecnologías de la información y las comunicaciones ayudan a recolectar, organizar y distribuir información sobre el genoma humano, para emplearse en su análisis y en aplicaciones. Básicamente, los sistemas informáticos se emplean en este campo para:

• Adquisición de datos • Software para visualización

• Programas para control de reactivos, geles y otros materiales

• Generación y ensamblaje de secuencias • Análisis de datos

• Programas para análisis de secuencias • Predicción de estructura de proteínas

• Paquetes de integración y ensamblaje de mapas genéticos

• Software para clasificación y comparación

Page 5: Bioinformática: una nueva área de oportunidad

• Técnicas de Inteligencia Artificial • Gestión de datos

• Bases de datos locales o accesibles mediante redes de comunicaciones.

• Distribución de datos • Redes de comunicaciones

4. Sistemas bioinformáticos Las computadoras se usan de varias formas en la biología moderna:

• Recolectan y procesan señales detectadas por equipos de laboratorio (p.ej. secuenciadores de ADN, espectrógrafos).

• Supervisan muestras y administran experimentos en laboratorios industriales. • Almacenan datos en bases de datos públicas y proveen acceso a dichas bases

por medio de buscadores u otros mecanismos.

• Extraen patrones y reglas de grandes colecciones de datos y usan los patrones observados para caracterizar y predecir características en nuevas muestras de datos

• Anotación: uso de métodos de cómputo automatizados para asignar significado a los datos y crear ligas de información entre colecciones de datos diferentes.

• Simulación: la información conocida sobre un sistema, que junto con modelos matemáticos o fisicoquímicos, se usa para simular propiedades del sistema (p.ej. simulación de interacciones entre proteínas, flujos y rutas bioquímicas).

Existen 3 recursos fundamentales que se requieren para la investigación bioinformática: almacenamiento de datos, recursos de cómputo y ancho de banda. La administración del volumen de datos requiere de una infraestructura significativa de hardware y software.

Page 6: Bioinformática: una nueva área de oportunidad

LaboratoriosCentros de investigación

Fuentespúblicas

Fuentesprivadas

Sistemasfuente

Procesamientode datos

DW

DM DM DM

OLAP/Minería de datos

Servidor Web

Clientes

Aplicación

Fig. 2. Aproximación de la arquitectura de los sistemas bioinformáticos En ese sentido, en la figura 2 se presenta un esquema con la aproximación de una arquitectura genérica de un sistema bioinformática (aunque hay otras propuestas en desarrollo), donde los principales componentes son:

los sistemas de origen, que son los repositorios de información que se crean a partir de la investigación en laboratorios e institutos; estos recursos pueden ser públicos (GenBank, ProDom, TIGR, RegulonDB, AceDB) o privados (Celera).

los sistemas de procesamiento de datos, entre los que destacan los datawarehouse, encargados de concentrar y modelar la información para luego crear datamarts de contexto específico. Ya que se tiene la información en una presentación más adecuada puede procederse a explotarla con herramientas OLAP, de minería de datos o aplicaciones propietarias.

los sistemas de explotación (cliente), que pueden ser navegadores de Internet o clientes propietarios que se comunican con un servidor para procesar información específica.

En el caso de los sistemas de explotación, muchas tareas comunes en el trabajo con secuencias de ADN y proteínas, por ejemplo su lectura, alineamiento, manejo de bases de datos, etc., son realizadas por medio de programas comerciales, por ejemplo BLAST, FASTA, GCG. Adicionalmente existen proyectos más orientados a desarrolladores donde se proveen frameworks para el desarrollo de aplicaciones bioinformáticas (p.ej. BioJava, BioLisp, BioPerl, BioCORBA, BioXML, BSML)

Page 7: Bioinformática: una nueva área de oportunidad

5. Bioinformática en México Esta disciplina se está desarrollando en nuestro país de manera discreta, pero se está trabajando. Algunas de las instituciones que están desarrollando trabajos en esta área son:

• Centro investigación sobre la fijación del nitrógeno, con su programa de investigación en genómica computacional (http://www.cifn.unam.mx/) y en colaboración con Red Europea de Biología Molecular desarrollan el Nodo Nacional de Bioinformática EMBnet México (http://embnet.cifn.unam.mx/)

• Instituto de Biotecnología y el Instituto de Química de la UNAM (http://www.ibt.unam.mx/)

• Departamento de Biotecnología, UAM-Iztapalapa (http://www.iztapalapa.uam.mx/iztapala.www/division.cbs/biotecnolo/)

• Unidad Profesional Interdisciplinaria de Biotecnología (http://www.upibi.ipn.mx/)

• ITESM, con su programa de Verano de Investigación (http://w3.mor.itesm.mx/~esucar/veraniegos.html)

• UAEM, con su especialidad en biología molecular el su licenciatura (http://www.fc.uaem.mx)

6. Conclusiones La cultura bioinformática es necesaria para:

• los expertos que trabajan en esta área (biólogos, químicos, computólogos e informáticos)

• los estudiantes de carreras de biología, computación e informática. Inclusive es viable crear programas para formar especialistas "híbridos" (otros países lo están haciendo)

• el público en general, usuario de los resultados de las investigaciones Además las oportunidades de investigación y desarrollo para los profesionales de la informática y computación en esta área son muchas. Entre ellas destacaría:

• Desarrollo de laboratorios virtuales

• Desarrollo de técnicas y herramientas de procesamiento y visualización • Desarrollo de plataformas de cómputo para el procesamiento masivo de datos

e información. • Desarrollo de una legislación en el área para los derechos de propiedad

intelectual, licenciamiento, regulación y desarrollo de productos.

Page 8: Bioinformática: una nueva área de oportunidad

Por último, debe tomarse en cuenta que desarrollar recursos humano en esta disciplina es estratégico si queremos contar con tecnología y desarrollos propios. En ese sentido las principales habilidades y conocimientos que un profesional en bioinformática debe desarrollar son:

• Comprensión del método científico.

• Comprensión de los fundamentos de la biología molecular • Manejo de computadoras, ambientes operativos

• Conocimiento de lenguajes y técnicas de programación

• Establecer métodos para análisis y fragmentación de secuencias (de información biológica), ensamblado de mapas y predicción y extracción de características de secuencias.

• Establecer métodos para el análisis y simulación de estructuras moleculares

• Soporte de cómputo a laboratorios de biología

• Diseño, implementación e integración de bases de datos biológicas. • Algoritmos y métodos de bioinformática (p.ej. redes neuronales,

programación dinámica, etc.)

Page 9: Bioinformática: una nueva área de oportunidad

Referencias

[1] VSNS Bioinformatic division http://www.techfak.uni-bielefeld.de/bcd/ [2] BioComputing Hypertext Coursebook http://www.techfak.uni-bielefeld.de/bcd/Curric/welcome.html [3] Biocomputing for schools http://www.uni-mainz.de/~cfrosch/bc4s/ [4] Genes y genomas http://www.elpais.es/especiales/2000/genoma/index.html [5] Bioinformática o cómo perder el tren sin darse cuenta http://www.ciencias.uma.es/publicaciones/encuentros/ENCUENTROS61/bioinformatica.html [6] Bioinformatics Resources http://biotech.icmb.utexas.edu/pages/bioinform/biresources.html [7] Bioinformatics.org http://bioinformatics.org [8] Gene Expression Warehousing (GEWare) http://dbs.uni-leipzig.de/en/projekte/BIOINF/gewarehouse.html [9] Web Services for Bioinformatics http://www.oreillynet.com/pub/a/webservices/2002/05/14/biows.html [10] Integrated Bioinformatics Information System (IBIS) Beyond ISGD http://wwwcbbc.murdoch.edu.au/research/ibis/ [11] Bioinformatics Architecture Project http://www.ctaalliance.org/MCBI/BioinfoArch.html [12] GenoMax System Architecture http://www.informaxinc.com/solutions/genomax/architecture.html [13] A web-based bioinformatic system links microscope images to experimental data http://proteomicssurf.com/forums/showthread.php?s=b56b4c5ea5f2aaa0b5f466cb75cd2890&postid=880#post880

[14] Proyecto de bioinformática: Pattern Matching http://www1.imim.es/courses/BioinformaticaUPF/projects/4.3/ [15] Bioinformantes http://www.cecalc.ula.ve/bioinformatica/bioinformantes/espa-ol/introducci-n/ [16] Programa de Doctorado 'Genética y Biotecnología' http://www.ugr.es/~oliver/Doctorado/bioinformatica.html [17] Computers + Biology = Bioinformatics http://biotech.about.com/gi/dynamic/offsite.htm?site=http%3A%2F%2Fwww.oreilly.com%2Fnews%2Fbioinformatics_0401.html [18] Biología+Informática= ¿nombre? R. Lahoz-Beltrá http://bioinformatica.el.sitio.net/ [19] DNA from the beginning http://www.dnaftb.org/dnaftb/ [20] Molecular biology workbook http://www.iacr.ac.uk/notebook/wwwresource/bioinformaticcourses434.htm [21] Sequence Analysis With Distributed Resources http://bibiserv.techfak.uni-bielefeld.de/sadr/index2.html [22] Bioinformatics Law Resources http://www.denniskennedy.com/bioinformaticslaw.htm