¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?

¿Como podemos saber donde están

localizados los genes conociendo únicamente la información de la secuencia?

http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?chr=rat.inf

OrganismoTamaño del Genoma

# de genesUnidad génica.(Tamaño promedio de un gen)

Procariota:

Mycoplasma genitalium 0.58 473 1235 bp

Haemophilus influenzae 1.8 1,709 1042 bp

Eucariota:

Saccharomyces cerevisiae 1.3 6,241 2,100 bp

Neurospora crassa 42.9 10,000 - 13,000 3,000 - 4,000 bp

Drosophila melanogaster 165 13,601 10,000 bpCaenorhabditis elegans 100 18,424 Homo sapiens 2,910 30,000 - 40,000

I. Transcripto de 1 solo gen

ATG TAA

Transcripto (RNAm)

Secuencia codificante

Sitio de inicio de la transcripción

Promotor

Sitio de unión a ribosoma (RBS)

hisG

Fin de la traducción

Terminador transcripcional

La orientación del promotor determina el sentido de la transcripción (y por lo tanto cuál de las 2 hebras se transcribe)

Sitio inicio de la traduccion (ATG)

II. Operón Policistrónico

ATG TAA

Transcripto (RNAm)

Secuencia codificante

Sitio de inicio de la transcripción

Promotor

hisG

Fin de la traducción

Terminador transcripcional

TAA ATGSecuencia codificante

hisH

Sitio de unión a ribosoma

(RBS)

Sitio inicio de la traduccion

(ATG)

+

Uno por operón

Uno por gen

MAR = Matrix attachement regions BE = Boundary elements (evita que el enhancer actúe en otro gen)

enhancer promotor

Señal Poly-A

Exon 5’ no codificante

Inicio transcripción intrones

ATG STOP

Exones internos

DNA

Transcripción, capping en 5’ y polyadenilación

Splicing (remoción de los intrones)

Traducción

PROTEÍNA

Pre-mRNA

mRNA

Exon 5’ no codificante

•Muestran una distribución muy amplia de tamaños

•No hay grandes diferencias en el tamaño de los exones entre

diferentes organismos

•En general los intrones son mas largos que los exones

•La distribución de los tamaños de los intrones varía desde el mismo

largo que los exones (>200 pb) hasta 50-60 Kb en casos extremos

•No hay una correlación entre el tamaño del gen y el tamaño de los RNAms

•No hay buena una correlación entre tamaño del gen y el número de exones

• Las secuencias de los exones son conservadas pero los intrones varían

Localizar los marcos abiertos de lectura ORFs, Open Reading Frames

La interpretación del resultado es más sencilla en procariotas que en eucariotas

La búsqueda por homología de los posibles ORF sólo predice un 50% de los genes

Los ORFs comienzan con un codón Start (AUG = Met, casi siempre) Finaliza con uno de los tres codones stops (UAA, UAG, UGA).

ORF FindingSe analizan todos los marcos de lectura abiertos: total 6 (inicio en cada base de un codón y en los dos sentidos).

Busca codones de iniciación (Met=AUG o codones alternativos GUG, CUG o UUG )

y terminación dentro de la secuencia (UAA, UAG, UGA).

¿Cómo detectar ORFs?

El programa permite:- Definir límite: secuencias de menos de 100 bases antes de un stop codon (33 amino acids) se excluyen. Promedio > 100 aa-Seleccionar el codon de inicio-Seleccionar el “codon usage”

código genético no esta totalmente conservado

http://www.kazusa.or.jp/codon/

• The genetic code - Each amino acid is coded by 3 nucleotides, named codon.• Code redundancy - Most amino acids are coded by several codons.

- 64 triplets code f or 20 amino acids & 3 stop codons.

The Genetic Code

http://bio.lundberg.gu.se/edu/translat.html

http://www.ebi.ac.uk/Tools/emboss/transeq/index.html

http://www.expasy.ch/tools/dna.htmlExPASy (Expert Protein Analysis System)

Online Analysis Tools University of Guelph, CANADA

EMBOSS Transeq from EBI.

DNA to Protein Translation

http://molbiol-tools.ca/Translation.htm

Identificar sitios dentro de un gen es una actividad que

entra dentro de lo conocido como “data mining”

1. Reconocimiento de sitios de splicing

sitios canónicos de splicing (par GT-AG)

consenso en el sitio donante AG|GTRAGT (R=A o G)

consenso en el sitio aceptor

sitios de splicing no canónicos (GC-G, etc)

2. Reconocimiento de promotores

3. Predicción de sitios poly-A

4. Predicción de sitios de terminacion de la transcricion

• Los sitios de unión son muy conservados.

La secuencia altamente conservada (99%) se encuentra inmediatamente dentro del intrón en los sitios de unión

La secuencia de un intrón genérico se define como GT………….AG

GT-AG = 99.24%GT-AG = 99.24%

GC-AG = 0.7% GC-AG = 0.7%

AT-AC = 0.05%AT-AC = 0.05%

Splicing (en genes eucariotas)

Reconocer un sitio de splicing 5’

Asumimos que :

•La secuencia de ADN comienza en un exón, contiene solo un sitio de splicing 5´ y termina en un intrón.

•Las secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticas

Exones: tienen una composición uniforme de bases , ATCG (25%) Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G.

Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%)

Predice estructuras genéticas completas, incluyendo exones

intrones, promotores y señales de polyadenilación en

secuencias genómicas.

Permite búsquedas sobre genes incompletos y sobre

cadenas simples o dobles.

Métodos estadísticos y modelos probabilísticos para predicción de motivos en las secuencias. (modelos de Markov o HMM)

Alineamientos basados en patrones conservados encontrados en el mismo orden en distintas secuencias.

http://genes.mit.edu/GENSCAN.html

http://spliceport.cs.umd.edu/

PromotorePromotoress

TTGACA

-35 hexamero

espaciador

TATAAT

-10 hexamero

+1

intervalo 15 a 19

bases5 a 9

bases

RBS – Ribosome Binding Site (Shine-Dalgarno) conservadas aprox -15 upstream AUG. (en B. subtilis la RBS es AGGAGG)

Características de los promotores de E. coli

Características de los terminadores rho-independentes

Secuencia en el ADNque marca la terminación de la transcripción para la RNA polimerasa, NO CONFUNDIR con los codones terminadores de la traducción

Terminadores de la trTerminadores de la transcripciónanscripción

Stem loop energia libre debajo de -7 kcal/mol

Tallo de 5-10 pb con un mínimo de 60% GC

At least 4 U residues

Loop de 3-8 bases

5’ UUUU 3’

•Señales de Transcripcion :

TATA box (~-30 TSS), CAAT box (~-75 TSS), GC box (~-90 TSS),

Señal cap,

Sitio de poli-adenilación.

Enhancers

En Eucariotas

TSS= translation start site: señal de Kozak (upstream ATG), GCC[A/G]CCaugG[not U] == óptimo [A/G]NNaugG[not U] == fuerte ; con ‘A’ a -3 mas fuerte que con ‘G’ Cualquier otra combinacion = débil Señales de Splicing

Señales de traduccion


http://molbiol-tools.ca/Promoters.htm

http://www.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgroup=gfindb

http://www-bimas.cit.nih.gov/molbio/proscan/

http://www.cbrc.jp/research/db/TFSEARCH.html

Enhancer

http://meme.sdsc.edu/meme/

A generic approach to identify Transcription Factor-specific operator motifs; Inferences for LacI-family mediated regulation in Lactobacillus plantarum WCFS1.

Francke C, Kerkhoven R, Wels M, Siezen RJ. BMC Genomics. 2008 Mar 27;9:145.

http://www.ualberta.ca/~stothard/javascript/index.html

Genes RNA Funcionales

• genes RNA transcriptos pero no tranducidos – no hay preferencia de codones.Cómo se predicen genes de rRNA, tRNA y small RNA?

Buscar región Promotora (no es tan especifico)

Estructura secundaria RNA es importante.Puede ser predicta usando RNA structure Prediction tools (MFOLD tool).

http://mfold.bioinfo.rpi.edu/cgi-bin/rna-form1.cgi

Identificar Small RNAsFunciones regulatorias

• Basados en 10 sRNA conocidos en E. coli se predicen 24 sRNAs, 14 de los cuales han sido verificados experimentalmente.

• 3 estudios posteriores identifican ~ 20 mas sRNA genes en E. coli.


Localizar regiones “vacias” genoma E. coli

ORF A

ORF B

ORF C

“Empty” regions

buscar promoteres reconocidos 70 RNA polimerasa

Identificar rho-independent terminators

Rescatar secuencias donde la distancia entre promotor y terminador sea 50 a 400 bases.

-35 -10

Promoter +1 Terminator

50-400 bases

TTTT

Buscar consenso en otras bacterias

-35 -10

Promoter +1

Esquema predictivoEsquema predictivo

Argaman et. Al – Current Biology 2001.

Documents

¿Como podemos saber donde están localizados los genes conociendo únicamente la información de la secuencia?