Upload
belen-padua
View
216
Download
0
Embed Size (px)
Citation preview
¿Como podemos saber donde están
localizados los genes conociendo únicamente la información de la secuencia?
OrganismoTamaño del Genoma
# de genesUnidad génica.(Tamaño promedio de un gen)
Procariota:
Mycoplasma genitalium 0.58 473 1235 bp
Haemophilus influenzae 1.8 1,709 1042 bp
Eucariota:
Saccharomyces cerevisiae 1.3 6,241 2,100 bp
Neurospora crassa 42.9 10,000 - 13,000 3,000 - 4,000 bp
Drosophila melanogaster 165 13,601 10,000 bpCaenorhabditis elegans 100 18,424 Homo sapiens 2,910 30,000 - 40,000
I. Transcripto de 1 solo gen
ATG TAA
Transcripto (RNAm)
Secuencia codificante
Sitio de inicio de la transcripción
Promotor
Sitio de unión a ribosoma (RBS)
hisG
Fin de la traducción
Terminador transcripcional
La orientación del promotor determina el sentido de la transcripción (y por lo tanto cuál de las 2 hebras se transcribe)
Sitio inicio de la traduccion (ATG)
II. Operón Policistrónico
ATG TAA
Transcripto (RNAm)
Secuencia codificante
Sitio de inicio de la transcripción
Promotor
hisG
Fin de la traducción
Terminador transcripcional
TAA ATGSecuencia codificante
hisH
Sitio de unión a ribosoma
(RBS)
Sitio inicio de la traduccion
(ATG)
+
Uno por operón
Uno por gen
MAR = Matrix attachement regions BE = Boundary elements (evita que el enhancer actúe en otro gen)
enhancer promotor
Señal Poly-A
Exon 5’ no codificante
Inicio transcripción intrones
ATG STOP
Exones internos
DNA
Transcripción, capping en 5’ y polyadenilación
Splicing (remoción de los intrones)
Traducción
PROTEÍNA
Pre-mRNA
mRNA
Exon 5’ no codificante
•Muestran una distribución muy amplia de tamaños
•No hay grandes diferencias en el tamaño de los exones entre
diferentes organismos
•En general los intrones son mas largos que los exones
•La distribución de los tamaños de los intrones varía desde el mismo
largo que los exones (>200 pb) hasta 50-60 Kb en casos extremos
•No hay una correlación entre el tamaño del gen y el tamaño de los RNAms
•No hay buena una correlación entre tamaño del gen y el número de exones
• Las secuencias de los exones son conservadas pero los intrones varían
Localizar los marcos abiertos de lectura ORFs, Open Reading Frames
La interpretación del resultado es más sencilla en procariotas que en eucariotas
La búsqueda por homología de los posibles ORF sólo predice un 50% de los genes
Los ORFs comienzan con un codón Start (AUG = Met, casi siempre) Finaliza con uno de los tres codones stops (UAA, UAG, UGA).
ORF FindingSe analizan todos los marcos de lectura abiertos: total 6 (inicio en cada base de un codón y en los dos sentidos).
Busca codones de iniciación (Met=AUG o codones alternativos GUG, CUG o UUG )
y terminación dentro de la secuencia (UAA, UAG, UGA).
¿Cómo detectar ORFs?
El programa permite:- Definir límite: secuencias de menos de 100 bases antes de un stop codon (33 amino acids) se excluyen. Promedio > 100 aa-Seleccionar el codon de inicio-Seleccionar el “codon usage”
código genético no esta totalmente conservado
http://www.kazusa.or.jp/codon/
• The genetic code - Each amino acid is coded by 3 nucleotides, named codon.• Code redundancy - Most amino acids are coded by several codons.
- 64 triplets code f or 20 amino acids & 3 stop codons.
The Genetic Code
http://bio.lundberg.gu.se/edu/translat.html
http://www.ebi.ac.uk/Tools/emboss/transeq/index.html
http://www.expasy.ch/tools/dna.htmlExPASy (Expert Protein Analysis System)
Online Analysis Tools University of Guelph, CANADA
EMBOSS Transeq from EBI.
DNA to Protein Translation
http://molbiol-tools.ca/Translation.htm
Identificar sitios dentro de un gen es una actividad que
entra dentro de lo conocido como “data mining”
1. Reconocimiento de sitios de splicing
sitios canónicos de splicing (par GT-AG)
consenso en el sitio donante AG|GTRAGT (R=A o G)
consenso en el sitio aceptor
sitios de splicing no canónicos (GC-G, etc)
2. Reconocimiento de promotores
3. Predicción de sitios poly-A
4. Predicción de sitios de terminacion de la transcricion
• Los sitios de unión son muy conservados.
La secuencia altamente conservada (99%) se encuentra inmediatamente dentro del intrón en los sitios de unión
La secuencia de un intrón genérico se define como GT………….AG
GT-AG = 99.24%GT-AG = 99.24%
GC-AG = 0.7% GC-AG = 0.7%
AT-AC = 0.05%AT-AC = 0.05%
Splicing (en genes eucariotas)
Reconocer un sitio de splicing 5’
Asumimos que :
•La secuencia de ADN comienza en un exón, contiene solo un sitio de splicing 5´ y termina en un intrón.
•Las secuencias de los exones, intrones y sitios de splicing deben tener diferentes propiedades estadísticas
Exones: tienen una composición uniforme de bases , ATCG (25%) Intrones: ricos en A/T (40% de A, 40% de T), 10% de C y 10%G.
Sitio de Splicing (SS) : es casi siempre una G (95%) y A (5%)
Predice estructuras genéticas completas, incluyendo exones
intrones, promotores y señales de polyadenilación en
secuencias genómicas.
Permite búsquedas sobre genes incompletos y sobre
cadenas simples o dobles.
Métodos estadísticos y modelos probabilísticos para predicción de motivos en las secuencias. (modelos de Markov o HMM)
Alineamientos basados en patrones conservados encontrados en el mismo orden en distintas secuencias.
http://genes.mit.edu/GENSCAN.html
http://spliceport.cs.umd.edu/
PromotorePromotoress
TTGACA
-35 hexamero
espaciador
TATAAT
-10 hexamero
+1
intervalo 15 a 19
bases5 a 9
bases
RBS – Ribosome Binding Site (Shine-Dalgarno) conservadas aprox -15 upstream AUG. (en B. subtilis la RBS es AGGAGG)
Características de los promotores de E. coli
Características de los terminadores rho-independentes
Secuencia en el ADNque marca la terminación de la transcripción para la RNA polimerasa, NO CONFUNDIR con los codones terminadores de la traducción
Terminadores de la trTerminadores de la transcripciónanscripción
Stem loop energia libre debajo de -7 kcal/mol
Tallo de 5-10 pb con un mínimo de 60% GC
At least 4 U residues
Loop de 3-8 bases
5’ UUUU 3’
•Señales de Transcripcion :
TATA box (~-30 TSS), CAAT box (~-75 TSS), GC box (~-90 TSS),
Señal cap,
Sitio de poli-adenilación.
Enhancers
En Eucariotas
TSS= translation start site: señal de Kozak (upstream ATG), GCC[A/G]CCaugG[not U] == óptimo [A/G]NNaugG[not U] == fuerte ; con ‘A’ a -3 mas fuerte que con ‘G’ Cualquier otra combinacion = débil Señales de Splicing
Señales de traduccion
http://molbiol-tools.ca/Promoters.htm
http://www.softberry.com/berry.phtml?topic=fgenesb&group=programs&subgroup=gfindb
http://www-bimas.cit.nih.gov/molbio/proscan/
http://www.cbrc.jp/research/db/TFSEARCH.html
Enhancer
http://meme.sdsc.edu/meme/
A generic approach to identify Transcription Factor-specific operator motifs; Inferences for LacI-family mediated regulation in Lactobacillus plantarum WCFS1.
Francke C, Kerkhoven R, Wels M, Siezen RJ. BMC Genomics. 2008 Mar 27;9:145.
http://www.ualberta.ca/~stothard/javascript/index.html
Genes RNA Funcionales
• genes RNA transcriptos pero no tranducidos – no hay preferencia de codones.Cómo se predicen genes de rRNA, tRNA y small RNA?
Buscar región Promotora (no es tan especifico)
Estructura secundaria RNA es importante.Puede ser predicta usando RNA structure Prediction tools (MFOLD tool).
http://mfold.bioinfo.rpi.edu/cgi-bin/rna-form1.cgi
Identificar Small RNAsFunciones regulatorias
• Basados en 10 sRNA conocidos en E. coli se predicen 24 sRNAs, 14 de los cuales han sido verificados experimentalmente.
• 3 estudios posteriores identifican ~ 20 mas sRNA genes en E. coli.
Localizar regiones “vacias” genoma E. coli
ORF A
ORF B
ORF C
“Empty” regions
buscar promoteres reconocidos 70 RNA polimerasa
Identificar rho-independent terminators
Rescatar secuencias donde la distancia entre promotor y terminador sea 50 a 400 bases.
-35 -10
Promoter +1 Terminator
50-400 bases
TTTT
Buscar consenso en otras bacterias
-35 -10
Promoter +1
Esquema predictivoEsquema predictivo
Argaman et. Al – Current Biology 2001.