Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

STRUCTURA BIOLOGICĂ.

§2.2. REPREZENTAREA &

PRELUAREA & STOCAREA

SECVENŢELOR

Sorana D. BOLBOACĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

2 Despre …

Reprezentarea şi preluarea secvenţelor:

Definiţie

Modalităţi de codificare-reprezentare Prezentare

Stocarea secvenţelor de nucleotide & aminoacizi Modalitate Baze de date: exemple Principii de căutare în baze de date dedicate


3 DEFINIŢIE

Secvenţa = set liniar de caractere reprezentate

de nucleotide sau amino acizi ADN: 4 nucleotide (baze) – A, C, G, T ARN: 4 nucleotide - A, C, G, U Proteine: amino acizi


4 REPREZENTAREA SECVENŢELOR

Caractere: Simple Uşor de editat, citit,

etc. Codificare – bit:

Utilizată în stocarea secvenţelor (memorie sau disc calculator)

Mai compact Compresie eficientă

(volum mare de date –spaţiu mic)

Reprezentarea caracterelor: ADN & ARN: cod cu

o singură literă (A, C, G, T/U).

Proteine: Cod cu o singură literă

– C = Cys Cod cu trei litere - Ala

= A = Alanina Cod 1-literă ↔ 3-litere


5 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Incertitudinea în secvenţe de nucleotice = pentru o

anumită poziţie e posibilă existenţa uneia sau altei

molecule Când?

Pentru a exprima ambiguitate în timpul secvenţierii

Pentru a exprima variaţia unei poziţii în gene în timpul

evoluţiei

Pentru a exprima capacitatea unei enzime de a tolera mai mult de o bază la o anumită poziţie a unui site de

recunoaştere


6 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Nucleotide: Set de coduri de caractere unic, care reprezintă

toate combinaţiile posibile de baze

Propuse şi adoptate de Uniunea Internaţională

de Biochimie şi este menţionată ca IUB cod


7 CODUL IUB (International Union of Biochemistry)

Baze standard – cod genetic

Codul DenumireaA AdeninaC CitozinaG GuaninaT TiminaU Uracil


8 CODUL IUB (International Union of Biochemistry) Baze standard - derivaţii – cod genetic (NC-IUB)

R = A, G (puRine) Y = C, T

(pYrimidine) S = G, C (Strong

hydrogen bonds) W = A, T (Weak

hydrogen bonds) M = A, C (aMino

group)

K = G, T (Keto group)

B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U

(iNdeterminate) X or - are sometimes used


9 CODUL IUB

Amino acizi


10REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Proteine: Realizarea unui cod este mai dificilă datorită

numărului mare de aminoacizi

Incertitudinea e mai puţin frecventă în

secvenţele de amino acizi decât în secvenţele de

nucleotide Se poate utiliza o codificare de tip bit dar rar

este şi utilizată


11BAZE DE DATE: DE CE?

Date biologice disponibile pentru cercetători

Consolidarea datelor din diferite surse Asigurarea accesului la seturi de date mari, care

nu pot fi publicate (ex. genom, etc.) Asigură accesul la date biologice în format

electronic Asigura accesibilitatea datelor pentru analize

automate


12BAZE DE DATE: DATE VS. BAZE DE DATE

Date

Tipuri de date: • secvenţe de nucleotide

• secvenţe de proteine

• structuri 3D • expresia genelor • căi metabolice

•...

12

Date de intrare şi controlul

calităţii:

• date depozitate • personal specializat adaugă şi

actualizează datele

• datele eronate sunt eliminate sau marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare

•...

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

erorile sunt verificate caracteristici: coerenţă şi actualizare

căi metabolice marcate

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

• căi metabolice

•...marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare

•...Date primare sau secundare:

• Primare: date experimentale • Secundare: rezultate ale analizei bazelor de date primare • Unificarea mai multor baze de date •...


13BAZE DE DATE: DATE VS. BAZE DE DATE

Baze de date

Organizare: • fişiere plane

• baze de date relaţionale

• baze de date orientate-obiect •...

Disponibilitate: • accesibile publicului fără nici

o restricţie

• disponibile dar cu drepturi de autor • accesibile dar nu se pot salva • academice, dar nu disponibile fără cost

• comerciale

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

academice, dar nu disponibile fără cost

• academice, dar nu

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

obiect •...

• academice, dar nu disponibile fără cost

• comerciale

Curatori: • Instituţii mari, publice (EMBL, NCBI)• Instituţii cvasi-academice (Swiss institute of Bioinformatics, TIGR, etc.)• Grupuri academice sau de cercetare • Companii comerciale ...


14BAZE DE DATE

Clasificare în funcţie de conţinut:

Descriptiv: denumire, taxonomie, descrierea speciei Kew Plants People Possibilities: http://www.kew.org/plants-

fungi/index.htm Plants Database: http://plants.usda.gov/ Uncon Plant Database: http://www.hort.uconn.edu/plants/ HoriPlex Plant Darabase:

http://hortiplex.gardenweb.com/plants/ Native Plant Database: http://www.wildflower.org/plants/ Tropical Plant Database: http://www.rain-tree.com/plants.htm Plant Encyclopedia Database:

http://www.plantcare.com/encyclopedia/

http://www.kew.org/plants-fungi/index.htm



http://plants.usda.gov/

http://www.hort.uconn.edu/plants/

http://hortiplex.gardenweb.com/plants/

http://www.wildflower.org/plants/

http://www.rain-tree.com/plants.htm



http://www.plantcare.com/encyclopedia/


15BAZE DE DATE


Descriptiv: denumire, taxonomie, descrierea speciei Walters Garden Database:

http://www.waltersgardens.com/plants/ Carnivore Plant Database:

http://www.omnisterra.com/bot/cp_home.cgi PLANTfacts: http://plantfacts.osu.edu/

http://www.waltersgardens.com/plants/

http://www.omnisterra.com/bot/cp_home.cgi

http://plantfacts.osu.edu/


16BAZE DE DATE


Structură genetică:

Genomul la plante: http://data.kew.org/cvalues/ NCBI: http://data.kew.org/cvalues/ PlantGBD: http://www.plantgdb.org/ Plant Genome Research "Outreach“:

http://www.plantgdb.org/PGROP/pgrop.php BarleyBase:

http://www.plexdb.org/plex.php?database=Barley

http://data.kew.org/cvalues/

http://data.kew.org/cvalues/

http://www.plantgdb.org/

http://www.plantgdb.org/PGROP/pgrop.php

http://www.plexdb.org/plex.php?database=Barley


17BAZE DE DATE



TIGR Rice Genome: http://blast.jcvi.org/euk-blast/index.cgi?project=osa1

Brassica Genome Gateway: http://brassica.bbsrc.ac.uk/

Oryzabase: http://www.shigen.nig.ac.jp/rice/oryzabase/top/top.jsp

RiceGAAS: http://ricegaas.dna.affrc.go.jp/rgadb/ BeanGenes Database:

http://beangenes.cws.ndsu.nodak.edu/ ChlamyDB: http://www.chlamy.org/chlamydb.html

http://blast.jcvi.org/euk-blast/index.cgi?project=osa1



http://brassica.bbsrc.ac.uk/

http://www.shigen.nig.ac.jp/rice/oryzabase/top/top.jsp

http://ricegaas.dna.affrc.go.jp/rgadb/

http://beangenes.cws.ndsu.nodak.edu/

http://www.chlamy.org/chlamydb.html


18BAZE DE DATE



CottonDB: http://cottondb.org/ EMBL Nucleotide Sequence Database:

http://www.ebi.ac.uk/embl/ DDBJ: http://www.ddbj.nig.ac.jp/fromddbj-e.html PlantPromoterDB: http://ppdb.gene.nagoya-

u.ac.jp/cgi-bin/index.cgi

http://cottondb.org/

http://www.ebi.ac.uk/embl/

http://www.ddbj.nig.ac.jp/fromddbj-e.html



http://ppdb.gene.nagoya-u.ac.jp/cgi-bin/index.cgi






19BAZE DE DATE: SECVENŢE DE NUCLEOTIDE

EMBL: www.ebi.ac.uk/embl GenBank: www.ncbi.nlm.nih.gov/GenBank DDBJ: www.ddbj.nig.ac.jp

Sincronizarea zilnică a conţinutului (pe baza codului de

aderare: un şir de litere şi cifre care identifică în mod

unic o intrare în baza sa de date – spre deosebire de identificator codul de aderare nu se modifică)

Nu există specificaţii legale cu privire la utilizarea

acestor baze de date – există însă o serie de secvenţe

brevetate


20BAZE DE DATE: PROTEINE

Protein Information Resource: http://pir.georgetown.edu

SWISS-PROT: http://www.expasy.ch/sprot

http://pir.georgetown.edu/

http://www.expasy.ch/sprot


21BAZE DE DATE: BIOMOLEULE

PDB: http://www.rcsb.org SCOP: http://scop.berkeley.edu CATH: http://biochem.ucl.ac.uk/bsm/CATH ASTRAL: http://astral.berkeley.edu HOMSTRAD: http://www-cryst.bioc.cam.ac.uk/data/align/ Interfeţe la PDB:

PDB at a glance:http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html

Molecules to go: http://molbio.info.nih.gov/cgi-bin/pdb/ EBI interface: http://www.ebi.ac.uk/msd/ PDBSum: http://www.ebi.ac.uk/thornton-

srv/databases/pdbsum

http://www.rcsb.org/

http://scop.berkeley.edu/

http://biochem.ucl.ac.uk/bsm/CATH

http://astral.berkeley.edu/

http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html

http://molbio.info.nih.gov/cgi-bin/pdb/



http://www.ebi.ac.uk/msd/

http://www.ebi.ac.uk/thornton-srv/databases/pdbsum




22RESURSE NCBI: SECVENŢE DE BAZE

Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery

http://www.ncbi.nlm.nih.gov/sites/gquery



dbEST: secvenţe single de cADN http://www.ncbi.nlm.nih.gov/dbEST/index.html

http://www.ncbi.nlm.nih.gov/dbEST/index.html



dbGSS: secvenţe genomice

http://www.ncbi.nlm.nih.gov/dbGSS/index.html

http://www.ncbi.nlm.nih.gov/dbGSS/index.html



dbSTS:http://www.ncbi.nlm.nih.gov/dbSTS/index.html

http://www.ncbi.nlm.nih.gov/dbSTS/index.html



dbSNP: polimorfism nucleotidic http://www.ncbi.nlm.nih.gov/SNP/index.html

http://www.ncbi.nlm.nih.gov/SNP/index.html



Structure: http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure

http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure



Genome: http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome

http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome



Proteine: http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein

http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein



Nucleotide: http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide



Taxonomy: http://www.ncbi.nlm.nih.gov/sites/entrez?db=taxonomy

http://www.ncbi.nlm.nih.gov/sites/entrez?db=taxonomy



Taxonomy: Arabidopsis thaliana























40ENTREZ

Introducere semi-automată a informaţiei în

baza de date Legătura dintre diferitele baze de date este dată

de prezentarea critică a utilităţii

Sequence searching: Căutarea se secvenţe pentru o anumită genă sau

proteină

Secvenţele identificate se pot copia sau salva


42ENTREZ: PUBMED

Similaritatea între documente este măsurată prin

intermediul cuvintelor pe care documentele le au în

comun: Care cuvinte sunt luate în considerare?

Care este greutatea fiecărui cuvânt?

Cum putem calcula scorul de similaritate pentru 2 articole?


43ENTREZ: PUBMED

Evaluarea cuvintelor: Ponderea unei perechi de cuvinte comune:

local wt1 * local wt2 global wt

Similaritatea dintre două articole: suma

ponderilor pentru toate cuvintele comune Cu cât valoarea este mai mare cu atât mai similare

sunt articolele investigate


44ENTREZ: PUBMED

Evaluarea cuvintelor: Pondere globală: e mai bună dacă cuvântul e

mai puţin frecvent în întreaga bază de date

Pondere locală:

E mai bună dacă cuvântul este mai frecvent în

interiorul documentului Nu sunt favorizate documentele mai lungi


45ENTREZ: SEQUENCE SEARCHING

Studiu de caz: identificarea de secvenţe pentru MRP1 (ARABIDOPSIS THALIANA MULTIDRUG RESISTANCE-ASSOCIATED PROTEIN 1) OMIM: căutare de cuvinte cheie. Nucleotide database:

Identificare secvenţe nucleotide. Denumire de gene

Protein database: identificare secvenţe proteice. GenPept: salvare a secvenţelor identificate. PubMed: identificare articole de specialitate.

Related Articles: identificarea articolelor similare. Limits: limitarea căutării


46ENTREZ: SEQUENCE SEARCHING


47ENTREZ: NUCLEOTIDES


48ENTREZ: NUCLEOTIDES


49ENTREZ: NUCLEOTIDES → GenPept


50ENTREZ: NUCLEOTIDES → FASTA


51ENTREZ: RELATED STRUCRURES


52ENTREZ: IDENTICAL PROTEINS


53ENTREZ: GENOME


54ENTREZ: GENOME


55ENTREZ: GENOME


56ENTREZ: TAXONOMY


57ENTREZ: GENE


58ENTREZ: SEQUENCE READ


59ENTREZ: HOMOLOGENE


60ENTREZ: PROTEINCLUSTERS


61ENTREZ: UNIGENE


62SECVENŢE: TIPURI DE FIŞIERE

Formatul fişierelor:

Text sau binar Minim sau adnotat

Fişierele de tip text:

Utilizează codul IUB

Se pot citi cu procesoarele de text (ex. Microsoft Word, Crimson, etc.)

Fişierele binare:

Se citesc cu programele cu care au fost create (ex. MacVector) Fişierele adnotate conţin informaţii cunoscute cu privire la

secvenţele conţinute

Annotated files preserve information known about the sequence (codarea regiunii de start şi stop, proprietăţile proteinelor, literatura de specialitate, etc.)


63SECVENŢE: TIPURI DE FIŞIERE

Genome Browser BED & bigBED PSL GFF GTF MAF BAM WIG & bigWIG

Genome Browser Microarray Chain Net Axt .2bit .nib


64TIPURI DE FIŞIERE: BED & bigBED Trei câmpuri obligatorii:

1. chrom – numele cromozomului (ex. chr3, chrY, chr2_random) sau schelet (ex. scaffold10671).

2. chromStart – poziţia de start a cromozomului sau scheletului – prima bază din cromozom este pe poziţia 0

3. chromEnd – poziţia de stop a cromozomului sau scheletului.

Nouă câmpuri adiţionale:

4. name – defineşte denumirea liniei BED – afişat la dreapta liniei BED în fereastra Genome Browser.

5. score – un scor între 0 şi 1000 identificat în gri

6. strand – definit ca fiind '+' or '-'


65TIPURI DE FIŞIERE: BED & bigBED

Nouă câmpuri adiţionale:

7. thickStart – poziţia de start la care începe o anumită caracteristică

(ex. codonul de start a unei secvenţe genice)

8. thickEnd – poziţia de stop la care o anumită caracteristică se

termină (ex. codonul stop).

9. itemRgb – valorarea culorilor în spectrul RGB (ex. 255,0,0). blockCount – numărul de exoni din linia BED

10. blockSizes – volumul exeonilor – numărul de valori din această listă

corespunde cu numărul din blockCount.11. blockStarts – listă cu blocurile start calculate relativ la chromStart.


66TIPURI DE FIŞIERE: GFF

GFF = General Feature Format1. seqname – numele secvenţei.2. source - programul cu care s-a obţinut.3. feature – numele caracteristicii de interes ("CDS", "start_codon",

"stop_codon", "exon“, etc).4. start – poziţia de start a secvenţei. Prima bază din secvenţă este

1.5. end – poziţia de sfârşit a caracteristicii.6. score – un scor cu valoare între 0 şi 1000. 7. strand – caracteristici valide: '+', '-', sau '.' (pentru nu ştiu).8. frame – aplicabil în cazul codificării exonilor când ia valori între

0-2 ceea ce reprezintă frame-ul de citire al primei baze. Dacă nu e vorba de exon, valoarea va fi egală cu '.'.

9. group – toate liniile cu aceleaşi grupări sunt prezentate ca un singur item.


67TIPURI DE FIŞIERE: GTF

GTF = Gene Transfer Format gene_id – identificator unic al sursei genetice pentru o

anumită secvenţă. transcript_id value – identificator unic pentru

transcriptul prezis.


68TIPURI DE FIŞIERE: FASTA

*.fsa Primul simbol dintr-un fişier *.fsa este > urmat

de un comentariu care descrie conţinutul

Următoarele linii conţin secvenţele

Secvenţele sunt rupte în mai multe linii cu

aceeaşi lungime arbitrar aleasă, cu excepţia

ultimei linii care poate să fie mai scurtă


69SECVENŢE: FIŞIERE ASCI

FASTA: Arabidopsis thaliana


70

LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95

DEFINITION Rat mRNA for obese. ACCESSION - KEYWORDS - SOURCE Rattus norvegicus;

Norway rat

...------------ Submitted (10-Mar-1995) to DDBJ by: ...

1 CCAAGAAGAA AAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT

61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA

121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG

181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA

241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT

301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC

361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC

421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC

481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC

GCG

Documents

Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ