Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
STRUCTURA BIOLOGICĂ.
§2.2. REPREZENTAREA &
PRELUAREA & STOCAREA
SECVENŢELOR
Sorana D. BOLBOACĂ
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
2 Despre …
Reprezentarea şi preluarea secvenţelor:
Definiţie
Modalităţi de codificare-reprezentare Prezentare
Stocarea secvenţelor de nucleotide & aminoacizi Modalitate Baze de date: exemple Principii de căutare în baze de date dedicate
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
3 DEFINIŢIE
Secvenţa = set liniar de caractere reprezentate
de nucleotide sau amino acizi ADN: 4 nucleotide (baze) – A, C, G, T ARN: 4 nucleotide - A, C, G, U Proteine: amino acizi
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
4 REPREZENTAREA SECVENŢELOR
Caractere: Simple Uşor de editat, citit,
etc. Codificare – bit:
Utilizată în stocarea secvenţelor (memorie sau disc calculator)
Mai compact Compresie eficientă
(volum mare de date –spaţiu mic)
Reprezentarea caracterelor: ADN & ARN: cod cu
o singură literă (A, C, G, T/U).
Proteine: Cod cu o singură literă
– C = Cys Cod cu trei litere - Ala
= A = Alanina Cod 1-literă ↔ 3-litere
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
5 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE
Incertitudinea în secvenţe de nucleotice = pentru o
anumită poziţie e posibilă existenţa uneia sau altei
molecule Când?
Pentru a exprima ambiguitate în timpul secvenţierii
Pentru a exprima variaţia unei poziţii în gene în timpul
evoluţiei
Pentru a exprima capacitatea unei enzime de a tolera mai mult de o bază la o anumită poziţie a unui site de
recunoaştere
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
6 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE
Nucleotide: Set de coduri de caractere unic, care reprezintă
toate combinaţiile posibile de baze
Propuse şi adoptate de Uniunea Internaţională
de Biochimie şi este menţionată ca IUB cod
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
7 CODUL IUB (International Union of Biochemistry)
Baze standard – cod genetic
Codul DenumireaA AdeninaC CitozinaG GuaninaT TiminaU Uracil
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
8 CODUL IUB (International Union of Biochemistry) Baze standard - derivaţii – cod genetic (NC-IUB)
R = A, G (puRine) Y = C, T
(pYrimidine) S = G, C (Strong
hydrogen bonds) W = A, T (Weak
hydrogen bonds) M = A, C (aMino
group)
K = G, T (Keto group)
B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U
(iNdeterminate) X or - are sometimes used
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
9 CODUL IUB
Amino acizi
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
10REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE
Proteine: Realizarea unui cod este mai dificilă datorită
numărului mare de aminoacizi
Incertitudinea e mai puţin frecventă în
secvenţele de amino acizi decât în secvenţele de
nucleotide Se poate utiliza o codificare de tip bit dar rar
este şi utilizată
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
11BAZE DE DATE: DE CE?
Date biologice disponibile pentru cercetători
Consolidarea datelor din diferite surse Asigurarea accesului la seturi de date mari, care
nu pot fi publicate (ex. genom, etc.) Asigură accesul la date biologice în format
electronic Asigura accesibilitatea datelor pentru analize
automate
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
12BAZE DE DATE: DATE VS. BAZE DE DATE
Date
Tipuri de date: • secvenţe de nucleotide
• secvenţe de proteine
• structuri 3D • expresia genelor • căi metabolice
•...
12
Date de intrare şi controlul
calităţii:
• date depozitate • personal specializat adaugă şi
actualizează datele
• datele eronate sunt eliminate sau marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare
•...
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
erorile sunt verificate caracteristici: coerenţă şi actualizare
căi metabolice marcate
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
• căi metabolice
•...marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare
•...Date primare sau secundare:
• Primare: date experimentale • Secundare: rezultate ale analizei bazelor de date primare • Unificarea mai multor baze de date •...
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
13BAZE DE DATE: DATE VS. BAZE DE DATE
Baze de date
Organizare: • fişiere plane
• baze de date relaţionale
• baze de date orientate-obiect •...
Disponibilitate: • accesibile publicului fără nici
o restricţie
• disponibile dar cu drepturi de autor • accesibile dar nu se pot salva • academice, dar nu disponibile fără cost
• comerciale
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
academice, dar nu disponibile fără cost
• academice, dar nu
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
obiect •...
• academice, dar nu disponibile fără cost
• comerciale
Curatori: • Instituţii mari, publice (EMBL, NCBI)• Instituţii cvasi-academice (Swiss institute of Bioinformatics, TIGR, etc.)• Grupuri academice sau de cercetare • Companii comerciale ...
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
14BAZE DE DATE
Clasificare în funcţie de conţinut:
Descriptiv: denumire, taxonomie, descrierea speciei Kew Plants People Possibilities: http://www.kew.org/plants-
fungi/index.htm Plants Database: http://plants.usda.gov/ Uncon Plant Database: http://www.hort.uconn.edu/plants/ HoriPlex Plant Darabase:
http://hortiplex.gardenweb.com/plants/ Native Plant Database: http://www.wildflower.org/plants/ Tropical Plant Database: http://www.rain-tree.com/plants.htm Plant Encyclopedia Database:
http://www.plantcare.com/encyclopedia/
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
15BAZE DE DATE
Clasificare în funcţie de conţinut:
Descriptiv: denumire, taxonomie, descrierea speciei Walters Garden Database:
http://www.waltersgardens.com/plants/ Carnivore Plant Database:
http://www.omnisterra.com/bot/cp_home.cgi PLANTfacts: http://plantfacts.osu.edu/
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
16BAZE DE DATE
Clasificare în funcţie de conţinut:
Structură genetică:
Genomul la plante: http://data.kew.org/cvalues/ NCBI: http://data.kew.org/cvalues/ PlantGBD: http://www.plantgdb.org/ Plant Genome Research "Outreach“:
http://www.plantgdb.org/PGROP/pgrop.php BarleyBase:
http://www.plexdb.org/plex.php?database=Barley
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
17BAZE DE DATE
Clasificare în funcţie de conţinut:
Structură genetică:
TIGR Rice Genome: http://blast.jcvi.org/euk-blast/index.cgi?project=osa1
Brassica Genome Gateway: http://brassica.bbsrc.ac.uk/
Oryzabase: http://www.shigen.nig.ac.jp/rice/oryzabase/top/top.jsp
RiceGAAS: http://ricegaas.dna.affrc.go.jp/rgadb/ BeanGenes Database:
http://beangenes.cws.ndsu.nodak.edu/ ChlamyDB: http://www.chlamy.org/chlamydb.html
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
18BAZE DE DATE
Clasificare în funcţie de conţinut:
Structură genetică:
CottonDB: http://cottondb.org/ EMBL Nucleotide Sequence Database:
http://www.ebi.ac.uk/embl/ DDBJ: http://www.ddbj.nig.ac.jp/fromddbj-e.html PlantPromoterDB: http://ppdb.gene.nagoya-
u.ac.jp/cgi-bin/index.cgi
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
19BAZE DE DATE: SECVENŢE DE NUCLEOTIDE
EMBL: www.ebi.ac.uk/embl GenBank: www.ncbi.nlm.nih.gov/GenBank DDBJ: www.ddbj.nig.ac.jp
Sincronizarea zilnică a conţinutului (pe baza codului de
aderare: un şir de litere şi cifre care identifică în mod
unic o intrare în baza sa de date – spre deosebire de identificator codul de aderare nu se modifică)
Nu există specificaţii legale cu privire la utilizarea
acestor baze de date – există însă o serie de secvenţe
brevetate
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
20BAZE DE DATE: PROTEINE
Protein Information Resource: http://pir.georgetown.edu
SWISS-PROT: http://www.expasy.ch/sprot
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
21BAZE DE DATE: BIOMOLEULE
PDB: http://www.rcsb.org SCOP: http://scop.berkeley.edu CATH: http://biochem.ucl.ac.uk/bsm/CATH ASTRAL: http://astral.berkeley.edu HOMSTRAD: http://www-cryst.bioc.cam.ac.uk/data/align/ Interfeţe la PDB:
PDB at a glance:http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html
Molecules to go: http://molbio.info.nih.gov/cgi-bin/pdb/ EBI interface: http://www.ebi.ac.uk/msd/ PDBSum: http://www.ebi.ac.uk/thornton-
srv/databases/pdbsum
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
22RESURSE NCBI: SECVENŢE DE BAZE
Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
23RESURSE NCBI: SECVENŢE DE BAZE
dbEST: secvenţe single de cADN http://www.ncbi.nlm.nih.gov/dbEST/index.html
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
24RESURSE NCBI: SECVENŢE DE BAZE
dbGSS: secvenţe genomice
http://www.ncbi.nlm.nih.gov/dbGSS/index.html
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
25RESURSE NCBI: SECVENŢE DE BAZE
dbSTS:http://www.ncbi.nlm.nih.gov/dbSTS/index.html
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
26RESURSE NCBI: SECVENŢE DE BAZE
dbSNP: polimorfism nucleotidic http://www.ncbi.nlm.nih.gov/SNP/index.html
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
27RESURSE NCBI: SECVENŢE DE BAZE
Structure: http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
28RESURSE NCBI: SECVENŢE DE BAZE
Genome: http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
29RESURSE NCBI: SECVENŢE DE BAZE
Proteine: http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
30RESURSE NCBI: SECVENŢE DE BAZE
Nucleotide: http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
31RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: http://www.ncbi.nlm.nih.gov/sites/entrez?db=taxonomy
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
32RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
33RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
34RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
35RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
36RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
37RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
38RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
39RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
40ENTREZ
Introducere semi-automată a informaţiei în
baza de date Legătura dintre diferitele baze de date este dată
de prezentarea critică a utilităţii
Sequence searching: Căutarea se secvenţe pentru o anumită genă sau
proteină
Secvenţele identificate se pot copia sau salva
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
42ENTREZ: PUBMED
Similaritatea între documente este măsurată prin
intermediul cuvintelor pe care documentele le au în
comun: Care cuvinte sunt luate în considerare?
Care este greutatea fiecărui cuvânt?
Cum putem calcula scorul de similaritate pentru 2 articole?
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
43ENTREZ: PUBMED
Evaluarea cuvintelor: Ponderea unei perechi de cuvinte comune:
local wt1 * local wt2 global wt
Similaritatea dintre două articole: suma
ponderilor pentru toate cuvintele comune Cu cât valoarea este mai mare cu atât mai similare
sunt articolele investigate
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
44ENTREZ: PUBMED
Evaluarea cuvintelor: Pondere globală: e mai bună dacă cuvântul e
mai puţin frecvent în întreaga bază de date
Pondere locală:
E mai bună dacă cuvântul este mai frecvent în
interiorul documentului Nu sunt favorizate documentele mai lungi
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
45ENTREZ: SEQUENCE SEARCHING
Studiu de caz: identificarea de secvenţe pentru MRP1 (ARABIDOPSIS THALIANA MULTIDRUG RESISTANCE-ASSOCIATED PROTEIN 1) OMIM: căutare de cuvinte cheie. Nucleotide database:
Identificare secvenţe nucleotide. Denumire de gene
Protein database: identificare secvenţe proteice. GenPept: salvare a secvenţelor identificate. PubMed: identificare articole de specialitate.
Related Articles: identificarea articolelor similare. Limits: limitarea căutării
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
46ENTREZ: SEQUENCE SEARCHING
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
47ENTREZ: NUCLEOTIDES
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
48ENTREZ: NUCLEOTIDES
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
49ENTREZ: NUCLEOTIDES → GenPept
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
50ENTREZ: NUCLEOTIDES → FASTA
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
51ENTREZ: RELATED STRUCRURES
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
52ENTREZ: IDENTICAL PROTEINS
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
53ENTREZ: GENOME
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
54ENTREZ: GENOME
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
55ENTREZ: GENOME
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
56ENTREZ: TAXONOMY
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
57ENTREZ: GENE
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
58ENTREZ: SEQUENCE READ
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
59ENTREZ: HOMOLOGENE
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
60ENTREZ: PROTEINCLUSTERS
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
61ENTREZ: UNIGENE
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
62SECVENŢE: TIPURI DE FIŞIERE
Formatul fişierelor:
Text sau binar Minim sau adnotat
Fişierele de tip text:
Utilizează codul IUB
Se pot citi cu procesoarele de text (ex. Microsoft Word, Crimson, etc.)
Fişierele binare:
Se citesc cu programele cu care au fost create (ex. MacVector) Fişierele adnotate conţin informaţii cunoscute cu privire la
secvenţele conţinute
Annotated files preserve information known about the sequence (codarea regiunii de start şi stop, proprietăţile proteinelor, literatura de specialitate, etc.)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
63SECVENŢE: TIPURI DE FIŞIERE
Genome Browser BED & bigBED PSL GFF GTF MAF BAM WIG & bigWIG
Genome Browser Microarray Chain Net Axt .2bit .nib
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
64TIPURI DE FIŞIERE: BED & bigBED Trei câmpuri obligatorii:
1. chrom – numele cromozomului (ex. chr3, chrY, chr2_random) sau schelet (ex. scaffold10671).
2. chromStart – poziţia de start a cromozomului sau scheletului – prima bază din cromozom este pe poziţia 0
3. chromEnd – poziţia de stop a cromozomului sau scheletului.
Nouă câmpuri adiţionale:
4. name – defineşte denumirea liniei BED – afişat la dreapta liniei BED în fereastra Genome Browser.
5. score – un scor între 0 şi 1000 identificat în gri
6. strand – definit ca fiind '+' or '-'
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
65TIPURI DE FIŞIERE: BED & bigBED
Nouă câmpuri adiţionale:
7. thickStart – poziţia de start la care începe o anumită caracteristică
(ex. codonul de start a unei secvenţe genice)
8. thickEnd – poziţia de stop la care o anumită caracteristică se
termină (ex. codonul stop).
9. itemRgb – valorarea culorilor în spectrul RGB (ex. 255,0,0). blockCount – numărul de exoni din linia BED
10. blockSizes – volumul exeonilor – numărul de valori din această listă
corespunde cu numărul din blockCount.11. blockStarts – listă cu blocurile start calculate relativ la chromStart.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
66TIPURI DE FIŞIERE: GFF
GFF = General Feature Format1. seqname – numele secvenţei.2. source - programul cu care s-a obţinut.3. feature – numele caracteristicii de interes ("CDS", "start_codon",
"stop_codon", "exon“, etc).4. start – poziţia de start a secvenţei. Prima bază din secvenţă este
1.5. end – poziţia de sfârşit a caracteristicii.6. score – un scor cu valoare între 0 şi 1000. 7. strand – caracteristici valide: '+', '-', sau '.' (pentru nu ştiu).8. frame – aplicabil în cazul codificării exonilor când ia valori între
0-2 ceea ce reprezintă frame-ul de citire al primei baze. Dacă nu e vorba de exon, valoarea va fi egală cu '.'.
9. group – toate liniile cu aceleaşi grupări sunt prezentate ca un singur item.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
67TIPURI DE FIŞIERE: GTF
GTF = Gene Transfer Format gene_id – identificator unic al sursei genetice pentru o
anumită secvenţă. transcript_id value – identificator unic pentru
transcriptul prezis.
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
68TIPURI DE FIŞIERE: FASTA
*.fsa Primul simbol dintr-un fişier *.fsa este > urmat
de un comentariu care descrie conţinutul
Următoarele linii conţin secvenţele
Secvenţele sunt rupte în mai multe linii cu
aceeaşi lungime arbitrar aleasă, cu excepţia
ultimei linii care poate să fie mai scurtă
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
69SECVENŢE: FIŞIERE ASCI
FASTA: Arabidopsis thaliana
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
70
LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95
DEFINITION Rat mRNA for obese. ACCESSION - KEYWORDS - SOURCE Rattus norvegicus;
Norway rat
...------------ Submitted (10-Mar-1995) to DDBJ by: ...
1 CCAAGAAGAA AAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT
61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA
121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG
181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA
241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT
301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC
361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC
421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC
481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC
GCG