20
Bioinformatikos įrankiai “Bioinformatika” Doc. R. Damaševičius KTU Programų inžinerijos katedra

Bioinformati kos įrankiai

Embed Size (px)

DESCRIPTION

Bioinformati kos įrankiai. “Bioinformatika” Doc. R. Dama š evi č ius KTU Programų inžinerijos katedra. Bioinformatikos įrankiai. Bioinformatikos įrankiai yra kompiuterinės programos, skirtos svarbios informacijos paieškai ir analizei duomenų gausybėje. - PowerPoint PPT Presentation

Citation preview

Bioinformatikos įrankiai

“Bioinformatika”Doc. R. Damaševičius

KTU Programų inžinerijos katedra

Bioinformatikos įrankiai

• Bioinformatikos įrankiai yra kompiuterinės programos, skirtos svarbios informacijos paieškai ir analizei duomenų gausybėje. – Galutinis vartotojas (biologas, biochemikas,

genetikas) nėra gerai įgudęs naudotis kompiuterinėmis technologijomis;

– Programiniai įrankiai turi būti mokslininkų tyrėjų bendruomenės pasiekiami žiniatinkliu.

Bioinformatika (B110M100) 2

Pagrindinės genetinių duomenų bazės

Tipas Aprašymas

Nukleotidų sekos

Duomenys kaupiami trijose bendradarbiaujančiose duomenų bazėse: GenBank (JAV), EMBL (European Molecular Biology Laboratory Nucleotide Sequence Database) ir DDBJ (DNA Data Bank of Japan).

Aminorūgščių sekos

Pagrindinės duomenų bazės yra šios: Swissprot (Swiss Protein Database), PIR (Protein Information Resource), Genpept (transliuojamų peptidų sekos iš GenBank db), TrEMBL (transliojamų peptidų sekos iš EMBL db)

Erdvinės struktūros

PDB (Protein Data Bank) saugomos biologinių makromolekulių, pagrindinai baltymų, erdvinės struktūros. Pagrindiniai duomenys gauti rentgenostruktūrinės analizės būdu arba naudojam BMR.

Baltymų motyvai

Prosite yra duomenų bazė, kaupianti informaciją apie baltymų motyvus, būdingus baltymų šeimoms, domenų struktūroms ar potransliacinėms modifikacijoms

Duomenų bazių klasifikacija

• Sekų duomenų bazės• Sekų analizės duomenų bazės• Mokslinės literatūros duomenų bazės• Baltymų struktūros duomenų bazės• Genų išraiškos duomenų bazės • Metabolinių kelių duomenų bazės• Universalios (integruotos) duomenų bazės• Specializuotos duomenų bazės

Nuorodų katalogas

http://expasy.org/links.html

DNR sekų duomenų bazės

• Pagrindinės duomenų bazės– GenBank (US)

• (http://www.ncbi.nlm.nih.gov/Genbank/index.html)

– EMBL (Europe)• (http://www.ebi.ac.uk/embl/)

– DDBJ (Japan)• (http://www.ddbj.nig.ac.jp/)

• Primary databases– DNA sequences are identical

Įrašų skaičiaus GenBank duomenų bazėje augimas

Integruotos duomenų bazės

• NCBI - National Center for Biotechnology Information (JAV)– NCBI protein resources – Protein Clusters - collection of related protein

sequences (clusters) – Genbank - GenBank Nucleotide Sequence db– dbEST - dbEST (Expressed Sequence Tags) db – dbSTS - dbSTS (Sequence Tagged Sites) db– NCBI Taxonomy – PubMed – Mokslinės literatūros duomenų bazė– NCBI Bookshelf – knygų archyvas

www.ncbi.nlm.nih.gov

NCBI Bookshelf

• Laisvai prieinamos knygos – šiuo metu yra 55 pavadinimai

• Temos:– Molekulinė biologija, biochemija,

genetika, mikrobiologija

PubMed yra… • Mokslinių publikacijų paieškos serveris • >14 milionų straipsnių• 4000 žurnalų• Nuorodos į kitus žurnalus

lipocalin AND disease(96 results)

lipocalin OR disease(1.9 million results)

lipocalin NOT disease(729 results)

1 AND 2

1 OR 2

1 NOT 2

1

1

1

2

2

2

Entrez: Metapaieškos serveris

• Galimybė atlikti paiešką daugelyje duomenų bazių iš karto (tiek genetinių sekų, baltymų, tiek mokslinės literatūros, šiuo metu 29)

• Galimybė naudoti logines operacijas (OR, AND)

• Galimybė saugoti užklausas serveryje• Galimybė gauti pranešimus el. paštu, jeigu

atsiradų naujų rezultatų pagal jūsų ankstesnes užklausas

• http://www.ncbi.nlm.nih.gov/sites/gquery

Baltymų duomenų bazių

• SWISS-PROT– Manually curated– high-quality annotations, less data

• GenPept/TREMBL– Translated coding sequences from GenBank/EMBL– Few annotations, more up to date

• PIR– Phylogenetic-based annotations

• All 3 now combining efforts to form UniProt (http://www.uniprot.org)

Sekų ir struktūrų duomenų bazės

• SWISS-3DIMAGE - – Baltymų ir kitų biologinių makromolekulių 3D struktūros

vaizdai– http://www.expasy.ch/sw3d/

• PDB (Protein Databank)– Rentgeno kristalografijos, magnetinio rezonanso ir

kompiuterinio modeliavimo būdu gauti duomenys– http://www.rcsb.org/pdb/

• MMDB (Molecular Modeling database)– Virš 28,000 baltymų ir polinukleotidų trimatė struktūra (

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure)• SCOP (Structural Classification of Proteins)

– Baltymų klasifikacija pagal jų struktūrinį panašumą ir evoliucinius sąryšius

Genomų duomenų bazės

• Saugoma informacija apie konkretaus organizmo arba organizmų grupės genomą– Colibase (E. coli and related species)– http://colibase.bham.ac.uk/ – GDB (human)

• http://www.gdb.org/– Flybase (Drosophila)

• http://flybase.bio.indiana.edu/– WormBase (C. elegans)

• http://wormbase.org– AtDB (Arabidopsis)

• http://www.arabidopsis.org– SGD (S. cerevisiae)

• http://genome-www.stanford.edu/Saccharomyces/

Genų išraiškos duomenų bazės

• RNR išraiškos– Eksperimentiškai nustatytas ląstelės mRNR

turinys esant tam tikroms sąlygoms– Array Express (EBI) ir Geo (NCBI)

• Proteomų– Eksperimentiškai nustatytas ląstelių

baltymų turinys (visuma) esant tam tikroms sąlygoms

– SWISS 2D PAGE at http://us.expasy.org/ch2d/

Kitos specializuotos duomenų bazės

• Mokslinės literatūros– MEDLINE (http://ncbi.nlm.nih.gov/PubMed/)– HighWire (Stanford University) (http://www.highwire.org)

• Variacijų– dbSNP (http://ncbi.nlm.nih.gov/SNP/)– HGBase (http://hgbase/interactiva/de)

• Metabolinių kelių– KEGG (http://kegg.genome.ad.jp/kegg/)– WIT (http://wit.mcs/anl.gov/WIT2)

• Organizmų nomenklatūros– Taksonomijų (e.g.: http://ncbi.nlm.nih.gov/Taxonomy/ )– Mendel (http://mbclserver.rutgers.edu/CPGN)