Download pdf - Strukturdatenbanken zur Verifizierung - uni-frankfurt.de · Protein Data Bank (PDB) • Gründe für Struktur-Boom – Fortschritte beim kristallographischen Prozess – Aufnahme

Strukturdatenbanken zur Verifizierung

Strukturelle Bioinformatik WS16/17

Dr. Stefan Simm, 01.11.2016 [email protected]

Protein Data Bank (PDB) • gegründet 1971 am Brookhaven National Laboratory

(BNL) als Archiv für biologische, makromolekulare Kristallstrukturen

• eine der frühesten, von der wissenschaftlichen Gemeinschaft vorangetriebenen molekularbiologischen Datensammlungen

• zu Beginn 7 Strukturen

• in den 1980er Jahren stieg die Zahl der in der PDB abgelegten Strukturen dramatisch an

Protein Data Bank (PDB) • Gründe für Struktur-Boom

– Fortschritte beim kristallographischen Prozess – Aufnahme von Strukturen, die mittels anderer Methoden

bestimmt worden sind – Veränderungen in der Ansicht der wissenschaftlichen

Gemeinschaft bezüglich gemeinsamer Nutzung

• in den frühen 1990ern verlangten viele Journale nach einer PDB ID für eine Publikation

• heutzutage wird zusätzlich verlangt, dass die primären, experimentellen Daten ebenfalls in der PDB abgelegt werden

Strukturen in der PDB

Jahr

1970 1980 1990 2000 2010

Stru

ktur

en

0

2e+4

4e+4

6e+4

8e+4

1e+5

jährlichtotal

Folds in Protein Data Bank (PDB)

Jahr

1970 1980 1990 2000 2010

Fold

s (S

CO

P)

0

200

400

600

800

1000

1200

1400jährlichtotal

Protein Data Bank (PDB)

• ursprüngliches Ziel der PDB war eingereichte Kristallstrukturen zu archivieren

• heutzutage sind Strukturen aus verschiedensten Methoden zu finden: X-RAY (85.937) Solution NMR (10285) Electron Microscopy (719) Hybrid (61) Fiber Diffraction (38)

PDB: 21.01.2014

Neutron Diffraction (44) Solution Scattering (32) Electron Crystallography (40) Other (24)

Protein Data Bank (PDB)

Exp. Method Proteins Nucleic

Acids

Protein/ RNA

Complex Other Total

X-RAY 80250 1498 4185 4 85937 NMR 9011 1070 197 7 10285

MICROSCOP. 498 51 170 0 719

HYBRID 55 3 2 1 61 other 155 4 6 13 178 Total 89969 2626 4560 25 97180

PDB: 21.01.2014

• Gründung der worldwide PDB (www.wwpdb.org)

• Übereinkunft zwischen drei Zentren zur Hinterlegung von Strukturen – Research Collaboratory for Structural Bioinformatics (RCSB

PDB, USA) – Macromolecular Structure Database at the European

Bioinformatics Institute (PDBe) – PDB Japan (PDBj)

• BioMagResBank (BMRB), die biomolekulare NMR Daten

archiviert, schloss sich der wwPDB in 2006 an

http://www.wwpdb.org/

DATEN ERWERB & PROZESSIERUNG Strukturdatenbanken zur Verifizierung

Daten in der wwPDB

• dreidimensionale kartesische Koordinaten

• Informationen zur Methode der Strukturaufklärung

• experimentelle Daten (seit kurzem) – X-RAY: Strukturfaktoren – NMR: Constraints (z.B. NOEs)

• zu NMR Strukturen enthält die PDB Links zum BMRB Archiv mit Constraints, chemischen Verschiebungen und anderen NMR-relevanten Daten

• in der nahen Zukunft werden auch Volumen für elektronenmikroskopische Strukturen in die PDB aufgenommen werden

• Definitionen der gesammelten Daten sind im PDB Exchange Dictionary (PDBx) hinterlegt

Daten in der wwPDB

Strukturen hinterlegen • Archiv muss uniform sein

– Inhalt – Format – Methoden zur Überprüfung

• jede Struktur bekommt einen 4-stelligen Code

– bilden die Verbindung zwischen Literatur und der Struktur

• experimentelle NMR-Daten (in der BMRB hinterlegt), werden mit einem einzigartigen und unveränderlichen integer tag versehen

Strukturen hinterlegen

• RCSB PDB und PDBj nutzen das Programm ADIT zur Datenhinterlegung und –validierung

• PDBe prozessiert zu hinterlegende Daten mit AutoDep

• BMRB in Madison und Osaka nutzen ADIT-NMR – experimentelle Daten werden von der BMRB und – Koordinaten von der RCSB PDB bearbeitet

Validierung und Annotation

• Validierung – Prozedur zur Beurteilung der Qualität der

deponierten Modelle (Strukturvalidierung) und zur Überprüfung, wie gut diese Modelle zu den experimentellen Daten passen (experimentelle Validierung)

• Annotation – Prozess des Hinzufügens von Information, die aus

der Validierung der eingereichten Daten stammen

Validierung

• Distanzen und Winkel kovalenter Bindungen – Proteine werden mit den Standardwerten von Enh und

Huber (1991) verglichen – Nukleinsäuren mit den Standardwerten von Clowney et al.

(1996) – Zucker und Phosphate mit den Standardwerten von Gelbin

et al. (1996)

• Stereochemische Validierung: – alle chiralen Zentren der Proteine und Nukleinsäuren

werden auf korrekte Stereochemie überprüft

• Atom-Nomenklatur: – wird auf Übereinstimmung mit den IUPAC Standards

(IUPAC-IUB Joint Commission on Biochemical Nomenclature, 1983; Markley et al. 1998) überprüft und falls nötig angepasst

• enge Kontakte:

– die Distanzen zwischen allen Atomen innerhalb der asymmetrischen Einheitszelle von Kristallstrukturen und der einzelnen NMR Strukturen werden berechnet

Validierung

Validierung

• Liganden- und Atom-Nomenklatur – Residuen- und Atom-Nomenklatur wird mit dem

Standardwörterbuch (www.wwpdb.org/ccd.html) verglichen

– nicht erkannte Liganden/Residuen werden markiert und Diskrepanzen in bekannten Liganden werden als zusätzliches oder fehlendes Atom gelistet

– neue Liganden werden zum Wörterbuch hinzugefügt, wenn sie deponiert werden

Validierung • Sequenzvergleich:

– die hinterlegte Sequenz zur Struktur wird mit der Sequenz, die aus den Strukturdaten abgeleitet wird, verglichen

• Unterschiede und fehlende Residuen werden zusätzlich mit anderen Sequenzdatenbanken verglichen

– Referenzen auf Sequenzdatenbanken werden auf

Korrektheit überprüft • Ohne Referenz wird mittels BLAST nach einer Sequenz

mit der besten Übereinstimmung gesucht

Validierung • zu weit entferntes Wasser

– Distanzen zwischen allen Sauerstoffatomen (H2O) und allen polaren Atomen (Sauerstoff, Stickstoff) der Makromoleküle werden berechnet

– falls nötig werden Atome des Lösungsmittels repositioniert innerhalb Hydrathülle des Makromoleküls

• Geometrie – Verteilungen von Torsionswinkeln – Abweichungen von Peptidbindungen in cis und trans – abgeleitete Daten wie z.B. Helix und Sheet Records für

Sekundärstrukturen

Validierung

• Überprüfung der NMR-Daten durch die BMRB – NMR constraints werden auf Konsistenz mit der 3D

Struktur und Atomnomenklatur überprüft – chemische Verschiebungen werden auf mögliche

Referenzierungsfehler und Ausreißer überprüft

• die wwPDB überprüft ständig ihre

Validierungsmethoden und integriert neue Prozesse, sobald sie verfügbar und von der wissenschaftlichen Gemeinschaft als Standard akzeptiert worden sind

Datenuniformität

• konsistentes und möglichst fehlerfreies Archiv ist eines der Hauptziele der wwPDB

• bevor Daten veröffentlicht werden erfolgt ein Review

• Fehler, die nach der Veröffentlichung von den Autoren selbst und PDB Nutzern gefunden werden, münden in einer möglichst schnell erfolgenden Revision des betroffenen Eintrags

Datenuniformität

• 2008 wurden alle Daten im PDB Archiv saniert (Henrick et al. 2008, Lawson et al. 2008)

• insbesondere wurden monomere Komponenten und Liganden untersucht und ein neues Dictionary erstellt – Stereochemie – Nomenklatur – optimale Koordinaten – Modellkoordinaten – SMILES und InChI Darstellungen

Datenuniformität

• sanierte Daten auf wwPDB FTP-Server (ftp://ftp.wwpdb.org) verfügbar

• im Zuge dieser Sanierungsarbeiten wurden auch die Annotationsprozeduren (www.wwpdb.org/docs.html) einem Review unterzogen

Datenzugriff - FTP

• PDB Archiv Sammlung von ‚flat files‘

• drei verschiedene Formate – legacy PDB file format (Bernstein et al. 1977) – PDB exchange format (PDBx) (Fitzgerald et al. 2005) – PDBML/XML Format (Westbrook et al. 2005)

• PDB Archiv wird wöchentlich aktualisiert +

jährliche Snapshots des PDB-Archivs (ftp://snapshots.rcsb.org)

RCSB PDB - www.pdb.org • Suche in relationaler Datenbank mit Daten aus

PDBx/PDBML Dateien

• Durchstöbern der Strukturen nach Charakteristika, die von externen Datenbanken integriert worden sind – Gene Ontology (GO) Database – Enzymklassifikation – Medical Subject Heading (MeSH terms) – Quellorganismus (NCBI Taxonomy) – Genlokalisation (Entrez) – Protein folds (SCOP/CATH)

RCSB PDB - www.pdb.org

Suchkategorien

RCSB PDB - www.pdb.org

• für ganze Gruppen von Strukturen können Tabellen erstellt werden (Experiment, Chemie, Biologie, Referenzen)

• Bilder und interaktive Graphen zu jeder Struktur und Protein-Liganden Interaktion – Interaktivität durch das Molecular Biology Toolkit (MBT,

mbt.sdsc.edu)

• Multimedia Tutorials beschreiben alle Features

PDBj - www.pdbj.org

• Structure Navigator – findet Strukturen, die ähnlich zu einem PDB-

Eintrag bzw. einer Struktur sind, die man selbst hochladen kann

PDBj - www.pdbj.org

• Sequence Navigator – Sucht Strukturen

ähnlich zu einer gegebenen Proteinsequenz

PDBj - www.pdbj.org

• SeSAW – findet sequenziell und strukturell ähnliche Motive

zu einer Struktur

PDBj - www.pdbj.org

• eProtS – Encyclopedia of Protein Structures – eine Wiki mit Informationen zu (nicht allen) PDB

Einträgen (educational resource)

PDBj - www.pdbj.org

• ProMode – Dynamik von 3D Strukturen

von Proteinen aus Analysen der Normalschwingungen (Normal Mode Analysis)

– Dynamik kann mittels Chime plugin angeschaut werden

Hiroshi Wako and Shigeru Endo, Biophys. Chem. vol. 159, pp.257-266, 2011

PDBj - www.pdbj.org

• Analysen zur Flexibilität von Proteinen aus NMR oder molekulardynamischen (MD) Simulationen sehr aufwendig

• Approximation der Flexibilität mittels Analyse der Normalschwingungen anhand der Freiheitsgrade des Moleküls

PDBj - www.pdbj.org • eF-site

– Electrostatic Surface of Functional site

PDBj - www.pdbj.org

• eF-seek – Suche nach ähnlichen Ligandenbindungsstellen

wie in vorgegebener Struktur (zum Hochladen)

PDBj - www.pdbj.org

• eF-surf – berechnet die molekulare Oberfläche für eine

PDB Datei

PDBe – www.ebi.ac.uk/pdbe/ • EMBL-EBI's Protein Data Bank in Europe (PDBe) • European Bioinformatics Institute (EBI)

PDBe – www.ebi.ac.uk/pdbe/

• PISA (Protein Interfaces, Surfaces and Assemblies)

• Vorhersage von Quartärstrukturen

• Datenbank vorberechneter Werte für das PDB Archiv oder auf hochgeladene PDB/mmCIF Datei anwendbar

• strukturelle und chemische Eigenschaften makromolekularer Interfaces


PISA (Protein Interfaces, Surfaces and Assemblies)


• Suche nach Interfaces, von strukturellen Homologen: – multimeric state – symmetry number – space group – accessible/buried surface area – free energy of dissociation – presence/absence of salt

bridges and disulphide bonds – homomeric type – ligands

PISA (Protein Interfaces, Surfaces and Assemblies)

• Suche nach strukturell ähnlichen Interfaces und Aggregaten

PDBe – www.ebi.ac.uk/pdbe/ • PDBe Search

– einzelne Moleküle – Aminosäuresequenz – Sequenzmotive – Strukturmotive (3D) – Sequenzen dihedraler Winkel – Sec.strukturelemente

• Upload PDB file – Ligandeninteraktionen – PROSITE patterns – kleine 3D Strukturmotive

PDBe – www.ebi.ac.uk/pdbe/ • Pair bonds

– Suche nach Bindung zwischen zwei gegebenen Molekülen

• 3D Environment

– Bindungsstatistik in Bezug auf die 3D Umgebung eines Liganden

– Vorgegebene Residuen werden in der räumlichen Umgebung von Liganden gesucht

• Motif binding • Bindungsstatistiken von

PROSITE Motiven

• Motif inclusion • Wie oft enthält ein

Motiv ein anderes Motiv?

• z.B. welches 3D Strukturmotiv taucht innerhalb eines PROSITE Motivs auf?

PDBe – www.ebi.ac.uk/pdbe/ • PDBeFold

– interaktiver Service zum 3D Strukturvergleich von Proteinen – paarweise/multiple Vergleiche/3D Alignments von

Proteinstrukturen – Suche in der PDB oder SCOP nach einem strukturell ähnlichen

Protein

PDBe –www.ebi.ac.uk/pdbe/

• Biobar - A toolbar for browsing biological data and databases (Firefox plugin)

BMRB – www.bmrb.wisc.edu

• Statistiken und Ressourcen für die NMR Gemeinschaft

• Suche nach z.B. – Datenbank ID – Schlüsselwörtern – Autor – Molekülname – Sequenz – experimentelle Bedingungen

STRUKTURVALIDIERUNG Strukturdatenbanken zur Verifizierung

Einführung

• Strukturen in der PDB bilden die Grundlage der strukturellen Bioinformatik

• alle Analysen basieren auf ihnen und wären ohne sie unmöglich

• zwei grundlegende Dinge müssen berücksichtigt werden und beide basieren darauf, dass die Strukturen experimentell bestimmt worden sind

Resultat eines Experiments = Model • experimentelle Daten werden mit Hilfe eines Models

versucht, so gut es geht zu beschreiben

• Begriff „Struktur” müsste eigentlich „Modell“ heißen müsste

• ein Model kann eine sinnvolle Repräsentation des Moleküls sein oder aber eine schlechte

• unabhängige Experimente können zu ähnlichen Modellen führen

Experiment immer fehlerbehaftet • systematische Fehler

– stehen in Verbindung mit Fehlerfreiheit (accuracy) des Modells; wie sehr stimmt es mit der “wahren” Struktur überein?

– Interpretationsfehler X-ray: • Molekül muss in die Elektronendichte aus berechneten

Beugungsdaten eingepasst werden • schwierig, die Polypeptidkette durch den Kristall zu

verfolgen – Interpretationsfehler NMR:

• Interpretation der Spektren, d.h. Zuordnung der Peaks zu den Atomen, zu denen sie am wahrscheinlichsten gehören

Experiment immer fehlerbehaftet • ist ein Modell im Prinzip korrekt, so bestimmen die

zufälligen Fehler die Genauigkeit (precision) des Modells

• Unterscheidung zwischen Fehlerfreiheit und Genauigkeit ist entscheidend! – ein hochgradig genau verfeinertes Modell nützt wenig, wenn

es komplett falsch ist

• die Größe der systematischen und zufälligen Fehler bestimmen die Art der Fragen, die man mit einem gegebenen Modell zu einem Molekül beantworten kann

Modelle aus anderen experimentellen Methoden

• in der PDB sind auch Modelle aus z.B. – powder, fiber, electron and neutron diffraction – Elektronentomographie – Infrarotspektroskopie – solution scattering

• jede Methode hat ihre Vor- und Nachteile sowie

Besonderheiten

• Modelle aus diesen Methoden müssen mit der beschreibenden Literatur sorgfältig untersucht werden

Theoretische Modelle • besondere Skepsis ist für die Modelle angebracht, die

nicht direkt auf experimentellen Messungen beruhen

• Modelle aus der Homologiemodellierung – Proteine mit hoher Sequenzidentität besitzen i.d.R. sehr

ähnliche 3D Strukturen – Modellierung kann mittels Webservern automatisiert werden

(z.B. Swiss-Model) – Problem: Fehler in der Template-Struktur werden nicht nur in

die modellierte Struktur übernommen, sondern vielleicht sogar verstärkt

– die PDB akzeptiert seit einigen Jahren keine theoretischen Modelle mehr

Theoretische Modelle

• Modelle mit den größten Fehlern aus ab initio / de novo und „threading“ / fold recognition Methoden

• diese Methoden werden dann angewandt, wenn es keine verwandten Strukturen in der PDB gibt (keine Homologiemodellierung möglich)

• sie sind am besten für kleine Proteine geeignet, die aus einer einzigen Domäne bestehen; annähernd korrekte Modelle

• generell liegen diese Methoden oft weit daneben