Strukturdatenbanken zur Verifizierung
Strukturelle Bioinformatik WS16/17
Dr. Stefan Simm, 01.11.2016 [email protected]
Protein Data Bank (PDB) • gegründet 1971 am Brookhaven National Laboratory
(BNL) als Archiv für biologische, makromolekulare Kristallstrukturen
• eine der frühesten, von der wissenschaftlichen Gemeinschaft vorangetriebenen molekularbiologischen Datensammlungen
• zu Beginn 7 Strukturen
• in den 1980er Jahren stieg die Zahl der in der PDB abgelegten Strukturen dramatisch an
Protein Data Bank (PDB) • Gründe für Struktur-Boom
– Fortschritte beim kristallographischen Prozess – Aufnahme von Strukturen, die mittels anderer Methoden
bestimmt worden sind – Veränderungen in der Ansicht der wissenschaftlichen
Gemeinschaft bezüglich gemeinsamer Nutzung
• in den frühen 1990ern verlangten viele Journale nach einer PDB ID für eine Publikation
• heutzutage wird zusätzlich verlangt, dass die primären, experimentellen Daten ebenfalls in der PDB abgelegt werden
Strukturen in der PDB
Jahr
1970 1980 1990 2000 2010
Stru
ktur
en
0
2e+4
4e+4
6e+4
8e+4
1e+5
jährlichtotal
Folds in Protein Data Bank (PDB)
Jahr
1970 1980 1990 2000 2010
Fold
s (S
CO
P)
0
200
400
600
800
1000
1200
1400jährlichtotal
Protein Data Bank (PDB)
• ursprüngliches Ziel der PDB war eingereichte Kristallstrukturen zu archivieren
• heutzutage sind Strukturen aus verschiedensten Methoden zu finden: X-RAY (85.937) Solution NMR (10285) Electron Microscopy (719) Hybrid (61) Fiber Diffraction (38)
PDB: 21.01.2014
Neutron Diffraction (44) Solution Scattering (32) Electron Crystallography (40) Other (24)
Protein Data Bank (PDB)
Exp. Method Proteins Nucleic
Acids
Protein/ RNA
Complex Other Total
X-RAY 80250 1498 4185 4 85937 NMR 9011 1070 197 7 10285
MICROSCOP. 498 51 170 0 719
HYBRID 55 3 2 1 61 other 155 4 6 13 178 Total 89969 2626 4560 25 97180
PDB: 21.01.2014
• Gründung der worldwide PDB (www.wwpdb.org)
• Übereinkunft zwischen drei Zentren zur Hinterlegung von Strukturen – Research Collaboratory for Structural Bioinformatics (RCSB
PDB, USA) – Macromolecular Structure Database at the European
Bioinformatics Institute (PDBe) – PDB Japan (PDBj)
• BioMagResBank (BMRB), die biomolekulare NMR Daten
archiviert, schloss sich der wwPDB in 2006 an
DATEN ERWERB & PROZESSIERUNG Strukturdatenbanken zur Verifizierung
Daten in der wwPDB
• dreidimensionale kartesische Koordinaten
• Informationen zur Methode der Strukturaufklärung
• experimentelle Daten (seit kurzem) – X-RAY: Strukturfaktoren – NMR: Constraints (z.B. NOEs)
• zu NMR Strukturen enthält die PDB Links zum BMRB Archiv mit Constraints, chemischen Verschiebungen und anderen NMR-relevanten Daten
• in der nahen Zukunft werden auch Volumen für elektronenmikroskopische Strukturen in die PDB aufgenommen werden
• Definitionen der gesammelten Daten sind im PDB Exchange Dictionary (PDBx) hinterlegt
Daten in der wwPDB
Strukturen hinterlegen • Archiv muss uniform sein
– Inhalt – Format – Methoden zur Überprüfung
• jede Struktur bekommt einen 4-stelligen Code
– bilden die Verbindung zwischen Literatur und der Struktur
• experimentelle NMR-Daten (in der BMRB hinterlegt), werden mit einem einzigartigen und unveränderlichen integer tag versehen
Strukturen hinterlegen
• RCSB PDB und PDBj nutzen das Programm ADIT zur Datenhinterlegung und –validierung
• PDBe prozessiert zu hinterlegende Daten mit AutoDep
• BMRB in Madison und Osaka nutzen ADIT-NMR – experimentelle Daten werden von der BMRB und – Koordinaten von der RCSB PDB bearbeitet
Validierung und Annotation
• Validierung – Prozedur zur Beurteilung der Qualität der
deponierten Modelle (Strukturvalidierung) und zur Überprüfung, wie gut diese Modelle zu den experimentellen Daten passen (experimentelle Validierung)
• Annotation – Prozess des Hinzufügens von Information, die aus
der Validierung der eingereichten Daten stammen
Validierung
• Distanzen und Winkel kovalenter Bindungen – Proteine werden mit den Standardwerten von Enh und
Huber (1991) verglichen – Nukleinsäuren mit den Standardwerten von Clowney et al.
(1996) – Zucker und Phosphate mit den Standardwerten von Gelbin
et al. (1996)
• Stereochemische Validierung: – alle chiralen Zentren der Proteine und Nukleinsäuren
werden auf korrekte Stereochemie überprüft
• Atom-Nomenklatur: – wird auf Übereinstimmung mit den IUPAC Standards
(IUPAC-IUB Joint Commission on Biochemical Nomenclature, 1983; Markley et al. 1998) überprüft und falls nötig angepasst
• enge Kontakte:
– die Distanzen zwischen allen Atomen innerhalb der asymmetrischen Einheitszelle von Kristallstrukturen und der einzelnen NMR Strukturen werden berechnet
Validierung
Validierung
• Liganden- und Atom-Nomenklatur – Residuen- und Atom-Nomenklatur wird mit dem
Standardwörterbuch (www.wwpdb.org/ccd.html) verglichen
– nicht erkannte Liganden/Residuen werden markiert und Diskrepanzen in bekannten Liganden werden als zusätzliches oder fehlendes Atom gelistet
– neue Liganden werden zum Wörterbuch hinzugefügt, wenn sie deponiert werden
Validierung • Sequenzvergleich:
– die hinterlegte Sequenz zur Struktur wird mit der Sequenz, die aus den Strukturdaten abgeleitet wird, verglichen
• Unterschiede und fehlende Residuen werden zusätzlich mit anderen Sequenzdatenbanken verglichen
– Referenzen auf Sequenzdatenbanken werden auf
Korrektheit überprüft • Ohne Referenz wird mittels BLAST nach einer Sequenz
mit der besten Übereinstimmung gesucht
Validierung • zu weit entferntes Wasser
– Distanzen zwischen allen Sauerstoffatomen (H2O) und allen polaren Atomen (Sauerstoff, Stickstoff) der Makromoleküle werden berechnet
– falls nötig werden Atome des Lösungsmittels repositioniert innerhalb Hydrathülle des Makromoleküls
• Geometrie – Verteilungen von Torsionswinkeln – Abweichungen von Peptidbindungen in cis und trans – abgeleitete Daten wie z.B. Helix und Sheet Records für
Sekundärstrukturen
Validierung
• Überprüfung der NMR-Daten durch die BMRB – NMR constraints werden auf Konsistenz mit der 3D
Struktur und Atomnomenklatur überprüft – chemische Verschiebungen werden auf mögliche
Referenzierungsfehler und Ausreißer überprüft
• die wwPDB überprüft ständig ihre
Validierungsmethoden und integriert neue Prozesse, sobald sie verfügbar und von der wissenschaftlichen Gemeinschaft als Standard akzeptiert worden sind
Datenuniformität
• konsistentes und möglichst fehlerfreies Archiv ist eines der Hauptziele der wwPDB
• bevor Daten veröffentlicht werden erfolgt ein Review
• Fehler, die nach der Veröffentlichung von den Autoren selbst und PDB Nutzern gefunden werden, münden in einer möglichst schnell erfolgenden Revision des betroffenen Eintrags
Datenuniformität
• 2008 wurden alle Daten im PDB Archiv saniert (Henrick et al. 2008, Lawson et al. 2008)
• insbesondere wurden monomere Komponenten und Liganden untersucht und ein neues Dictionary erstellt – Stereochemie – Nomenklatur – optimale Koordinaten – Modellkoordinaten – SMILES und InChI Darstellungen
Datenuniformität
• sanierte Daten auf wwPDB FTP-Server (ftp://ftp.wwpdb.org) verfügbar
• im Zuge dieser Sanierungsarbeiten wurden auch die Annotationsprozeduren (www.wwpdb.org/docs.html) einem Review unterzogen
Datenzugriff - FTP
• PDB Archiv Sammlung von ‚flat files‘
• drei verschiedene Formate – legacy PDB file format (Bernstein et al. 1977) – PDB exchange format (PDBx) (Fitzgerald et al. 2005) – PDBML/XML Format (Westbrook et al. 2005)
• PDB Archiv wird wöchentlich aktualisiert +
jährliche Snapshots des PDB-Archivs (ftp://snapshots.rcsb.org)
RCSB PDB - www.pdb.org • Suche in relationaler Datenbank mit Daten aus
PDBx/PDBML Dateien
• Durchstöbern der Strukturen nach Charakteristika, die von externen Datenbanken integriert worden sind – Gene Ontology (GO) Database – Enzymklassifikation – Medical Subject Heading (MeSH terms) – Quellorganismus (NCBI Taxonomy) – Genlokalisation (Entrez) – Protein folds (SCOP/CATH)
RCSB PDB - www.pdb.org
Suchkategorien
RCSB PDB - www.pdb.org
• für ganze Gruppen von Strukturen können Tabellen erstellt werden (Experiment, Chemie, Biologie, Referenzen)
• Bilder und interaktive Graphen zu jeder Struktur und Protein-Liganden Interaktion – Interaktivität durch das Molecular Biology Toolkit (MBT,
mbt.sdsc.edu)
• Multimedia Tutorials beschreiben alle Features
PDBj - www.pdbj.org
• Structure Navigator – findet Strukturen, die ähnlich zu einem PDB-
Eintrag bzw. einer Struktur sind, die man selbst hochladen kann
PDBj - www.pdbj.org
• Sequence Navigator – Sucht Strukturen
ähnlich zu einer gegebenen Proteinsequenz
PDBj - www.pdbj.org
• SeSAW – findet sequenziell und strukturell ähnliche Motive
zu einer Struktur
PDBj - www.pdbj.org
• eProtS – Encyclopedia of Protein Structures – eine Wiki mit Informationen zu (nicht allen) PDB
Einträgen (educational resource)
PDBj - www.pdbj.org
• ProMode – Dynamik von 3D Strukturen
von Proteinen aus Analysen der Normalschwingungen (Normal Mode Analysis)
– Dynamik kann mittels Chime plugin angeschaut werden
Hiroshi Wako and Shigeru Endo, Biophys. Chem. vol. 159, pp.257-266, 2011
PDBj - www.pdbj.org
• Analysen zur Flexibilität von Proteinen aus NMR oder molekulardynamischen (MD) Simulationen sehr aufwendig
• Approximation der Flexibilität mittels Analyse der Normalschwingungen anhand der Freiheitsgrade des Moleküls
PDBj - www.pdbj.org • eF-site
– Electrostatic Surface of Functional site
PDBj - www.pdbj.org
• eF-seek – Suche nach ähnlichen Ligandenbindungsstellen
wie in vorgegebener Struktur (zum Hochladen)
PDBj - www.pdbj.org
• eF-surf – berechnet die molekulare Oberfläche für eine
PDB Datei
PDBe – www.ebi.ac.uk/pdbe/ • EMBL-EBI's Protein Data Bank in Europe (PDBe) • European Bioinformatics Institute (EBI)
PDBe – www.ebi.ac.uk/pdbe/
• PISA (Protein Interfaces, Surfaces and Assemblies)
• Vorhersage von Quartärstrukturen
• Datenbank vorberechneter Werte für das PDB Archiv oder auf hochgeladene PDB/mmCIF Datei anwendbar
• strukturelle und chemische Eigenschaften makromolekularer Interfaces
PDBe – www.ebi.ac.uk/pdbe/
PISA (Protein Interfaces, Surfaces and Assemblies)
PDBe – www.ebi.ac.uk/pdbe/
• Suche nach Interfaces, von strukturellen Homologen: – multimeric state – symmetry number – space group – accessible/buried surface area – free energy of dissociation – presence/absence of salt
bridges and disulphide bonds – homomeric type – ligands
PISA (Protein Interfaces, Surfaces and Assemblies)
• Suche nach strukturell ähnlichen Interfaces und Aggregaten
PDBe – www.ebi.ac.uk/pdbe/ • PDBe Search
– einzelne Moleküle – Aminosäuresequenz – Sequenzmotive – Strukturmotive (3D) – Sequenzen dihedraler Winkel – Sec.strukturelemente
• Upload PDB file – Ligandeninteraktionen – PROSITE patterns – kleine 3D Strukturmotive
PDBe – www.ebi.ac.uk/pdbe/ • Pair bonds
– Suche nach Bindung zwischen zwei gegebenen Molekülen
• 3D Environment
– Bindungsstatistik in Bezug auf die 3D Umgebung eines Liganden
– Vorgegebene Residuen werden in der räumlichen Umgebung von Liganden gesucht
• Motif binding • Bindungsstatistiken von
PROSITE Motiven
• Motif inclusion • Wie oft enthält ein
Motiv ein anderes Motiv?
• z.B. welches 3D Strukturmotiv taucht innerhalb eines PROSITE Motivs auf?
PDBe – www.ebi.ac.uk/pdbe/ • PDBeFold
– interaktiver Service zum 3D Strukturvergleich von Proteinen – paarweise/multiple Vergleiche/3D Alignments von
Proteinstrukturen – Suche in der PDB oder SCOP nach einem strukturell ähnlichen
Protein
PDBe –www.ebi.ac.uk/pdbe/
• Biobar - A toolbar for browsing biological data and databases (Firefox plugin)
BMRB – www.bmrb.wisc.edu
• Statistiken und Ressourcen für die NMR Gemeinschaft
• Suche nach z.B. – Datenbank ID – Schlüsselwörtern – Autor – Molekülname – Sequenz – experimentelle Bedingungen
STRUKTURVALIDIERUNG Strukturdatenbanken zur Verifizierung
Einführung
• Strukturen in der PDB bilden die Grundlage der strukturellen Bioinformatik
• alle Analysen basieren auf ihnen und wären ohne sie unmöglich
• zwei grundlegende Dinge müssen berücksichtigt werden und beide basieren darauf, dass die Strukturen experimentell bestimmt worden sind
Resultat eines Experiments = Model • experimentelle Daten werden mit Hilfe eines Models
versucht, so gut es geht zu beschreiben
• Begriff „Struktur” müsste eigentlich „Modell“ heißen müsste
• ein Model kann eine sinnvolle Repräsentation des Moleküls sein oder aber eine schlechte
• unabhängige Experimente können zu ähnlichen Modellen führen
Experiment immer fehlerbehaftet • systematische Fehler
– stehen in Verbindung mit Fehlerfreiheit (accuracy) des Modells; wie sehr stimmt es mit der “wahren” Struktur überein?
– Interpretationsfehler X-ray: • Molekül muss in die Elektronendichte aus berechneten
Beugungsdaten eingepasst werden • schwierig, die Polypeptidkette durch den Kristall zu
verfolgen – Interpretationsfehler NMR:
• Interpretation der Spektren, d.h. Zuordnung der Peaks zu den Atomen, zu denen sie am wahrscheinlichsten gehören
Experiment immer fehlerbehaftet • ist ein Modell im Prinzip korrekt, so bestimmen die
zufälligen Fehler die Genauigkeit (precision) des Modells
• Unterscheidung zwischen Fehlerfreiheit und Genauigkeit ist entscheidend! – ein hochgradig genau verfeinertes Modell nützt wenig, wenn
es komplett falsch ist
• die Größe der systematischen und zufälligen Fehler bestimmen die Art der Fragen, die man mit einem gegebenen Modell zu einem Molekül beantworten kann
Modelle aus anderen experimentellen Methoden
• in der PDB sind auch Modelle aus z.B. – powder, fiber, electron and neutron diffraction – Elektronentomographie – Infrarotspektroskopie – solution scattering
• jede Methode hat ihre Vor- und Nachteile sowie
Besonderheiten
• Modelle aus diesen Methoden müssen mit der beschreibenden Literatur sorgfältig untersucht werden
Theoretische Modelle • besondere Skepsis ist für die Modelle angebracht, die
nicht direkt auf experimentellen Messungen beruhen
• Modelle aus der Homologiemodellierung – Proteine mit hoher Sequenzidentität besitzen i.d.R. sehr
ähnliche 3D Strukturen – Modellierung kann mittels Webservern automatisiert werden
(z.B. Swiss-Model) – Problem: Fehler in der Template-Struktur werden nicht nur in
die modellierte Struktur übernommen, sondern vielleicht sogar verstärkt
– die PDB akzeptiert seit einigen Jahren keine theoretischen Modelle mehr
Theoretische Modelle
• Modelle mit den größten Fehlern aus ab initio / de novo und „threading“ / fold recognition Methoden
• diese Methoden werden dann angewandt, wenn es keine verwandten Strukturen in der PDB gibt (keine Homologiemodellierung möglich)
• sie sind am besten für kleine Proteine geeignet, die aus einer einzigen Domäne bestehen; annähernd korrekte Modelle
• generell liegen diese Methoden oft weit daneben