タンパク質立体構造の計算的研究 - Riken...Nucleic Acids Res.32, D230-D234 (2004). “The SWISS-MODEL Repository of annotated three-dimensional protein structure homology

タンパク質立体構造の計算的研究データベース散策、構造予測、ダイナミクス、、、構造プロテオミクス

東京大学農学生命科学研究科

アグリバイオインフォマティクス人材養成ユニット

特任助手

古田忠臣

東京大学農学生命科学研究科アグリバイオインフォマティクス人材養成プログラムプロテオーム情報学平成18年7月3日(月) ＠農学部2号館化学第一講義室

講義の予定� プロテオームについて

� HUGO、HUPO、HapMap

� ゲノムを覗いてみる(NCBI ENTREZ Genome Project)� ExPASy: SwissProt

� Swiss-2DPAGE

� PDB� PSI、タンパク3000プロジェクト

� SMR

� ModBase� CATH、SCOP

� DBAli、CE、DALI、VAST

� GO

� ホモロジーモデリング(DS1.5使用)� H-InvDB、GTOP

� 立体構造予測� フォールド認識法：FUGUE、３D-Juryなど� フラグメントアセンブリ法：Robettaなど

� ダイナミクス：MolMovDB、DynDom

ログオン、ログオフ、使用するソフトウェア

� ログオン� ユーザー名：iu0????

� パスワード：＊＊＊＊＊＊

� ログオン先：UNITWIN

� ログオフ� サーバーにデータを保存する為、きちんと終了してください。

� 「スタート」→「終了オプション」→「電源を切る」

� ソフト� ブラウザ：Internet Explorer

� モデリング：Discovery Studio 1.5

UNITWIN

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

iu0????

初めて、本ユニットのノートPCを使用される方へ

プロテオームとは？� ゲノム：全遺伝子情報（DNA）

↓・・・スプライシング

� トランスクリプトーム：全mRNA

↓・・・翻訳後修飾

� プロテオーム：全タンパク質� Marc Wilkins, 1994“all proteins expressed by a genome, cell or tissue”

↓� メタボローム：全代謝産物

↓� インタラクトーム、フェノーム、システオーム、フィジオーム、ファーマコゲノミクス、ニュートリゲノミクス etc.[語尾] -ome：全ての、-ics：学問、研究

V. C. Wasinger et al., Electrophoresis 16161616, 1090-1094 (1995) “Progress with gene-product mapping of the Mollicutes : Mycoplasma genitalium”M. Tyers, M. Mann, Nature 422422422422, 193-197 (2003) “From genomics to proteomics” [URL] http://www.nature.com/nature/insights/6928.html

M. Wilkins

・・・ゲノミクス（ゲノム学）� シークエンシング� マッピング� アノテーション

・・・プロテオミクス（プロテオーム学/解析）、5本の柱� 発現プロテオミクス

� 2次元電気泳動（等電点、分子量）� 質量分析（質量電荷比）

� 機能プロテオミクス� プロテインアレイ� 蛍光タンパク標識[GFP,FRET]

� 酵母ツーハイブリッド[Y2H]

� 構造プロテオミクス� X線（発現、結晶化、測定、位相決定、モデル構築）� NMR（発現、測定、帰属、モデル構築）

� （プロテオーム）情報学� 各種情報学的解析（文書のXML化など含む）

� 参考：HUPO (http://psidev.sourceforge.net )

� 臨床プロテオミクス� 臨床診断� 創薬

Webで顔写真を

探して下さい。

ヒトゲノムからヒトプロテオミクスへ

� 1990年、DOE/NHGRIの30億ドルの予算で15年の予定で「「「「ヒトゲノムヒトゲノムヒトゲノムヒトゲノム計画計画計画計画」」」」開始� 2001年、Venter率いるCelera Genomics社がヒトゲノム配列をScienceに発表� 2001年、国際ヒトゲノムシークエンスコンソーシアムもヒトゲノムのdraft配列を

Natureに発表参照⇒Human Genome Project Information

� 2003年4月14日、ヒトゲノム解読完了（13年）・・・DNA二重らせん発見から50年

� ６カ国（仏米英独日中）首脳による共同宣言（PDF）

� ヒトゲノム解読完了の総理への報告（動画）� 現在、数100生物種のゲノムが解読完了

� 2001年、ヒトプロテオーム機構（HUPO）� 他、2002年、国際HapMap計画

A. Patrinos

Human Genome Project Information [URL] http://www.ornl.gov/sci/techresources/Human_Genome/home.shtmlJ.C. Venter et al., Science 291, 1304-1351 (2001) “The Sequence of the Human Genome”

International Human Genome Sequencing Consortium, Nature 409, 860-921 (2001) “Initial sequencing and analysis of the human genome”

J.C. Venter

参考）和田プロジェクト 1981～（1990年目前に打ち切り）和田昭允は、日立の神原秀記らとDNA配列

自動高速解読を提唱A. Wada, Nature 325, 771-772 (1987) “Automated high-

speed DNA sequencing”

⇒Watsonそしてアメリカを刺激した！？

Webで顔写真を


Webで顔写真を


ゲノムを覗くNCBI ENTREZ Genome Project

� どの様な生物種のゲノムが解読されているか、覗いてみましょう。

� 講義のページから以下をクリック� NCBI ENTREZ Genome Project

� Statisticsをクリック

ゲノムの統計

� 現在(Jun 29, 2006)、

�原核生物(Prokaryotes)353種

�真核生物(Eukaryotes)21種

合計、374種のゲノムの解読が完

了している

� 進行中の計画も含めると、1171種

のゲノムの情報を得ることが出来る。Prokaryotes（原核生物） Archaea（古細菌） Bacteria（バクテリア、細菌）Eukaryotes（真核生物）

Animals（動物） Mammals（哺乳類） Birds（鳥類） Fishes（魚類） Insects（昆虫） Flatworms（扁形動物、扁虫） Roundworms（回虫）Amphibians（両生類） Reptiles（爬虫類） Other animals（他の動物）

Plants（植物） Land plants（陸上植物） Green Algae（緑藻類）Fungi（菌類） Ascomycetes（子嚢菌） Basidiomycetes（担子菌） Other fungi（他の菌類）Protists（原生生物） Apicomplexans（寄生性の微胞子虫、アピコンプレクサ） Kinetoplasts（動原核、キネトプラスト） Other protists（他の原生生物）

ヒト(Homo sapience)のアクチン(actin)を覗いてみる

� Mammals（哺乳類）をクリック

� 13番目（くらい）にあるヒト（Homo sapiens）をクリック

� “actin”で検索

� Findをクリック


� 203もヒットしてしまった（絞り込む必要がある）

� “actin”と”muscle”で検索

� ヒトの染色体は常染色体22対と性染色体X、Y（男性のみ）� 22対は長いものから1番、2番、、、21と22だけ逆


� 今度は23件

� 骨格筋（skeletal muscle）アクチン（actin）が見つかった

� Celera社のゲノムも載っている

� Map elementからACTA1をクリック


� ACTA1がピンクで表示されている

� 骨格筋アクチンは1番染色体の

� 後半の方にある

� Orientation（O)がNegative Strand

� 他、Links（下記参照）から様々な情報が得られます。

MTはミトコンドリア（母親からの情報） ⇔ Y染色体（父親からの情報）

� 配列を見てみましょう：svをクリック

ゲノム、トランスクリプトーム、プロテオーム⇒ DNA、mRNA、タンパク質

� 黒字：DNA (gene)

� 配列：ATG TGC GAC ,,,

� 青字：mRNA (RNA)

� ピンク：タンパク質 (CDS:CoDing Sequence)

� 配列：M C D ,,,

The Genetic Code � 一つ戻って（←）、HGNCをクリック

配列はまだまだ続きます

Negative

HUGO Gene Nomenclature Committee (HGNC)

HUGO遺伝子命名委員会

� これまで出てきたACTA1は、HGNCが決めた“actin,

alpha 1, skeletal muscle”

のシンボルでした。

� Accession Numbersなど居

様々なデータベースへのリンクになっています。

� SwissProtをクリック

ExPASy(Expert Protein Analysis System )

SwissProt: Protein Knowledgebase(タンパク質の知識基盤)

� ExPASyのSwiss-Protサイトに飛びました。

� 下のCommentsまでスクロールして下さい。

Boeckmann B., Bairoch A., Apweiler R., Blatter M.-C., Estreicher A., Gasteiger E., Martin M.J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M.

Nucleic Acids Res. 31, 365-370 (2003).

“The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003”

� 機能機能機能機能：アクチンは全ての真核細胞で発現する様々なタイプの細胞運動に関わる、良く保存されたタンパク質である。

� サブユニットサブユニットサブユニットサブユニット：球状アクチン（G-アクチン）の重合により、二重らせん形の構造体フィラメント（F-アクチン）になる。

� 細胞内細胞内細胞内細胞内でのでのでのでの場所場所場所場所：細胞質

etc.

� Cross-referencesに進んで下さい。

� 2D gel databaseのSWISS-2DPAGEには2次元電気泳動の画像（同定されたそのタンパク質のスポット）が登録されています。

� 3D structure databaseには

構造が決定されている場合PDB （タンパク質立体構造データベース）

が載っています。

ウサギ（RABIT）のアクチンSwiss-Prot entry P68135の場合

� ヒトのアクチンは構造が決まっていないのでモデル構造（SMR)が載っています。

� P68133をクリック

Sanchez J.-C., Appel R.D., Golaz O., Pasquali C., Ravier F., Bairoch A., Hochstrasser D.F.

Electrophoresis 16, 1131-1151 (1995)

“Inside SWISS-2DPAGE database”

タンパク質立体構造データベース：PDB – Protein Data Bank

[URL] http://www.rcsb.org/pdb/

�現在（May/09/2006）、36,428構造が登録さ

れている

H.M. Berman, et al., Nucleic Adids Res. 28, 235-242 (2000), “The Protein Data Bank”

PDB ID：4文字の英数字 ex) 1AB1

バイオインフォマティクスリテラシーIと同じ資料

構造プロテオミクス：タンパク3000プロジェクト 2002～2006

[URL] http://www.mext-life.jp/protein/⇒研究推進体制について、研究成果概要

� タンパク質の基本構造10000種のうち、3000以上のタンパク質の構造を決定する

� NIGMSタンパク質構造イニシアティブ、10年で10,000タンパク質構造� 3億塩基対が解読され、およそ100,000タンパク質がコードされている・・・全ての構造解析は困難

� 同一ファミリーとしては25%程度、さらに2or3分の1に減少でき⇒基本構造10,000タンパク質

� [URL] http://www.nigms.nih.gov/Initiatives/PSI/

SWISS-MODEL REPOSITORY (SMR)注釈付けされたタンパク質の比較モデリング法（SWISS-MODEL）により

構築された立体構造のデータベース（・・・少し後でモデリングを実習します）

� モデル情報(Model Info)

� X線解析で決まったPDB（2FXU：A）の配列と100%の配列一致度

� モデル構造を見てみましょう

� 図をクリック

� Javaでastex viewer（表示ソフト）

が起動し、立体構造が表示され、回転、拡大縮小、表示の切り替えなど出来ます。

� 戻って、今度はModBaseのP68133をクリック

Kopp J, Schwede T.

Nucleic Acids Res. 32, D230-D234 (2004).

“The SWISS-MODEL Repository of annotated three-dimensional protein structure homology models”

ModBase比較モデリング法（MODELLER）で構築したタンパク質3次元構造のデータベース

� 関連するXenopus（アフリカツメガエル）のアクチンを配列一致度94%のC.elegans（線虫）のPDB（1D4X：A）でモデリングしています。

� 構造分類データベースを見て見ましょう。� 少し下の、CATH列の

3.30.420.40をクリック

Ursula Pieper, Narayanan Eswar, Hannes Braberg, M.S. Madhusudhan, Fred Davis, Ashley C. Stuart, Nebojsa Mirkovic, Andrea Rossi, Marc A. Marti-Renom, Andras Fiser,

Ben Webb, Daniel Greenblatt, Conrad Huang, Tom Ferrin, Andrej Sali

Nucleic Acids Res. 32, D217-D222 (2004)

“MODBASE, a database of annotated comparative protein structure models, and associated resources”

CATH：構造分類データベース他の有名な構造分類データベース：SCOP

（バイオインフォマティクスリテラシーIの構造予測分野のページを参照）

� アクチンは4つ

のドメインからなるので、右図にある様に4つに分類さ

れて登録されています。

タンパク質立体構造分類データベース：CATH – Class, Architecture, Topology, Homologous superfamily

[URL] http://cathwww.biochem.ucl.ac.uk/latest/

→ Browse or search the classification

� 現在、1,109 topologies

（folds）が登録されている

(v3.0.0)

� かなり自動的に分類されるが、最後は人手

階層 C A T H S

クラス、アーキテクチャー、トポロジートポロジートポロジートポロジー、ホモロガススーパーファミリースーパーファミリースーパーファミリースーパーファミリー、シークエンスファミリーex) CATH code: 1. 10. 8. 10. 1

Mainly Alpha

Orthogonal Bundle

Helicase,,,

DNA helicase RuvA subunit,,,

DNA helicase Ruv subunit,,,

Fold・・・

C.A. Orengo, et al., Structure 5, 1093-1108 (1997), “CATH – A Hierarchic Classification of Protein Domain Structures”


タンパク質立体構造分類データベース：SCOP – Structural Classification of Proteins

[URL] http://scop.mrc-lmb.cam.ac.uk/scop/

→ top of the hierarchy

� 2004年時点での25,973PDBが70,859ドメインに分割され、

現在、約1,000（945）のフォールドが登録されている(1.69)

Murzinが中心となり、

人の手・目！？で分類されている

A.G. Murzin, et al., J. Mol. Biol.. 247, 536-540 (1995),

“SCOP: a structural classification of proteins database for the investigation of sequences and structures”

階層：クラス、フォールドフォールドフォールドフォールド、スーパーファミリースーパーファミリースーパーファミリースーパーファミリー、ファミリー

ex) sccs: a. 1. 1. 1

All alpha proteins. Globin-like. Globin-like. Truncated hemoglobin

All alpha All beta a/b a+b

スーパーファミリー：機能・構造的特徴から恐らく共通の進化的起源例）アクチン、ヒートショックタンパクのATPase、ヘキサキナーゼ


タンパク質立体構造比較サーバー：DBAli� Chainは1d4xAと設定されているので、Searchをクリック

� 配列一致度（Seq.Id.）でソートされた、類似構造が検索されます（構造類似性の指標RMSDが表示されています）。

ModBaseに戻り、DBALIの右の1d4xAをクリック

� 他にも、有名な構造比較サーバーとして、CE、DALI、VASTなどがあります（バイオインフォマティクスリテラシーI参照）。

� Swiss-Protまで戻って、少し下のOntologiesを見てみましょう。

GO（Gene Ontology）本家： [URL] http://www.geneontology.org/

� GOは、主に次の3つのオントロジーで分類しています。� biological process （生物学的プロセス）� cellular component （細胞の構成要素）� molecular function （分子機能）

� アクチンの場合、� 細胞の構成要素

� アクチンフィラメント� ストレスファイバー

� 分子機能� ADP結合� ATP結合

� ミオシン結合� タンパク質結合

� 生物学的プロセス� 筋肉細フィラメント集合� 骨格筋ファイバー発生

これで、網羅的解析ならぬ、遺伝子・タンパク質の主な特徴の網羅的探索が出来る様になったと思います。さて、先程残しておいた、ホモロジーモデリング（比較モデリング）を行ってみましょう！、、、多分2コマ目

ホモロジーモデリング（比較モデリング）

� 「問い合わせ配列」に対して、データベースを用いて配列解析を行い、検索された鋳型・アラインメントを基に「立体構造」を構築することを、ホモロジーモデリング（比較モデリング）と言います。

問い合わせ配列

配列解析PSI-BLASTなど

モデル構築MODELLERなど

立体構造

データベースPDBなど

モデルの評価Verify3Dなど


ACTA1を、ModBaseと同様に１D4X:Aを用いてモデリングしてみましょう！（ModBaseはXenopusのモデリングでしたが）

配列を入手

� Swiss-Protのページの一番下のSequence information（配列情報）の右下の、P88133 in FASTA formatをクリック

� 配列の行のみ選択し、コピー

� デスクトップ（もしくは「スタート」→「すべてのプログラム」）から、Discovery Studio 1.5を起動

配列の入力

� 「File」→「New」→「Sequence Window」

� 先程コピーした配列を貼り付け

� 配列名を右クリックして「Rename Sequence」を選択し、「Untitled1」から「ACTA1」に変更

PSI-BLAST検索� Protocols内Protein Modelingの左の＋をクリックし、

PSI-BLASTをダブルクリック

� 右下のPSI-BLAST設定ウィンドウの内容を以下に変更� Sequence Sequence:ACTA1

� Database PDB

� Expectation Value 0.001

� Number of Sequences in Output 25

� 緑の三角をクリックして実行

【注意】他の設定は変更しないで下さい

� そのままの設定では、BLAST検索結果から構造が上手くダウ

ンロードできませんので、以下の様に設定を変更して下さい。� 「Edit」→「Preferences」を選択

� 「Files Explorer」の左の「＋」をクリック

� 「PDB Location」をクリック

� Web Siteを「www.rcsb.org」から「pdb.rcsb.org」を選択

� 設定が変更できたので「OK」を選択


初めてDS1.５を使用する方は、以下の設定の変更をして下さい。

構造のダウンロードとアラインメントの表示

� 15秒程で終了する。

� 下のTable Viewタブをクリック

� Accession：1D4X_Aを右クリックし、「Load Structure and Alignment」をクリック

不要なチェーン、水分子の削除

� G chain、Waterを選択し、「Back Space」キーで削除

� 結合しているリガンドATPを含め

てモデリングしてみましょう

� 右クリック、Rename Sequence

で、配列名を「1D4X」から「1D4X_A」に変更

� 左のProtocolsエクスプローラーから、「Build Models」をダブル

クリック

N末5残基と46-49残基を含めモデリングされます

モデリングの実行� 右下のBuild Modelsの設定ウィンドウで

� Alignment Structure Sequence Alignmentを選択

� 自動的に、以下が補完されます

� Model Sequence ACTA1

� Protein Structures 1D4X_A

� Copy Ligands 1D4X_A::ATP676にチェック

� リガンドのある状態でモデリングされます

� 緑の三角をクリックし、モデリング実行

� 7,8分で終了します。

モデリングされた構造の表示

� 左下のJobsウィンドウのBuild Modelsをダブ

ルクリック

� FilesのOutputを開き、「ACTA1.B99990001.msv」をダブルクリック

� 表示の切り替え� 開いた、3D Windowをアクティブにして、「Ctrl」＋「D」

� 以下の設定で「OK」ク

リック

� Atom: None

� Protein: Solid Ribbon

構造の評価：Verify3D

� ProtocolsのAnalysisを開き、Verify Proteinをダブルクリック

� Protein Structureを「ACTA1:B99990001:ACTA1:B99990001」にして、緑の三角で実行

� 20秒程で終了し、結果が表示されます。

� Amino Acidをクリックし、Verify Score列を選択して、Chart→Simple Line Plot

残基のVerify Score

H-InvDB:ヒト遺伝子アノテーション統合データベース

� ヒトゲノムのアノテーション（注釈付け）がまとまっています。

� “actin muscle”で検索し、HIT000035891をクリック

� 2D&3D Structureをクリック

� GTOPをクリック� このリンクはH-InvDB用の

GTOPのリンクです。

C. Yamasaki et al., Gene 364, 99-107 (2005), “Investigation of protein functions through data-mining on integrated human

transcriptome database, H-Invitational database (H-InvDB) ”

GTOP：Genomes TO Protein structures and

functions本家： [URL] http://spock.genes.nig.ac.jp/~genome/� 先程、皆さんが実行したのと同じ（リガンドはなしですが）、

E-value＜0.001でホモロジーモデリングした構造が表示されます。

� 立体構造予測だけではなく、機能予測やいくつかの解析がまとめられています。

� それも446生物種全て

のゲノムに対して解析したまとめです。

T. Kawabata, K. Nishikawa, Tanpakushitsu Kakusan Koso 46, 2592-2597 (2001), “GTOP: database for protein 3D structure

prediction ”

PDB-BLAST：少し遠縁の検索� これまでのモデリング（構造予測）は、PDBデータベースに対して、相同性検索に基づいたものですが、有意な構造がない場合、構造が構築できません。

� 上記より、少し遠縁のタンパク質を検索する方法としてPDB-BLASTがあります。� 構造に偏りのあるPDBではなく、初めにNRデータベースに対して5ラウンドPSI-BLAST検索しPSSMを出力します。

� そのPSSMを用いて、PDBデータベースに対して、PSI-BLAST検索して少し遠縁のタンパク質を検索します。

� モデリングは、アラインメントを基に先程おこなったものと同じです。

� 2ページ後の3D-Juryの項目に入ってます（内部で実行）。

Fold Recognition（フォールド認識）サーバー:

FUGUE2� これまでの、PSI-BLASTにおけるプロファイル（PSSM）は配列情報のみによる。

� 既知立体構造（PDB）情報を基にデータベースHOMSTRADを構築し、そのデータベースに対して、配列のPSSMおよび構造のPSSMを用いて、フォールドの検索を行う。

PSSMの例） ACTA1配列をPSI-BLAST検索（構造PSSMではない）

J. Shi, T.L. Blundell, K. Mizuguchi, J. Mol. Biol. 310, 243-257 (2001), “FUGUE: sequence-structure homology recognition using

environment-specific substitution tables and structure-dependent gap penalties ”

フォールド認識法Threadingなど

� これまでは、BLAST、PSI-BLAST等による相同性検索を用いて主に近縁の配列を検索し、その鋳型・アラインメントを基にモデル構築をおこないましたが、

� マルチプルアラインメント、プロファイル（PSSM）を有効に用いたり、構造配列相関を用いることにより、より遠縁の鋳型を検索することができます。

� これらフォールド認識法を用いた多くのサーバーが存在します。� 3D-PSSM, FUGUE2, Sam-T02, mGenThreaderなど

� さらに、それらいくつかのサーバーのメタサーバー（コンセンサス予測をする）もあります。

� 3D-Jury� [URL] http://bioinfo.pl/meta/

K. Ginalski et al., Bioinformatics 19, 1015-1018 (2003), “3D-Jury: a simple approach to improve protein structure predictions”

K. Ginalski

やはり、時代はコンセンサス！？


Webで顔写真を


ab initio / de novo予測法Fragment Assembly法

� 鋳型構造がない、つまり新規フォールドの予測に関して、PSSM相関等で集めた部分構造（フラグメント）を利用する、フラグメントアセンブリ法が主流です。

� D. Bakerが普及させました（Rosetta法）。� ROBETTA ＝ Robot + Rosetta

� [URL] http://robetta.bakerlab.org

K.T. Simons et al., J. Mol. Biol. 268, 209-225 (1997), “Assembly of protein tertiary structures from fragments with similar local sequences using simulate anealing and Bayesian scoring functions”

D. Chivian et al., Proteins 53, 524-533 (2003), “Automated prediction of CASP-5 structures using the Robetta server”

D. Baker

立体構造予測において、プロファイルプロファイルプロファイルプロファイル（（（（PSSM））））は大変重要です。


Webで顔写真を


MolMovDB: Database of Macromolecular Movements with,,,

� リガンドがある場合、ない場合など同じタンパク質の2つのPDBをつないで、タンパク質の運動を可視化

� actin, myosin IIを検索してみよう。

� 他にも、DynDomというドメイン運動を可視化したサーバーがあります。

N. Echols, D. Milburn, M. Gerstein, Nucleic Acids Res. 31, 478-482 (2003), “MolMovDB: analysis and visualization of conformational change and structural flexibility ”

R.A. Lee, M. Razaz, S. Hayward, Bioinformatics 19, 1290-1291 (2003), “The DynDom database of protein domain motions ”

【課題】遺伝子・タンパク質を探す

� 自分の研究に関連する生物種の遺伝子・タンパク質をNCBI ENTREZ Genome ProjectもしくはGTOPで検索する。� 遺伝子・タンパク質に関わっていない方は、興味のある生物種の遺伝子・タンパク質で良いです。

� 以下をPowerPointにまとめ、メールに添付して私のメールアドレス([email protected])まで送信して下さい。� 遺伝子名例）ACTA1

� アミノ酸配列例）MCDEDETTALVCDNGSGLVKAGFAGDDAP、、、

� GO 例）本文参照

� （あれば）それ自体かモデルの立体構造

� （あれば）MolMovDBでの動き

Documents

タンパク質立体構造の計算的研究 - Riken...Nucleic Acids Res.32, D230-D234 (2004). “The SWISS-MODEL Repository of annotated three-dimensional protein structure homology