Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
・Tophat-fusion、Chimerascan を用いて融合遺伝子検出の感度と偽陽性数を比較
・Tophat-fusion は異なる染色体間、Chimerascan は同一染色体内の融合遺伝子を、検出しやすい傾向が示唆
・両ソフトで既知融合遺伝子 CCDC6-RET とWNK1-B4GALNT3 の検出を確認
解析レポート 1701
次世代シーケンサを用いた融合遺伝子の探索
~ 甲状腺乳頭癌で発現している融合遺伝子の解析例 ~
1.目的 がん組織においてゲノム配列の逆位や挿入、転座などに
より、複数の遺伝子が融合することがある。このようにし
てできた融合遺伝子は、発がんと大きな関係があることが
知られている。例えば、EML4-ALK 融合遺伝子は、細胞増殖
にかかわるチロシンキナーゼ ALK 遺伝子が EML4 遺伝子と融
合することで高いキナーゼ活性を獲得し、発がんを誘導す
ることが知られている [1]。また、融合遺伝子はがん組織
に特異的に発現することから、分子標的薬のターゲットと
して大きな注目を集めている。近年、がん治療薬の開発を
目的として、次世代シーケンサを用いた融合遺伝子の同定
が盛んに行われている。本稿では、融合遺伝子の解析によ
く用いられる Tophat-fusion [2] と Chimerascan [3] を用
いた解析事例を紹介する。これら 2 種類のソフトウェアは
さまざまな融合遺伝子の研究で幅広く利用されてきただけ
でなく、他のソフトウェアと比較して検出感度が良いこと
でも知られている [4]。
2.使用したデータ
3.解析手法
3.1. ソフトウェアの性能評価
ポイント
サンプル
正常 1
正常 2
正常 3
正常 4
腫瘍 1
腫瘍 2
腫瘍 3
腫瘍 4
腫瘍 5
腫瘍 6
腫瘍 7
ID 総リード数 リード長 (bp)
NS118
TS116
TS115
TS112
TS111
TS110
NS130
NS129
NS119
TS125
TS117
75,709,146
26,874,920
59,005,897
54,806,207
66,171,386
61,528,113
64,693,617
53,584,485
48,757,235
27,191,476
84,083,688
75
99
99
75
100
75
75
75
75
75
75
表 1. 使用した RNA-seq データ
ソフトウェアの性能評価に用いるデータとして、The
Cancer Genome Atlas (TCGA) で同定された融合遺伝子のリ
スト [5] からランダムに 100 種の融合遺伝子を抽出した。
それら遺伝子の配列から、ART[6] を用いてシミュレーショ
ンデータ(fastq ファイル)を作成した。fastq ファイルは、
Paired-end でリード長が 75bp、100bp、各融合遺伝子由来
の リ ー ド の Coverage が x5, 10, 20, 30, 50, 80, 100,
150, 200 となる RNA-seq データをそれぞれ用意した。
組織のデータとして、Costa らの論文 [7] で公開された、
甲状腺正常組織の RNA-seq データ 4 サンプルと、甲状腺乳
頭癌の RNA-seq データ 7 サンプルを用意した。各サンプル
のリード長、リード数は表 1 に示した。
Tophat-fusion と Chimerascan を用いたときの融合遺伝子
の検出感度 (True-positive) と偽陽性数 (False-positive)
をシュミレーションデータを用いて調査した(図 1)。
Tophat-fusion では、75bp より 100bp のリード長で検出感度
が高かった。一方で、Chimerascan では、Coverage が X10 以
上の条件で、リード長に依存せず高い検出感度を示した。ま
た、Coverage が増加すると偽陽性数が増加する傾向にあった。
2 つのソフトウェアを比較した結果、検出感度では
Chimerascan が、偽陽性数の少なさでは Tophat-fusion が優
れていた。これは、Tophat-fusion では、Blast 検索により
偽遺伝子をはじめとする類似性の高い配列にマッピングされ
たリードを排除しており、Chimerascan と比較してマッピン
グエラーによって同定されていしまう候補を除外しているた
めだと考えられる。加えて、リードスルー(終止コドンで停
止せずに翻訳を続けること)で生じる融合遺伝子を除外して
いることもその一因であると考えられる。
解 析 に は、そ れ ぞ れ Tophat-fusion、Chimerascan、
Bowtie [8]、Blast [9]、Circos [10] を利用した。また、マッ
ピング時には hg19 のリファレンスゲノムを利用した。遺伝
子のアノテーションは Tophat-fusion で提供されている
RefSeq と Ensembl の情報 [11] を利用した。
解析レポート 1701
4. 腫瘍組織における融合遺伝子の同定
図 1. 同定された融合遺伝子の割合と偽陰性の数
サンプル
腫瘍 1
腫瘍 2
腫瘍 3
腫瘍 4
腫瘍 5
腫瘍 6
腫瘍 7
CCDC6-RET
CCDC6-RET
CCDC6-RET
CCDC6-RET
CCDC6-RET
融合遺伝子
WNK-B4GALNT3
CCDC6-RET
23
90
44
60
144
91
69
Tophat-fusion Chimerascan
16
77
33
54
139
81
56
サンプル
正常 1
正常 2
正常 3
正常 4
腫瘍 1
腫瘍 2
腫瘍 3
腫瘍 4
腫瘍 5
腫瘍 6
腫瘍 7
Tophat-fusion Chimerascan 両ソフトに共通
78
44(40)
47(43)
41(34)
59(49)
56(46)
35
6
88
12(11)
70(68)
183
69(19)
200(143)
122(64)
122(63)
116(50)
125(55)
94(43)
93
61
134
1
0
0
0
0
0
0
0
0
0
0
5. 融合遺伝子のゲノム上での位置関係
※()内は正常組織で同定された融合遺伝子の候補を除いた検出数
表 3. 融合遺伝子の検出数と両ソフトでの一致数
ソフトウェア
Tophat-fusion
Chimerascan 292
264
総数
263
81
同一染色体内 異なる染色体間
29
183
表 2. 同定された既知の融合遺伝子と有効リード数
表 4. 同一染色体・異なる染色体間の融合遺伝子の数
腫瘍組織から得られた計 8サンプルの RNA-seq データか
ら同定されたすべての融合遺伝子の位置関係を図 2に示し
た。同一染色体上での融合遺伝子を青線で、異なる染色体
間での融合遺伝子を赤線で示した。
Tophat-fusion では異なる染色体間の融合遺伝子がより検
出される傾向があり、一方で Chimerascan では同一染色体
内の融合遺伝子がより検出される傾向があった(表 4)。
組 織 の RNA-seq デ ー タ に 対 し て、Tophat-fusion と
Chimerascan を用いて融合遺伝子を同定した。まず、論文中
で報告された既知の融合遺伝子が検出の有無を検討した。
その結果、いずれのサンプルにおいても、両ソフトウェア
に よ っ て 論 文 中 で 報 告 さ れ た CCDC6-RET お よ び
WNK1-B4GALNT3 融 合 遺 伝 子 を 同 定 で き た ( 表 2)。
次に、Tophat-fusion および Chimerascan を用いて同定さ
れたすべての融合遺伝子の比較を行った (表3)。その結果、
Chimerascan では Tophat-fusion よりも多くの融合遺伝子が
同定された。
そこで、偽陽性を減らす目的で、正常組織で検出された融
合遺伝子を腫瘍組織で検出された融合遺伝子から差し引い
た。その結果、Chimerascan では検出された融合遺伝子の候
補数を約 1/2 まで絞り込むことができた。またこのとき、
論文中で報告された CCDC6-RET および WNK1-B4GALNT3 融合
遺伝子は候補遺伝子に残っていることも確認できた。
解析レポート 1701
Tophat-fusion では異なる染色体間で生まれた融合遺伝子が
より検出される傾向があり、一方で Chimerascan では同一染色
体内で生まれた融合遺伝子がより検出される傾向があることが
分かった(表 6)。
1. Soda, M., Choi, Y. L. et al. (2007). Identification of the
transforming EML4‒ALK fusion gene in non-small-cell lung
cancer. Nature, 448(7153), 561-566.
2. Kim, D., & Salzberg, S. L. (2011). TopHat-Fusion: an algorithm
for discovery of novel fusion transcripts. Genome Biol,
12(8), R72.
3. Iyer, M. K., Chinnaiyan, A. M., & Maher, C. A. (2011).
ChimeraScan: a tool for identifying chimeric transcription in
sequencing data. Bioinformatics, 27(20), 2903-2904.
4. Carrara, M., Beccuti, M., Lazzarato, F., Cavallo, F., Cordero, F.,
Donatelli, S., & Calogero, R. A. (2013). State-of-the-art
fusion-finder algorithms sensitivity and specificity. BioMed
research international, 2013.
5. Yoshihara, K., Wang, Q., Torres-Garcia, W., Zheng, S.,
Vegesna 1. R., Kim, H., & Verhaak, R. G. W. (2014). The
landscape and therapeutic relevance of cancer-associated
transcript fusions. Oncogene.
6. Huang, W., Li, L., Myers, J. R., & Marth, G. T. (2012). ART: a
next-generation sequencing read simulator. Bioinformatics,
28(4), 593-594.
7. Costa, V., Esposito, R. et al. (2015). New somatic mutations
and WNK1-B4GALNT3 gene fusion in papillary thyroid
carcinoma. Oncotarget, 6(13), 11242.
8. Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and
memory-efficient alignment of short DNA sequences to
the human genome. Genome Biol 10:R25.
9. Kent WJ: BLAT--the BLAST-like alignment tool. Genome
Res. 2002, 12: 656-664.
10. Circos: an Information Aesthetic for Comparative
Genomics. Genome Res (2009) 19:1639-1645
11. http://ccb.jhu.edu/software/tophat/fusion_tutorial.shtml6. まとめ
7. 参考文献・ソフトウェア
Tophat-fusion
Chimerascan
図 2. Circos プロット
Tophat-fusion と Chimerascan を用いたときの融合遺伝子
の検出感度および偽陽性数を調べた結果、融合遺伝子の検
出感度では Chimerascan が、偽陽性数の少なさでは Topfat
-fusion が優れていた。
次に、これらのソフトウェアを用いて融合遺伝子の同定を
行った結果、両ソフトウェアでも論文中で報告されている
既知の融合遺伝子 CCDC6-RET と WNK1-B4GALNT3 を同定する
ことができた。また、正常組織のデータから得られた融合
遺伝子の候補を腫瘍組織で得られた遺伝子から差し引くこ
とで、既知の融合遺伝子を取りこぼすことなく候補となる
融合遺伝子の数を絞り込むことができた。
最後に、各ソフトウェアの特性として、今回使用したデー
タでは、Tophat-fusion は異なる染色体間の融合遺伝子を検
出しやすい傾向にあり、一方で Chimerascan では同一染色
体内の融合遺伝子を検出しやすい傾向にあると考えられる。
融合遺伝子解析解析レポート新_1融合遺伝子解析解析レポート新_2融合遺伝子解析解析レポート新_3