3
・Tophat-fusion、Chimerascan を用いて融合遺伝子検出の感度と偽陽性数を比較 ・Tophat-fusion は異なる染色体間、Chimerascan は同一染色体内の融合遺伝子を、検出しやすい傾向が示唆 ・両ソフトで既知融合遺伝子 CCDC6-RET と WNK1-B4GALNT3 の検出を確認 解析レポート 1701 次世代シーケンサを用いた融合遺伝子の探索 甲状腺乳頭癌で発現している融合遺伝子の解析例 1.目的 がん組織においてゲノム配列の逆位や挿入、転座などに より、複数の遺伝子が融合することがある。このようにし てできた融合遺伝子は、発がんと大きな関係があることが 知られている。例えば、EML4-ALK 融合遺伝子は、細胞増殖 にかかわるチロシンキナーゼ ALK 遺伝子が EML4 遺伝子と融 合することで高いキナーゼ活性を獲得し、発がんを誘導す ることが知られている [1]。また、融合遺伝子はがん組織 に特異的に発現することから、分子標的薬のターゲットと して大きな注目を集めている。近年、がん治療薬の開発を 目的として、次世代シーケンサを用いた融合遺伝子の同定 が盛んに行われている。本稿では、融合遺伝子の解析によ く用いられる Tophat-fusion [2] Chimerascan [3] を用 いた解析事例を紹介する。これら 2 種類のソフトウェアは さまざまな融合遺伝子の研究で幅広く利用されてきただけ でなく、他のソフトウェアと比較して検出感度が良いこと でも知られている [4]。 2.使用したデータ 3.解析手法 3.1. ソフトウェアの性能評価 ポイント サンプル 正常 1 正常 2 正常 3 正常 4 腫瘍 1 腫瘍 2 腫瘍 3 腫瘍 4 腫瘍 5 腫瘍 6 腫瘍 7 ID 総リード数 リード長 (bp) NS118 TS116 TS115 TS112 TS111 TS110 NS130 NS129 NS119 TS125 TS117 75,709,146 26,874,920 59,005,897 54,806,207 66,171,386 61,528,113 64,693,617 53,584,485 48,757,235 27,191,476 84,083,688 75 99 99 75 100 75 75 75 75 75 75 表 1. 使用した RNA-seq データ ソフトウェアの性能評価に用いるデータとして、The Cancer Genome Atlas (TCGA) で同定された融合遺伝子のリ スト [5] からランダムに 100 種の融合遺伝子を抽出した。 それら遺伝子の配列から、ART[6] を用いてシミュレーショ ンデータ(fastq ファイル)を作成した。fastq ファイルは、 Paired-end でリード長が 75bp、100bp、各融合遺伝子由来 Coverage x5, 10, 20, 30, 50, 80, 100, 150, 200 と な る RNA-seq デ ー タ を そ れ ぞ れ 用 意 し た。 組織のデータとして、Costa らの論文 [7] で公開された、 甲状腺正常組織の RNA-seq データ 4 サンプルと、甲状腺乳 頭癌の RNA-seq データ 7 サンプルを用意した。各サンプル のリード長、リード数は表 1 に示した。 Tophat-fusion と Chimerascan を用いたときの融合遺伝子 の検出感度 (True-positive) と偽陽性数 (False-positive) をシュミレーションデータを用いて調査した(図1)。 Tophat-fusion では、75bp より 100bp のリード長で検出感度 が高かった。一方で、Chimerascan では、Coverage が X10 以 上の条件で、リード長に依存せず高い検出感度を示した。ま た、Coverageが増加すると偽陽性数が増加する傾向にあった。 2つのソフトウェアを比較した結果、検出感度では Chimerascan が、偽陽性数の少なさでは Tophat-fusion が優 れていた。これは、Tophat-fusion では、Blast 検索により 偽遺伝子をはじめとする類似性の高い配列にマッピングされ たリードを排除しており、Chimerascan と比較してマッピン グエラーによって同定されていしまう候補を除外しているた めだと考えられる。加えて、リードスルー(終止コドンで停 止せずに翻訳を続けること)で生じる融合遺伝子を除外して いることもその一因であると考えられる。 解 析 に は、そ れ ぞ れ Tophat-fusion、Chimerascan、 Bowtie [8]、Blast [9]、Circos [10]を利用した。また、マッ ピング時には hg19 のリファレンスゲノムを利用した。遺伝 子のアノテーションは Tophat-fusion で提供されている RefSeq と Ensembl の情報 [11] を利用した。

次世代シーケンサを用いた融合遺伝子の探索 - Amelieffamelieff.jp/.../2017/02/77f531af406b33d77c2e4c400f750b72.pdf解析レポート1701 Tophat-fusionでは異なる染色体間で生まれた融合遺伝子が

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • ・Tophat-fusion、Chimerascan を用いて融合遺伝子検出の感度と偽陽性数を比較

    ・Tophat-fusion は異なる染色体間、Chimerascan は同一染色体内の融合遺伝子を、検出しやすい傾向が示唆

    ・両ソフトで既知融合遺伝子 CCDC6-RET とWNK1-B4GALNT3 の検出を確認

    解析レポート 1701

    次世代シーケンサを用いた融合遺伝子の探索

    ~ 甲状腺乳頭癌で発現している融合遺伝子の解析例 ~

      

    1.目的 がん組織においてゲノム配列の逆位や挿入、転座などに

    より、複数の遺伝子が融合することがある。このようにし

    てできた融合遺伝子は、発がんと大きな関係があることが

    知られている。例えば、EML4-ALK 融合遺伝子は、細胞増殖

    にかかわるチロシンキナーゼ ALK 遺伝子が EML4 遺伝子と融

    合することで高いキナーゼ活性を獲得し、発がんを誘導す

    ることが知られている [1]。また、融合遺伝子はがん組織

    に特異的に発現することから、分子標的薬のターゲットと

    して大きな注目を集めている。近年、がん治療薬の開発を

    目的として、次世代シーケンサを用いた融合遺伝子の同定

    が盛んに行われている。本稿では、融合遺伝子の解析によ

    く用いられる Tophat-fusion [2] と Chimerascan [3] を用

    いた解析事例を紹介する。これら 2 種類のソフトウェアは

    さまざまな融合遺伝子の研究で幅広く利用されてきただけ

    でなく、他のソフトウェアと比較して検出感度が良いこと

    でも知られている [4]。                

    2.使用したデータ

    3.解析手法

    3.1. ソフトウェアの性能評価

    ポイント

    サンプル

    正常 1

    正常 2

    正常 3

    正常 4

    腫瘍 1

    腫瘍 2

    腫瘍 3

    腫瘍 4

    腫瘍 5

    腫瘍 6

    腫瘍 7

    ID 総リード数 リード長 (bp)

    NS118

    TS116

    TS115

    TS112

    TS111

    TS110

    NS130

    NS129

    NS119

    TS125

    TS117

    75,709,146

    26,874,920

    59,005,897

    54,806,207

    66,171,386

    61,528,113

    64,693,617

    53,584,485

    48,757,235

    27,191,476

    84,083,688

    75

    99

    99

    75

    100

    75

    75

    75

    75

    75

    75

    表 1. 使用した RNA-seq データ

     ソフトウェアの性能評価に用いるデータとして、The

    Cancer Genome Atlas (TCGA) で同定された融合遺伝子のリ

    スト [5] からランダムに 100 種の融合遺伝子を抽出した。

    それら遺伝子の配列から、ART[6] を用いてシミュレーショ

    ンデータ(fastq ファイル)を作成した。fastq ファイルは、

    Paired-end でリード長が 75bp、100bp、各融合遺伝子由来

    の リ ー ド の Coverage が x5, 10, 20, 30, 50, 80, 100,

    150, 200 となる RNA-seq データをそれぞれ用意した。

    組織のデータとして、Costa らの論文 [7] で公開された、

    甲状腺正常組織の RNA-seq データ 4 サンプルと、甲状腺乳

    頭癌の RNA-seq データ 7 サンプルを用意した。各サンプル

    のリード長、リード数は表 1 に示した。         

     Tophat-fusion と Chimerascan を用いたときの融合遺伝子

    の検出感度 (True-positive) と偽陽性数 (False-positive)

    をシュミレーションデータを用いて調査した(図 1)。

    Tophat-fusion では、75bp より 100bp のリード長で検出感度

    が高かった。一方で、Chimerascan では、Coverage が X10 以

    上の条件で、リード長に依存せず高い検出感度を示した。ま

    た、Coverage が増加すると偽陽性数が増加する傾向にあった。

     2 つのソフトウェアを比較した結果、検出感度では

    Chimerascan が、偽陽性数の少なさでは Tophat-fusion が優

    れていた。これは、Tophat-fusion では、Blast 検索により

    偽遺伝子をはじめとする類似性の高い配列にマッピングされ

    たリードを排除しており、Chimerascan と比較してマッピン

    グエラーによって同定されていしまう候補を除外しているた

    めだと考えられる。加えて、リードスルー(終止コドンで停

    止せずに翻訳を続けること)で生じる融合遺伝子を除外して

    いることもその一因であると考えられる。        

                                         

     解 析 に は、そ れ ぞ れ Tophat-fusion、Chimerascan、

    Bowtie [8]、Blast [9]、Circos [10] を利用した。また、マッ

    ピング時には hg19 のリファレンスゲノムを利用した。遺伝

    子のアノテーションは Tophat-fusion で提供されている

    RefSeq と Ensembl の情報 [11] を利用した。       

  • 解析レポート 1701

    4. 腫瘍組織における融合遺伝子の同定

    図 1. 同定された融合遺伝子の割合と偽陰性の数

    サンプル

    腫瘍 1

    腫瘍 2

    腫瘍 3

    腫瘍 4

    腫瘍 5

    腫瘍 6

    腫瘍 7

    CCDC6-RET

    CCDC6-RET

    CCDC6-RET

    CCDC6-RET

    CCDC6-RET

    融合遺伝子

    WNK-B4GALNT3

    CCDC6-RET

    23

    90

    44

    60

    144

    91

    69

    Tophat-fusion Chimerascan

    16

    77

    33

    54

    139

    81

    56

    サンプル

    正常 1

    正常 2

    正常 3

    正常 4

    腫瘍 1

    腫瘍 2

    腫瘍 3

    腫瘍 4

    腫瘍 5

    腫瘍 6

    腫瘍 7

    Tophat-fusion Chimerascan 両ソフトに共通

    78

    44(40)

    47(43)

    41(34)

    59(49)

    56(46)

    35

    6

    88

    12(11)

    70(68)

    183

    69(19)

    200(143)

    122(64)

    122(63)

    116(50)

    125(55)

    94(43)

    93

    61

    134

    1

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    5. 融合遺伝子のゲノム上での位置関係

    ※()内は正常組織で同定された融合遺伝子の候補を除いた検出数

    表 3. 融合遺伝子の検出数と両ソフトでの一致数

    ソフトウェア

    Tophat-fusion

    Chimerascan 292

    264

    総数

    263

    81

    同一染色体内 異なる染色体間

    29

    183

    表 2. 同定された既知の融合遺伝子と有効リード数

    表 4. 同一染色体・異なる染色体間の融合遺伝子の数

     腫瘍組織から得られた計 8サンプルの RNA-seq データか

    ら同定されたすべての融合遺伝子の位置関係を図 2に示し

    た。同一染色体上での融合遺伝子を青線で、異なる染色体

    間での融合遺伝子を赤線で示した。

     Tophat-fusion では異なる染色体間の融合遺伝子がより検

    出される傾向があり、一方で Chimerascan では同一染色体

    内の融合遺伝子がより検出される傾向があった(表 4)。 

     組 織 の RNA-seq デ ー タ に 対 し て、Tophat-fusion と

    Chimerascan を用いて融合遺伝子を同定した。まず、論文中

    で報告された既知の融合遺伝子が検出の有無を検討した。

    その結果、いずれのサンプルにおいても、両ソフトウェア

    に よ っ て 論 文 中 で 報 告 さ れ た CCDC6-RET お よ び

    WNK1-B4GALNT3 融 合 遺 伝 子 を 同 定 で き た ( 表 2)。

     次に、Tophat-fusion および Chimerascan を用いて同定さ

    れたすべての融合遺伝子の比較を行った (表3)。その結果、

    Chimerascan では Tophat-fusion よりも多くの融合遺伝子が

    同定された。

    そこで、偽陽性を減らす目的で、正常組織で検出された融

    合遺伝子を腫瘍組織で検出された融合遺伝子から差し引い

    た。その結果、Chimerascan では検出された融合遺伝子の候

    補数を約 1/2 まで絞り込むことができた。またこのとき、

    論文中で報告された CCDC6-RET および WNK1-B4GALNT3 融合

    遺伝子は候補遺伝子に残っていることも確認できた。  

  • 解析レポート 1701

     Tophat-fusion では異なる染色体間で生まれた融合遺伝子が

    より検出される傾向があり、一方で Chimerascan では同一染色

    体内で生まれた融合遺伝子がより検出される傾向があることが

    分かった(表 6)。 

    1.  Soda, M., Choi, Y. L. et al. (2007). Identification of the    

      transforming EML4‒ALK fusion gene in non-small-cell lung

      cancer. Nature, 448(7153), 561-566.

    2.  Kim, D., & Salzberg, S. L. (2011). TopHat-Fusion: an algorithm

      for discovery of novel fusion transcripts. Genome Biol,

      12(8), R72.

    3.  Iyer, M. K., Chinnaiyan, A. M., & Maher, C. A. (2011).     

      ChimeraScan: a tool for identifying chimeric transcription in

      sequencing data. Bioinformatics, 27(20), 2903-2904.

    4.  Carrara, M., Beccuti, M., Lazzarato, F., Cavallo, F., Cordero, F.,

      Donatelli, S., & Calogero, R. A. (2013). State-of-the-art    

      fusion-finder algorithms sensitivity and specificity. BioMed

      research international, 2013.

    5. Yoshihara, K., Wang, Q., Torres-Garcia, W., Zheng, S.,

    Vegesna 1. R., Kim, H., & Verhaak, R. G. W. (2014). The

    landscape and therapeutic relevance of cancer-associated

    transcript fusions. Oncogene.

    6. Huang, W., Li, L., Myers, J. R., & Marth, G. T. (2012). ART: a

    next-generation sequencing read simulator. Bioinformatics,

    28(4), 593-594.

    7.  Costa, V., Esposito, R. et al. (2015). New somatic mutations

      and WNK1-B4GALNT3 gene fusion in papillary thyroid   

      carcinoma. Oncotarget, 6(13), 11242.

    8.  Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and

    memory-efficient alignment of short DNA sequences to

    the human genome. Genome Biol 10:R25.

    9. Kent WJ: BLAT--the BLAST-like alignment tool. Genome

    Res. 2002, 12: 656-664.

    10. Circos: an Information Aesthetic for Comparative

    Genomics. Genome Res (2009) 19:1639-1645

    11. http://ccb.jhu.edu/software/tophat/fusion_tutorial.shtml6. まとめ

    7. 参考文献・ソフトウェア

    Tophat-fusion

    Chimerascan

    図 2. Circos プロット

     Tophat-fusion と Chimerascan を用いたときの融合遺伝子

    の検出感度および偽陽性数を調べた結果、融合遺伝子の検

    出感度では Chimerascan が、偽陽性数の少なさでは Topfat

    -fusion が優れていた。

    次に、これらのソフトウェアを用いて融合遺伝子の同定を

    行った結果、両ソフトウェアでも論文中で報告されている

    既知の融合遺伝子 CCDC6-RET と WNK1-B4GALNT3 を同定する

    ことができた。また、正常組織のデータから得られた融合

    遺伝子の候補を腫瘍組織で得られた遺伝子から差し引くこ

    とで、既知の融合遺伝子を取りこぼすことなく候補となる

    融合遺伝子の数を絞り込むことができた。 

     最後に、各ソフトウェアの特性として、今回使用したデー

    タでは、Tophat-fusion は異なる染色体間の融合遺伝子を検

    出しやすい傾向にあり、一方で Chimerascan では同一染色

    体内の融合遺伝子を検出しやすい傾向にあると考えられる。

    融合遺伝子解析解析レポート新_1融合遺伝子解析解析レポート新_2融合遺伝子解析解析レポート新_3