Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
140306 ChIP-Seqデータ解析トレーニングワークショップ
2. ChIP-Seq解析ソフトウェアの利用法
九州工業大学 情報工学部飯田 緑
クロマチン免疫沈降法
クロマチン免疫沈降法(Chromatin immunoprecipitation)
個々のタンパク質と特定のゲノム領域との結合を検出する方法
○ 必要な DNA サンプル量数が少ない
○ 新規モチーフ配列の探索が可能
○ シーケンスが決定した生物種の場合、全ゲノムでアッセイ可能
ChIP-seq
× データが膨大すぎて解析が困難
(@д@;;)
2
2/40
1. Gene Expression Omnibus (GEO) からデータを取得
2. FastQCでクオリティCheck
3. bowtieでマッピング
4. MACS2でピークコール
5.遺伝子のアノテーション
6.モチーフ検索
本日のメニュー
3/40
4/40
mkdir work
ls
workダウンロードテンプレート デスクトップビデオ音楽 画像公開
cd work
作業用のフォルダを作ります。
【作業フォルダの準備】
今後、このフォルダ内で作業します。
作業フォルダの準備
• NCBIが提供・維持管理している遺伝子発現情報のデータベース• マイクロアレイ実験などで得られたデータが蓄積されている• 登録データ数は世界最大
NCBI GEO(Gene Expression Omnibus)
NRF2 ChIP SFN
GEOからデータを取得
5/40
Click!
GEOからデータを取得
6/40
論文のタイトル
生物種
実験系
Summary
実験の内容
寄稿者
引用
GEOからデータを取得
7/40
WIG:UCSCのゲノムブラウザ上に表示することのできるファイルフォーマット
BED:ゲノム上の特定領域を表現するシンプルなファイルフォーマット
サンプルのデータがダウンロードできる
より詳しいサンプルの情報をみられる
Click!
GEOからデータを取得
8/40
Click!
右Click!
GEOからデータを取得
SRR491137.sra
9/40
GEOからデータを取得
10/40
Workに保存してください
データの実験系
Sulforaphane
(SFN)
SRR491146 SRR491137
NRF2抗体でChIP抗体なしでChIP
(input)
【Keap1-Nrf2シグナル伝達経路】
(図:Bataille AM and Manautou JE. 2012)
(data:Chorley et al., 2012)
酸化ストレス
11/40
1. Gene Expression Omnibus (GEO) からデータを取得
2. FastQCでクオリティCheck
3. bowtieでマッピング
4. MACS2でピークコール
5.遺伝子のアノテーション
6.モチーフ検索
本日のメニュー
12/40
FastQCでクオリティCheck
【SRAファイルからfastqファイルへ変換】
fastq-dump SRR491137.sra
Read 4766716 spots for SRR491137.sra
Written 4766716 spots for SRR491137.sra
fastqファイルができたか確認
Sratoolkitを使ってSRAファイルをfastqに変換しよう!
ls
SRR491137.sra SRR491137.fastq
13/40
ペアエンドの場合
fastq-dump -split-files <filename>
FastQCでクオリティCheck
ディレクトリができたか確認
クオリティCheckしたファイルを入れるディレクトリを作ろう!
fastqc SRR491137.fastq -o fastqc_result
FastQCを使ってクオリティCheckをしよう!
Started analysis of SRR491137.fastq
Approx 5% complete for SRR491137.fastq
Approx 100% complete for SRR491137.fastq
Analysis complete for SRR491137.fastq…
【FastQCでクオリティCheck】
mkdir fastqc_result
lsSRR491137.sra SRR491137.fastq fastqc_result
14/40
FastQCでクオリティCheck
cd fastqc_result
ls
SRR491137_fastqc SRR491137_fastqc.zip
cd SRR491137_fastqc
ls
Icons Images fastqc_data.txt fastqc_report.html summary.txt
結果ができたか確認
【FastQCでクオリティCheck】
firefox fastqc_report.html
Html形式のファイルで、結果を確認
15/40
FastQCでクオリティCheck
Htmlの結果を見てみると、シークエンスの精度を評価してくれているのがわかる。
16/40
FastQCでクオリティCheck
【Per Base Sequence Quality】
リードの位置における全体のクオリティの中間値と平均値が見られる。
quality
score
リード長
赤線:中間値 青線:平均値
黄色Box:interquartile range
値を順に並べたときの上から25~75%
黒線:値を順に並べたときの上から10~90%
【Per Sequence Quality Scores】
平均値のピーク(平均値順にして最もリード数が多いところ)が27を下回ると、Warning、20を下回るとfailureとなる。
リード数
Phred quality score の平均値 17/40
FastQCでクオリティCheck
【Per Base Sequence Content】
リードにおける位置での各塩基の割合
【Per Sequence GC Content】
GC含量の平均で総リードをソート
したグラフ
GC含有量の理想分布
【Per Base GC Content】
リードにおける位置でのGC含量の割合
【Per Base N Content】
リードにおける位置でのNの割合
Nはシークエンサーで読めなかったところ
18/40
FastQCでクオリティCheck
【Sequence Length Distribution】
リード長全体の分布
【Per Sequence GC Content】
【Sequence Duplication Levels】
シークエンスの重複レベル
【K-mer Content】
任意の5bpの配列を想定したとき、ライブラリに含まれるATGCの割合を元に、「実際に観測された値/理論的に観測される値」を計算した結果。
重複しているシークエンスの配列とその割合
19/40
1. Gene Expression Omnibus (GEO) からデータを取得
2. FastQCでクオリティCheck
3. bowtieでマッピング
4. MACS2でピークコール
5.遺伝子のアノテーション
6.モチーフ検索
本日のメニュー
20/40
bowtieでマッピング
Genome
Read
Bowtie
超高速アライメントツール
SAM フォーマットで出力可能
GAPアライメントはできない
読めたリードがゲノム上のどこに位置するか見つける。
1. Index fileのダウンロード
2. Index fileの解凍
3. bowtieの実行
4. できたSAM fileの確認
ここの章でおこなうこと
21/40
bowtieでマッピング
http://bowtie-bio.sourceforge.net/tutorial.shtml
Indexファイルのダウンロードができる
I0分弱かかる
22/40
bowtieでマッピング
unzip hg19.ebwt.zip
ls
hg19.1.ebwt
hg19.2.ebwt
hg19.3.ebwt
hg19.4.ebwt
hg19.rev.1.ebwt
hg19.rev.1.ebwt
make hg19 hg19.ebwt.zip SRR491137.sra SRR491137.fastq fastqc_result
Index file がダウンロードできたか確認
Index file の解凍
ヒトhg19では、これらのファイルが展開される
【bowtieでマッピング】
ls
hg19.ebwt.zip SRR491137.sra SRR491137.fastq fastqc_result
23/40
24/40
bowtieでマッピング
rm -rf hg19.ebwt.zip
ls
hg19.1.ebwt
hg19.2.ebwt
hg19.3.ebwt
hg19.4.ebwt
hg19.rev.1.ebwt
hg19.rev.1.ebwt
make_hg19.sh SRR491137.sra SRR491137.fastq fastqc_result
Zip file の削除
【bowtieでマッピング】
赤字で示されていたzip fileが削除される。
bowtieでマッピング
bowtie -p8 --sam --best --chunkmbs 1024 hg19
SRR491137.fastq SRR491137.sam
*Pathを通していない場合、サンプルと同じディレクトリに入れておくか、Pathを書く。
Index file*
入力ファイル名 出力ファイル名
bowtie –v V ––best –q input refile readfile outfile
【bowtie の基本形】
‐v 許容ミスマッチ数 (0~3個)
‐-best ミスマッチ数 (-v) が設定されているとき、ミスマッチの少ない順にレポートする。
‐q 入力データはfastqだよ。
‐p CPUのスレッド数
--sam 出力ファイルはsamにして。
bowtieの実行 (5分~10分くらいかかる)
【bowtieでマッピング】
25/40
bowtieでマッピング
bowtie のOption設定
‐n シード配列で許容される最大ミスマッチ数
‐l シード配列長
‐e ミスマッチ部位のPhredスコア合計の最大許容値
こんなこともできるよ。
bowtie –n N –l L –e E ––best --strata –maxbts –q input refile
readfile outfile
長さLのシード中のミスマッチがN個以下、またはリード全体のミスマッチ塩基のPhredスコアの合計がE以下のアライメントのみをレポートして。
【bowtieでマッピング】
--best/--strata どのアライメントをいくつレポートするかを定義する
http://bowtie-bio.sourceforge.net/manual.shtml#bowtie-options-strata詳しくは… 26/40
bowtieでマッピング
bowtie -p8 --sam --best --chunkmbs 1024 hg19
SRR491137.fastq SRR491137.sam
*Pathを通していない場合、サンプルと同じディレクトリに入れておくか、Pathを書く。
Index file*
入力ファイル名 出力ファイル名
bowtie –v V ––best –q input refile readfile outfile
【bowtie の基本形】
‐v 許容ミスマッチ数 (0~3個)
‐-best ミスマッチ数 (-v) が設定されているとき、ミスマッチの少ない順にレポートする。
‐q 入力データはfastqだよ。
‐p CPUのスレッド数
--sam 出力ファイルはsamにして。
bowtieの実行 (5分~10分くらいかかる)
【bowtieでマッピング】
27/40
28/40
bowtieでマッピング
ls
SRR491137.sam hg19.1.ebwt hg19.2.ebwt hg19.3.ebwt hg19.4.ebwt
hg19.rev.1.ebwt hg19.rev.1.ebwt make_hg19.sh SRR491137.sra SRR491137.fastq fastqc_result
結果の確認
Samファイルができているはず。
less SRR491137.sam @SQ SN:chr1 LN:249250621
@SQ SN:chr2 LN:243199373
@SQ SN:chrM LN:16571
@PG ID:Bowtie VN:0.12.7 CL:"bowtie -p8 -S --best --chunkmbs 1024
hg19 ./FASTQ/SRR491137.fastq SRR491137.sam"
SRR491137.3 0 chr12 3827243 255 36M * 0 0
TTAAACATGGATGATAACAGCACCTCTCATAAAGNT
HHHDHHHFEDEFHFEEFHHEBD::DDGGFFDBBB&F XA:i:0 MD:Z:34T1 NM:i:1
… リファレンスに使った配列の情報
Mappingの結果
【bowtieでマッピング】
1列目:リードの名前
2列目:リードの状況(どんな風にマッピングされているか)
3列目:張り付いた染色体,コンティグの名前
4列目:張り付いた場所
5列目:マッピングスコア
6列目:マッピング状況(indelの数,マッチ数)
7列目:paired endの時の相方の名前
8列目:paired endの時の相方の場所がわかる
9列目:paired endの時のインサートの長さ
10列目:リードのシークエンス配列
11列目:リードのクオリティ
bowtieでマッピング
【SAMファイルの中身】
参考:http://crusade1096.web.fc2.com/sam.html
SRR491137.3 0 chr12 3827243 255 36M * 0 0
TTAAACATGGATGATAACAGCACCTCTCATAAAGNT
HHHDHHHFEDEFHFEEFHHEBD::DDGGFFDBBB&F XA:i:0 MD:Z:34T1 NM:i:1
29/40
30/40
bowtieでマッピング
rm -rf hg19.* make_hg19.sh SRR491137.fastaq SRR491137.sra
fastqc_result
ls
SRR491137.sam
bowtieの実行 (5分~10分くらいかかる)
【不要なファイルを削除】
Samファイルだけになりました。
1. Gene Expression Omnibus (GEO) からデータを取得
2. FastQCでクオリティCheck
3. bowtieでマッピング
4. MACS2でピークコール
5.遺伝子のアノテーション
6.モチーフ検索
本日のメニュー
31/40
MACS2でピークコール
Model-based analysis of ChIP-Seq
(MACS)
ChIP-Seqタグのシフトサイズのモデル化
ポワソン分布を使ったピーク検出
ChIP-seqでは、ChIPされたフラグメントのどちらかの側から配列が解読されるため、ゲノム配列に対してforward方向のリードから成るピーク、revser方向のリードから成るピークが離れた位置に検出される。
MACSは2つのピークをずらす(タグシフト)
ことにより正しいピーク位置を算出する。
1. SAM→BAM変換
2. BAM fileのsort
3. MACS2でpeak calling
ここの章でおこなうこと
32/40
MACS2でピークコール
【SAMファイルの前処理 ~SAM to BAM変換~】
samtools view -bS SRR491137.sam > SRR491137.bam
SAMファイルをBAMファイルに変換する
‐b BAMで出力
‐S SAMで入力
ls
SRR491137.bam SRR491147.sam
BAMファイルができたか確認
bamファイルができているはず。
入力ファイル名 出力ファイル名*
33/40
MACS2でピークコール
samtools sort SRR491137.bam SRR491137.sort
染色体順に並べる
ls
SRR491137.bam SRR491147.sam SRR491137.sort.bam
Sort.bamファイルができたか確認
入力ファイル名 出力ファイル名* *できたファイルには勝手に.bamの拡張子がつくので、このときには.bamはいりません。
【SAMファイルの前処理 ~ BAM sort ~】
34/40
rm SRR491137.bam SRR491147.sam
ls
SRR491137.sort.bam
不要なファイルの削除
35/40
MACS2でピークコール
export PATH=$PATH:/usr/local/chipseq/bin/
export PYTHONPATH=/usr/local/chipseq/lib64/python2.6/site-
packages/:$PYTHONPATH
$PATHにMACS2のPATHを追加する。
【PATHを通す】
http://fujii00.bio.kyutech.ac.jp/
~iida/chipseq.html
SRR491146(input)のデータをダウンロードします。【input dataのダウンロード】
Sorted BAM fileの
SRR491146.sort.bamを名前をつけて保存
MACS2でピークコール
【MACS2にかける】
macs2 callpeak -t SRR491137.sort.bam
-c SRR491144.sort.bam -n NRF2_SFN -f BAM -g hs -q 0.01
MACS2でピークコール
‐t ChIPのサンプルファイルが次にくるよと教えてあげる。
-c ChIPのコントロールファイルが次にくるよと教えてあげる。
‐n 出力ファイルにつける名前
-f 入力ファイルのファイル形式を教えてあげる。
-g ゲノムサイズ (ヒト: hs or 2.7e9, マウス:mm or 1.87e9)
-B BEDファイルに出力
‐q peakを検出する際に用いるFDRの最小値
36/40
MACS2でピークコール
ls
NRF2_SFN_peaks.xls
NRF2_SFN_peaks.bed
NRF2_SFN_summits.bed
NRF2_SFN_model.r
NRF2_SFN_peaks.encodePeak
NRF2_SFN_pq_table.txt
MACS2でできたファイルの確認
6個程のファイルがでてくる
【MACS2にかける】
37/40
MACS2でピークコール
NAME_peaks.xls: コールされたピークの情報がタブきりで含まれる
NAME_peaks.bed:コールされたピークの情報がbedファイル形式で含まれる
NAME_summits.bed: BEDフォーマットですべてのピークの頂点座標が含まれる
NAME_model.r: モデルに基づいたPDFイメージを作成してくれるRスクリプト
NAME_encode.Peak:ピーク座標とピークの頂点座標・q値・p値が含まれている
NAME_control_lamda.bdg
NAME_pileup.bdg
NAME_pvalue.bdg
NAME_qvalue.bdg
NAME_pq_table.txt: -log10p値、 -log10q値、p値のランキングなど
UCSCゲノムブラウザに表示可能なBed Graphフォーマットファイル
38/40
ショートリードの憂鬱 - 次世代シーケンサー
http://shortreadbrothers.blogspot.jp/2010/10/bowtie.html
http://shortreadbrothers.blogspot.jp/2010/10/bowtie-2.html
http://shortreadbrothers.blogspot.jp/2010/11/sam.html
参考URL
NGS Surfer’s Wiki
http://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=MACS
ChIP-seq Analysis With R/Bioconductor
http://cat.hackingisbelieving.org/lecture/tohoku-u/NGS-R-
Bioconductor-3rd.html
全ゲノムクロマチン免疫沈降シーケンス(ChIP-Seq)
www.illuminakk.co.jp/document/pdf/datasheet_chip_sequence-J.pdf
Zhang, Y. et al. (2008) Model-based analysis of ChIP-Seq (MACS). Genome Biol.
39/40