巨大な表を高速に扱うData.table について

14.07.02 Kashiwa.R #10

巨大な表を高速に扱うdata.table について

@yuifu

自己紹介• @yuifu

• 大学院生

• バイオインフォマティクス

http://www.slideshare.net/yuifu/fdr-kashiwar-3

data.table を紹介するスライドはすでに色々ありますが…

http://www.slideshare.net/sfchaos/datatable

（簡潔で分かりやすかったです）

でも、 data.table さんって data.frame さんとかなり違うの…

• data.frame で当たり前だと思ってたことが、当たり前じゃなかったり…

• そこで本発表では

• data.table を使おうとしたら data.frameと色々違ってて面倒だった点に重点を置いて紹介する

• データ解析でよく使われる

• 理解しやすい

イントロ

表には data.frame がよく使われる• 外部の表形式データを read.table, read.csv で読み込んだり

• R に用意されてるデータセットもたいてい data.frame

> class(USArrests)[1] "data.frame"> head(USArrests) Murder Assault UrbanPop RapeAlabama 13.2 236 58 21.2Alaska 10.0 263 48 44.5Arizona 8.1 294 80 31.0Arkansas 8.8 190 50 19.5California 9.0 276 91 40.6Colorado 7.9 204 78 38.7

イントロ

data.frame さんはちょっと…• data.frame で巨大な表を読み込むと…

• 読み込みが遅い• いちいち動作が重い• うっかり全行表示してしまうと辛い（固まる）

イントロ

遅くても待てばいい？

• ルーチンの作業を実行するならそうかもしれない

• データ解析だとルーチンでない作業が多い

• データ読み込んだり

• 加工したり

• 層別したり

• 集計したり

• → 　対話的にデータをいじくるには速いに越したことはない

イントロ

そこで data.table

• 速い！

• 便利！

• うっかり全行表示しない！

http://photozou.jp/photo/show/1934405/188750786

イントロ

表の作成が速い

> grpsize = ceiling(1e8/26^2)> tt=system.time( DF <- data.frame(+ x=rep(LETTERS,each=26*grpsize),+ y=rep(letters,each=grpsize),+ v=runif(grpsize*26^2),+ stringsAsFactors=FALSE) + )> tt ユーザシステム経過 18.319 9.352 35.238

> head(DF) x y v1 A a 0.52291182 A a 0.89705093 A a 0.63021304 A a 0.54247605 A a 0.21110726 A a 0.6619162

> grpsize = ceiling(1e8/26^2)> tt=system.time( DT <- data.table(+ x=rep(LETTERS,each=26*grpsize),+ y=rep(letters,each=grpsize),+ v=runif(grpsize*26^2)) + )> tt ユーザシステム経過 6.866 0.980 8.787

> head(DT) x y v1: A a 0.43856272: A a 0.65080533: A a 0.79258304: A a 0.42202875: A a 0.84656196: A a 0.5719564

data.frame data.table

data.table の方が表の作成が速い！

data.tableの使い方

data.frame を data.table に変換

> dt_car <- data.table(cars)> head(dt_car) speed dist1: 4 22: 4 103: 7 44: 7 225: 8 166: 9 10

表の読み込みが速い

> system.time(df <- read.table(filename, sep="\t", fill=T)) ユーザシステム経過 7.472 0.176 7.738

> dim(df)[1] 626393 7

> system.time(dt <- fread(filename, sep="\t")) ユーザシステム経過 0.387 0.028 0.416

> dim(dt)[1] 773042 7

data.table の方が表の読み込みが速い！

全行表示しない

> dim(DT)[1] 100000004 3

> DT x y v1e+00: A a 0.43856272e+00: A a 0.65080533e+00: A a 0.79258304e+00: A a 0.42202875e+00: A a 0.8465619 --- 1e+08: Z z 0.27105131e+08: Z z 0.10012151e+08: Z z 0.71904531e+08: Z z 0.36776811e+08: Z z 0.4660653

うっかり全行表示しようとしない！→ 安心！

tables() でメモリ上にある data.table オブジェクトを確認

> tables() NAME NROW MB COLS KEY [1,] ans2 147,929 4 x,y,v [2,] ans3 147,929 4 x,y,v x,y [3,] dt 773,042 40 method,V2,platform,source,V5,V6,year platform,method[4,] DT 100,000,004 2289 x,y,v x,y [5,] dt_car 50 1 speed,dist [6,] ss 26 1 x,V1 x Total: 2,339MB

data.frame のようには要素にアクセスできない例

> dt method V2 platform source V5 V6 year 1: - - - - - - 2009 2: - - - - - - 2009 3: - - - - - - 2009 4: - - - - - - 2009 5: - - - - - - 2009 --- 773038: WGS Other unspecified GENOMIC - - 2012773039: WGS Other unspecified GENOMIC - - 2012773040: WGS Other unspecified GENOMIC - - 2012773041: WGS Other unspecified GENOMIC - - 2012773042: WGS Other unspecified GENOMIC - - 2012> dt[1,] method V2 platform source V5 V6 year1: - - - - - - 2009> dt[1,3][1] 3> dt[,3][1] 3

[ ] の中の扱いが違う

• data.frame では、行と列の数字を入れる

> dt[i, j, ]

expression をいれる

key をいれるその他の引数を入れる

i: 行へのアクセス

> dt x v1: b -1.079072452: b 0.925151703: b -0.023398634: a 2.064985475: a -1.03080796> dt[2,] x v1: b 0.9251517> dt[dt$x=="b",] x v1: b -1.079072452: b 0.925151703: b -0.02339863> dt["b",] 以下にエラー `[.data.table`(dt, "b", ) : When i is a data.table (or character vector), x must be keyed (i.e. sorted, and, marked as sorted) so data.table knows which columns to join to and take advantage of x being sorted. Call setkey(x,...) first, see ?setkey.

i: キーによる行へのアクセス> setkey(dt, x)> tables() NAME NROW MB COLS KEY[1,] dt 5 1 x,v x [2,] dt_car 50 1 speed,dist Total: 2MB> dt["b",] x v1: b -1.079072452: b 0.925151703: b -0.02339863

i: キーによる行へのアクセスは速い

> tt=system.time(+ ans1 <- DF[DF$x=="R" & DF$y=="h",])> tt ユーザシステム経過 15.840 1.042 17.046

> tt=system.time(ans2 <- DT[DT$x=="R" & DT$y=="h",])> tt ユーザシステム経過 6.756 0.368 7.124

> system.time(setkey(DT, x, y)) ユーザシステム経過 0.688 0.178 0.871 > system.time(ans3 <- DT[J("R","h")]) ユーザシステム経過 0.006 0.002 0.009

ベクトルを先頭からスキャンする場合

キーを設定し、二分探索を行う場合

キーを設定した方が速い！

j: 集計する（例）

> DT[,sum(v)][1] 49994142

> DT[,sum(v),by=x] x V1 1: A 1922034 2: B 1922008 3: C 1923013 4: D 1922349 5: E 1922904 6: F 1923302 7: G 1922370 8: H 1923551 9: I 192272710: J 192257311: K 192227612: L 192284313: M 192283714: N 192313715: O 192295816: P 192393717: Q 192278418: R 192324819: S 192278120: T 192296521: U 192416122: V 192255423: W 192300924: X 192265125: Y 192254326: Z 1922629 x V1

by で列名を指定すると指定した変数の値により行をグループ分けした上でsum(v) を行う

sum(v) を行う

j の位置では、列名は引用符で囲まない

> system.time(tt <- tapply(DT$v,DT$x,sum)) ユーザシステム経過 35.287 14.561 56.807 > system.time(ss <- DT[,sum(v),by=x]) ユーザシステム経過 1.704 0.441 2.395

tapply より速い！

j: expression を入れる

> dt_car[, plot(speed, dist)]NULL

> dt_car[, dist/speed] [1] 0.5000000 2.5000000 0.5714286 3.1428571 2.0000000 1.1111111 1.8000000 2.6000000 3.4000000 1.5454545[11] 2.5454545 1.1666667 1.6666667 2.0000000 2.3333333 2.0000000 2.6153846 2.6153846 3.5384615 1.8571429[21] 2.5714286 4.2857143 5.7142857 1.3333333 1.7333333 3.6000000 2.0000000 2.5000000 1.8823529 2.3529412[31] 2.9411765 2.3333333 3.1111111 4.2222222 4.6666667 1.8947368 2.4210526 3.5789474 1.6000000 2.4000000[41] 2.6000000 2.8000000 3.2000000 3.0000000 2.3478261 2.9166667 3.8333333 3.8750000 5.0000000 3.4000000

変数同士の計算ができたり

別の関数を実行したり

data.frame と data.tabledata.tableの使い方

タスク data.table data.frame

表の作成 data.table data.frame

表の読み込み fread read.table

行の名前の設定 setkey rowname

列の名前の設定 setnames colnames

複数の表の結合 rbindlistcbind

rbindcbind

列の追加 :=cbind

data.frame

名前・発想が違うものについて

メモリ消費量はほぼ同じ

> dim(DF)[1] 100000004 3> object.size(DF)2400003488 bytes

> dim(DT)[1] 100000004 3> object.size(DT)2400004008 bytes

> system.time(setkey(DT, x, y)) ユーザシステム経過 0.817 0.228 1.049 > object.size(DT)2400004272 bytes

10 億行 × ３列の表の場合

２つの列（変数）をキーに設定した後

速いのに、メモリ消費量はほぼ同じ！キーを設定した後でも、メモリ消費量はほぼ同じ！

実用例応用例

> dt <- fread("sra.list", sep=“\t")> setnames(dt, "V3", "platform")> setnames(dt, "V7", "year")> setnames(dt, "V1", "method")> setnames(dt, "V4", "source")> setkey(dt, source)> dat <- dt["GENOMIC", nrow(.SD), by=list(platform, source, year)]> dat <- dat[!grep("-|unsp", platform),]> library(ggplot2)> g <- ggplot(data.table(dat), aes(x=year, y=V1)) + + geom_bar(stat = "identity") ++ facet_wrap(~ platform) + + xlim(2008,2013) > print(g)

SRA で、 source がゲノム配列であるデータがよく読まれている platform は？

実用例応用例

> library(ggplot2)> g <- ggplot(data.table(dat), aes(x=year, y=V1)) + + geom_bar(stat = "identity") ++ facet_wrap(~ platform) + + xlim(2008,2013) > print(g)

まとめ

• 巨大な表は data.table で扱いましょう

参考文献

• CRAN の data.table パッケージのページ

• http://cran.r-project.org/web/packages/data.table/index.html

• 英語で詳しく書いてある

• R 言語上級ハンドブック

• 日本語で詳しく書いてある

巨大な表を高速に扱うData.table について

Data & Analytics

KSR110 KSR110 [ KL110CBF / KL110DDF ] KSR …‚¸ェネレータープラグセット 4速 5速 6速 1速：2.692 2速：1.937 3速：1.473 4速：1.300 1速：2.692 2速：2.000

天の川銀河中心に潜む巨大ブラックホール周囲の磁場構造を ......03 研究トピックス巨大ブラックホールは本当に存在するのでしょうか？

高性能RF設計に設計にに高速高速高速オペアンプオペアンプ ...JAJT015 高性能RF設計に設計にに高速高速高速オペアンプオペアンプオペアンプををを使用使用使用するする(Part(Part

GPGPUを用いたソフトウェア高速化手法 - MSS2．CPUによる高速化の限界とGPUによる高速化の始動 2.1 CPUによるソフトウェア高速化の限界各CPUメーカは、CPUのクロック周波数を高くする

路車間連携による交通円滑化システム導入に向けた効果検証 …KP n=10 95%ile 速度 5%ile 速度 75%ile 速度 25%ile 速度中央値サグ最下点22.0kp

高速IPネットワークによる業務アプリケーションモデルに関 …...1 高速IPネットワークによる業務アプリケーションモデルに関する研究

爆速オフショアに挑む

高速ツアーバス問題について - House of Councillors...高速ツアーバス問題について ―関越道高速ツアーバス事故と高速ツアーバスのあり方の見直し―

巨大崩壊について › 36disaster › 17 › Forest Geology › 12 › … · 巨大崩壊について 1983 年9月2日本地形連合は，稗田山を中心に巡検とシンポジウムを開催し

169.巨核球･血小板造血におけるNotchシグナルの …...169.巨核球･血小板造血におけるNotchシグナルの解明錦井秀和 Key words：巨核球，造血幹細胞，Notchシグナル，GPIbα

可変速タイプインダクションモータ - Panasonic · c-243 可変速モータに直結されたタコジェネは下図のように、回転速度にほぼ比例した電圧を発生します。

文部科学省における南海トラフ巨大地震対策の充実・強化に ...文部科学省における南海トラフ巨大地震対策の充実・強化に向けた取組について

高速SAR測定法について - soumu.go.jp

スタートアップこそ巨人の肩に乗りまくれ！〜Craful開発とMackerel〜

北アメリカ州の指導にあたって～巨大な産業と経済 …北アメリカ州の指導にあたって～巨大な産業と経済を主題に世界の諸地域4 主題

急速に普及しつつある高速シーケンサーによるゲノム解読技 …2 平成23年度海外研究状況調査計画 1 調査課題名急速に普及しつつある高速シーケンサーによるゲノム解読技術の進展と、

アニメーションの巨大キャラクター表現にみる身体性に Title ......Title アニメーションの巨大キャラクター表現にみる身体性についての一考察－ガンダム、エヴァンゲリオン、進撃の

真の爆速は速すぎて見えない〜大組織におけるリーン・スタートアップ

CHINA MARKET OBSERVATION 中国市場観察食 …以上の電子商務業者の巨頭、物流業者の巨頭、サプライチェーンの巨頭としての特に条件に恵まれた業者の競争メリットを除き、『天天果園』の運営モデルは更に普遍

LXU－OT2改日本橋のデジットに行くと、巨大な付録が付い …LXU－OT2改日本橋のデジットに行くと、巨大な付録が付いた雑誌が目に入りました。