49
<#> ははははは TOKYO.R #48 はは はは

Tokyo r47 beginner

Embed Size (px)

Citation preview

<#>

はじめての

TOKYO.R #48

簑田 高志

目次1.自己紹介2.ご紹介3.変更点4.はじめての Ri. インストールii. 起動と終了iii. デモ (demo())iv. データアクセス方法v. 変数追加vi. データ集計vii.関数viii.パッケージ

5.次のステップ6. まとめ

※ スクリーンショットや機能等は Mac 版となります。

• 名前 : 簑田 高志• Twitter :aad34210• ブログ :http://

pracmper.blogspot.com/• 出身地 : 熊本県• 出身学部 : 法学部• 仕事 :E-commerce のアナリスト

インターネット広告のビジネスアナリスト

自己紹介

ご紹介

本を共同翻訳しました

6 月 30 日(火)発売です!

書籍の内容・翻訳者より・目次・はじめに・まえがき・謝辞

1 章 R を手に入れる1.1 R のダウンロード1.2 R のバージョン1.3 32bit と 64bit1.4 インストール1.5 Revolution R Community Edition1.6 まとめ

2 章 R の環境2.1 コマンドラインインターフェイス (CLI)2.2 RStudio2.3 Revolution Analytics RPE   (R Productivity Environment)2.4 まとめ

3 章 R パッケージ3.1 インストールパッケージ3.2 ロードパッケージ3.3 パッケージの作成3.4 まとめ

4 章 R の基本4.1 基本的な数学4.2 変数4.3 データ型4.4 ベクトル4.5 関数 (Function) の呼び出し4.6 関数ドキュメント4.7 欠損値4.8 まとめ

5 章 高度なデータ構造5.1 データフレーム (data.frame)5.2 リスト (List)5.3 マトリックス (Matrix)5.4 アレイ (Array)5.5 まとめ

6 章 R へのデータ取り込み6.1 CSV の読み込み6.2 Excel の読み込み6.3 データベースからの読み込み6.4 他社統計ツールからの読み込み6.5 R バイナリファイル6.6 R に入っているデータ6.7 Web サイトからの抽出6.8 まとめ

7 章 統計的なグラフィクス7.1 基本グラフィクス7.2 ggplot27.3 まとめ

8 章 R の関数を書く8.1 ハロー、ワールド!8.2 関数の引数8.3 値の返却8.4 do.call8.5 まとめ

9 章 制御文9.1 if と else9.2 Switch9.3 ifelse9.4 複合テスト9.5 まとめ

10 章 ループ: R の方法ではない反復方法10.1 for ループ10.2 while ループ10.3 ループの制御10.4 まとめ

11 章 グループピング操作11.1 Apply ファミリー11.2 aggregate11.3 plyr11.4 data.table11.5 まとめ

12 章 データ整形12.1 cbind と rbind12.2 Join12.3 reshape212.4 まとめ

13 章 文字列操作13.1 paste13.2 sprintf13.3 テキストの抽出13.4 正規表現13.5 まとめ

14 章 確率分布14.1 正規分布14.2 二項分布14.3 ポアソン分布14.4 その他の分布14.5 まとめ

15 章 基本統計15.1 要約統計15.2 相関と共分散15.3 t 検定15.4 分散分析15.5 まとめ

16 章 線形モデル16.1 単回帰16.2 重回帰16.3 まとめ

17 章 一般化線形モデル17.1 ロジスティック回帰17.2 ポアソン回帰17.3 その他の一般化線形モデル17.4 生存時間分析17.5 まとめ

18 章 モデル評価18.1 残差18.2 モデル比較18.3 クロスバリデーション18.4 ブートストラップ18.5 ステップワイズ変数選択法18.6 まとめ

19 章 正則化と縮小19.1 Elastic Net19.2 Bayesian shrinkage19.3 まとめ

20 章 非線形モデル20.1 非線形最小二乗法20.2 スプライン20.3 一般化加法モデル20.4 決定木20.5 ランダムフォレスト20.6 まとめ

21 章 時系列と自己相関21.1 自己回帰移動平均21.2 VAR21.3 GARCH21.4 まとめ

22 章 クラスタリング22.1 K-means22.2 PAM22.3 階層型クラスタリング22.4 まとめ

23 章 knitr パッケージによる再現性・レポートとスライドショー23.1 Latex プログラムのインストール23.2 Latex 入門23.3 Latex を使った knitr23.4 マークダウンのヒント23.5 knitr とマークダウンの利用23.6 Pandoc23.7 まとめ

24 章 R パッケージの構築24.1 フォルダ構成24.2 パッケージファイル24.3 パッケージドキュメンテーション24.4 チェック、構築とインストール24.5 CRAN への登録24.6 C++ コード24.7 まとめ

付録 A 情報リソースA.1 MeetupA.2 Stack OverflowA.3 TwitterA.4 カンファレンスA.5 Web サイトA.6 ドキュメントA.7 書籍A.8 まとめ付録 B 用語集 / 索引

1 章〜 24 章+ α全 448ページ

書籍の内容

特徴• R をはじめたばかりの人から、 R を使って解析に挑戦してみたい人、データ分析ってどういう事ができるのだろうか?ということを知りたい人に最適。

• もともとはコロンビア大学の統計学の教授のJared.P. Landarさんが自分が大学院時代に教えてもらいたかった内容がベース。

• ゼミ生も実験台に…

• R でできることを「俯瞰」して見ることができる。

本を共同翻訳しました

よろしくおねがいします。

変更点

はじめての R はいつが「はじめて?」「はじめての R」を最初に作成   もう⇛ 5年前!

いろいろ変わりましたこの 5年の間に Rも大きな進歩

■パッケージの進化 ■外部環境の変化

■開発環境の進化

• apply , aggregate  ⇛  dplyr• plot    ⇛ ggplot2• ---    ⇛ shiny , googlevis , rCharts…

内容改定しました「はじめての R」も改定。

変更点 これまで これから

環境 R コンソール RStudio

データの集計方法 apply , aggregate dplyr

パッケージインストール

install.packages()Rstudio>パッケージタブ

はじめての

インストール

インストールインストール: Rstudio をインストール特に問題がなければ、 Desktop を選択

http://www.rstudio.com/products/RStudio/

インストールインストール: Rstudio をインストール特に問題がなければ、 Desktop を選択

http://www.rstudio.com/products/RStudio/

インストールダウンロードファイルをダブルクリックして起動。Mac の場合、アイコンを Applications にドラッグアンドドロップ

起動と終了

起動と終了Mac の場合、アイコンを Applications フォルダに Rstudio のアイコンが入っているRstudio.app のみダブルクリックして起動。( R.app は起動しなくてもよいです)

起動と終了Mac の場合、アイコンを Applications フォルダに Rstudio のアイコンが入っているRstudio.app のみダブルクリックして起動。( R.app は起動しなくてもよいです)

起動と終了Tools> Global Option で背景色、文字フォント、配置を変更することが可能。

起動と終了通常のアプリケーションと同じように終了できる。また、コマンドラインに q() を実行しても終了可能。

デモ( demo())

demo()demo() という関数でパッケージの例を見ることができる。コンソールに結果が表示されるので、 Return キーを押す

demo()graphics 関数のデモが下の Plot タブに結果が表示

データアクセス方法

データアクセス方法実際にデータにデータアクセスしてみましょう。最初は「 iris」というデータセット(データフレーム)から触ってみます

iris

データアクセス方法最初の数行だけにアクセスしたい場合は、 head() を使います。引数で取り出したい行数を指定可能。 ( デフォルトは 6 )

head(iris) / head(iris,10)

データアクセス方法最後の数行だけにアクセスしたい場合は、 tail() を使います。引数で取り出したい行数を指定可能。 ( デフォルトは 6 )

tail(iris) / tail(iris,10)

データアクセス方法特定の項目(列、変数)にアクセスしたい場合は、いくつかの方法がある。

「 $」を使った利用例: iris$Sepal.Length

データアクセス方法特定の項目(列、変数)にアクセスしたい場合は、いくつかの方法がある。

「 [(行 ) , ( 列 )]」を使った利用例: iris[ 1, 1 ]

データアクセス方法これらのアクセス方法は組合せて使うことができる

head() と $ の組合せ

変数追加

変数追加データ分析したい場合、変数を追加したい時がある。

・データフレームに <- で追加

変数追加データ分析したい場合、変数を追加したい時がある。

・ dplyr::mutate で追加

データ集計データをまとめあげたい場合

・ apply ファミリーを利用

データ集計データをまとめあげたい場合

・ apply ファミリーを利用・ tapply( 集計データ , 集計グループ , 関数)

データ集計データをまとめあげたい場合

・ apply ファミリーを利用・ aggregate ( 集計対象 , 集計カテゴリ , 関数 )

データ集計データをまとめあげたい場合

・ dplyr::summarize 関数を利用・ group_by (データ、集計対象) 、 summarize(group_by , 集計変数)

関数

関数数多くの関数がサポート対象

sum :合計、 mean :平均、 median:中央値、 sd:標準偏差、 cor: 相関係数 …R Reference Card の Math を見てみましょう。

http://cran.r-project.org/doc/contrib/Short-refcard.pdf

パッケージ

パッケージR の大きな特徴。約 6,000以上のパッケージが CRAN に登録。 Github のレポジトリを入れるともっと多くのパッケージが存在。nrow(available.packages()) 6,665 (2015/06/20⇛ 現在)

出典: http://blog.revolutionanalytics.com/2013/11/cran-now-has-5000-r-packages.html

パッケージ利用方法は 2つ

・ install.packages(“[ パッケージ名 ]”)・ Rstudio の package タブ

次のステップ

次のステップ本格的に R を使う際に必要な知識を紹介

•条件分岐• ループ• グラフ作成• データベースとの接続• 統計解析

本日のまとめ

まとめ今日話をした内容は以下

i. インストール : Rstudio のインストールii. 起動と終了 :アイコンから起動、 q()

で終了iii. デモ (demo()) : demo 関数iv. データアクセス方法:複数のアクセス方法v. 変数追加 : <- と mutatevi. データ集計 : apply ファミ

リ、 aggregate 、summarize

vii. 関数 : チートシート見てね。

viii.パッケージ : R の最大特徴。

  install.pacages と packageタブ

ありがとうございました!