Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
本教育プログラムの概要
※教育研究組織: 慶應義塾大学大学院(理工学研究科+SDM研究科+経営管理研究科)
※教育対象:20程度の慶應義塾大学大学院修士学生
※①必修「ビッグデータ実践論」+②選択必修「ビッグデータツール論」+既設8科目から3科目以上
①選択必修科目「ビッグデータツール論」
ビッグデータツール科目は、平成26年度春学期開講予定の必修科目である。下
記の3種類のテーマに分かれ、ツールを利用させながら、各テーマを学習する。
①-1 大規模データ分散処理システム(Hadoop)
①-2 NoSQLデータベースシステム(MongoDB)
①-3 並列機械学習(Mahout)
20人程度のクラスで、効果的なクラウドサービス演習を実施するための
データ規模・多様性を調査している。各種ツール、4-5回分の教材開発。
4
①-1 Hadoop学習用教材開発 (河野)
• Hadoop を用いて MapReduce の基礎を学ぶ教材作成
– Java の復習
• 特に,総称型 (generics) の使い方を復習する
– MapReduce の考え方を理解する
• map と reduce の組み合わせによるデータ処理の記述
• MapReduce に慣れるための初歩的な演習
– 単語数を数える課題など
• 大規模データ分散処理実践のための教材作成
– Amazon EC2を用いた大規模処理を実感する
– Hadoop 等の演習に必要な環境構築
– MapReduce によるデータ処理の実践 巨大なテキストを対象とした単語抽出
Wikipedia から抽出したグラフ構造を利用した検索など
5
①-2 MongoDB 学習用教材開発
• MongoDBを用いてNoSQLの基礎を学ぶ教材作成
– NoSQL
• データモデル
• アーキテクチャの基本概念と技術
• データベースの分類
– MongoDB
• 基本概念と特徴
• インストール方法
• 基本的な操作の演習
• 高度なクエリとインデックス作成の演習
• Java言語からMongoDBへのアクセスに関する演習
• バイナリデータ(画像・音声・動画など)を扱うための方法
– シンプルバイナリストレージとGridFS
• レプリケーションの演習
– 自動フェイルオーバーを体験する
• シャーディングの演習
– スケールアウトを体験する
• デプロイメントとバックアップ
6
①-3 Mahout学習用教材開発
• Mahoutを用いた機械学習アルゴリズム実行のための入門教材作成
– 表形式データとキーバリュー型データに関する復習
– 機械学習アルゴリズムの類型と代表的アルゴリズムの復習 • 協調フィルタリング,クラスタリング,分類学習
– Mahoutによる分析に必要なデータセットの準備と課題設定の提示
• Mahoutを用いたスケールアウト可能な機械学習アルゴリズムの実行に関する教材作成
– Amazon EC2を用いた大規模処理を実感する
– Hadoop ,Mahout等の演習に必要な環境はインストール済みの環境を用いる
– 数万~数百万インスタンスのデータセットを用いた各種代表的機械学習アルゴリズムの実行
– 実行結果の解釈と評価指標の解説と分析レポートの作成
7
②必修科目「ビッグデータ実践」
8
学生、データ提供機関、教員が 協力して、ビッグデータ分析に 取り組む。 5種類のビッグデータの分析は、 個別のスケジュールで進められるが、 1-2月の成果発表会で、審査を受け、 合否を判定する。
③選択必修科目群(理工)
・Webインテリジェンス論:②-1「行政オープンデータ」の内容と関連付けながら、リン
クトデータとオントロジーについての講義および演習を準備した。
・応用統計解析特論:②-4「Eコマースデータと分析課題」の内容と関連付けながら、
ブートストラップに基づく様々なパラメータの複雑な推定量の標準誤差,ベイズ統計,
MCMCについての講義と演習を行う.また、データ解析手法の資料作成を準備し、ビッ
グデータ実践演習のためのSQL、Mahoutなどのデータ処理技術、決定木、SVM、パ
ターンマイニング、機械学習、レコメンデーション手法の教材も準備した。
・社会情報システム特論:②-3「運転行動プローブデータとエコ運転」の内容と関連
付けながら、ITSの事例を交えて,オブジェクト指向分析手法,人間の状況認識に基づ
いた情報システムの設計や評価に関する講義および演習のための教材を準備した.
・システムバイオロジー特論:②-5「納豆菌株ゲノムデータと分析課題」の内容と関連
付けながら、ゲノムデータの基本的な解析技術,統計手法,データマイニングについて
の講義と演習を準備した。
9
③選択必修科目群(SDM)
• フロンティアプロジェクトマネジメント概論:②-2「位置ビッグデータ」の内容と関連付けながら、収集すべきデータの内容や収集方法、分析方法のための演習教材を準備した。
• システムデザインのための統計とデータ処理(SDM):実験、計測、アンケート等で得られたデータに対し、システムデザインのための統計処理、データ処理の方法について、基礎から応用でを含めた講義と演習を行う。特に、ビッグデータからの科学的発見、社会的課題解決に向けた3Dビジュアルアナリティクス等の先端的な話題についても扱う。
• システムのモデリングとシミュレーション(SDM):社会システムを対象としたモデリングとシミュレーション手法に関する講義と演習を行う。本年度は、よりよい救急救命システムのデザインをテーマに、モンテカルロ法、位置情報の利用、地図情報の利用等を取り入れたシミュレーションに関するグループ演習を行う。
10
③選択必修科目群(KBS) (余田)
• マーケティング戦略(KBS):本授業では、ビッグデー
タの活用事例に基づいてマーケティング戦略を策定することにより、ビッグデータを用いたマーケティング戦略の実践的な立案能力を身につけることを狙いとする。ビッグデータ活用に関わる課題を導出し、候補事例としてOKWAVE(国内第二位の質問サイト)
を候補事例として選定した。同社に対して、聞き取り調査を実施し、同社のビッグデータ活用に関する課題を二つ抽出し、ケース教材を準備した.
11