35
ロケーションデータの取り扱い方法 わかりやすいビジュアライズの方法 Georepublic Japan Tajima Itsuro<[email protected]> 1385日月曜日

ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

Embed Size (px)

Citation preview

Page 1: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

ロケーションデータの取り扱い方法わかりやすいビジュアライズの方法

Georepublic JapanTajima Itsuro<[email protected]>

13年8月5日月曜日

Page 2: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

アジェンダ

• 地理空間データにどう取り組むか

• 統計とビジュアライゼーションの比較

• 地理空間データの実際

• ビジュアライゼーションの実際

13年8月5日月曜日

Page 3: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理空間データにどう取り組むか

• Geospatial Revolution(Penn State Univ.)

• 近年の地理空間データの変化は、このようなことに変化を与える

• How we navigate(ナビゲート)

• How we make decisions(意志決定)

• How we share stories(物語の共有)

13年8月5日月曜日

Page 4: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理空間データにどう取り組むか

• Geospatial Revolution(Penn State Univ.)

• つまり、地図を使って意志決定をして、ストーリーを語る

• そのために技術に何ができるか?

• →わからないことをわかるようにする技術

13年8月5日月曜日

Page 5: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理空間データにどう取り組むか

• わかりやすくする技術の誕生=集計データの誕生(18世紀)と同時期

• 1786年:棒グラフ、線グラフ1829年:サーモマップ(コンピュータの誕生)

1901年頃:主成分分析。この時期多変量解析などの完成(戦争によりビジュアライゼーション技術は停滞)

1950年代 :ベイズ統計1959年:機械学習コンピュータが主なプラットフォームとなり、データベース、アルゴリズム、ビジュアライゼーション技術の向上へ

13年8月5日月曜日

Page 6: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

解析とビジュアライゼーション

• 1つの方法:統計解析

• 5は4より大きい

• 大体5の集団と、大体4の集団は、大体どちらが大きいのか?

• →集団とは何か?

• →大きいとは何か?

• →大体とは何か?

• などを数学で定義することで、ある程度の目星を付けられる

13年8月5日月曜日

Page 7: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

解析とビジュアライゼーション

• 1つの方法:統計解析

• 良い点

• 人の手に負えない大きな事柄に対して、物を言える

• 意志決定や行動のための確かな根拠になる

13年8月5日月曜日

Page 8: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

解析とビジュアライゼーション

• 1つの方法:統計解析

• 悪い点

• 数学の知識がないと、「この数字が何を言っているのか」がブラックボックスになる

• 測度、モデル、情報量規準、機械学習アルゴリズムとそれを高速化する手法…

• わからないものはわからない

• どれだけわからないかは、数学が言ってくれる

• 一般に、データが揃わないと精度は出ない

13年8月5日月曜日

Page 9: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

解析とビジュアライゼーション

• もう一つの方法:ビジュアライゼーション

• 人は目で見て物事を判断できる• その1つの技術として、代々使われていたのが地図

• 私たちは、データを地図で見ることで、「これはどういうことが起こっているのだろう?」ということを考えることができる

13年8月5日月曜日

Page 10: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

解析とビジュアライゼーション

• もう一つの方法:ビジュアライゼーション

• 良い点• 人の持っている詳細な知識、経験や感覚で地図を見て物事を決定できる

• 間違っているかもしれないが、統計が十分に機能しない場合でも、とりあえずの判断や共有ができる

13年8月5日月曜日

Page 11: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

解析とビジュアライゼーション

• もう一つの方法:ビジュアライゼーション

• 悪い点• 見せ方によって印象が変わってしまう• わからないものはわからない

• ビジュアライズしてみて「???」となる場合が多い

13年8月5日月曜日

Page 12: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

どちらを選択するか?

• 場合に依ります

• 現状、オープンになっている行政のデータは、都道府県単位の集計などの比較的小さいデータである傾向にある

13年8月5日月曜日

Page 13: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

今回はビジュアライゼーションを扱います• ビジュアライゼーションは、様々な段階で使うことができる

• わが町から世界まで

• データを多く整えなくても、ある程度物事を良く把握できる

• →行政データなどとのマッシュアップが楽

13年8月5日月曜日

Page 14: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

まとめ• 地理空間データは、意志決定や物語の共有に使うことができる

• それを可能にする統計解析やビジュアライゼーション

• 現状のオープンデータを活用するなら、ビジュアライゼーションは良い手段ではないか

• →では、実際にあるデータをどうビジュアライズするのか?

13年8月5日月曜日

Page 15: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

何をビジュアライズするか?

• 実際に手に入る「地理空間データ」とは?

• 緯度経度

• POI:Point of Interest

• 都道府県、市区町村、道路、線路

• メッシュ

• 解析/ビジュアライズするようにできていない場合が多い

• ここではそのままでは解析/ビジュアライズできないデータを「地理空間に関する情報を含んだデータ」と呼ぶ

13年8月5日月曜日

Page 16: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

一例:

• 「今日、カタリストBAで行われているイベントに~人が来ています」

• =地理に関する情報を含んだデータ

• →他の場所と比較できるかもしれない?

13年8月5日月曜日

Page 17: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

一例:

• 「カタリストBA」をどう扱うか

• ポイントなら、どの緯度経度を取るか• 建物や部屋の形状は必要か?• そもそもそんなに精度は必要か?• →不動産などでも問題になりうる

13年8月5日月曜日

Page 18: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

難しい例• 都市再生緊急整備地域(都市再生特別措置法第二条第三項の政令で定める地域)

• 横浜山内ふ頭地域

• 横浜市神奈川区の区域のうち、星野町(六番、六番一、七番、七番一及び七番二に限る。)、橋本町2丁目(一番一及び一番十七から一番二十一までに限る。)及び山内町(一番五に限る。)の区域(北緯三五度二八分一九秒・二二東経一三九度三八分一八秒・三二の地点から北緯三五度二八分一六秒・六〇東経一三九度三八分一九秒・六四の地点まで、同地点から北緯三五度二八分一六秒・三一東経一三九度三八分一九秒・二五の地点まで、同地点から北緯三五度二八分九秒・一四東経一三九度三八分二二秒・八五の地点まで、同地点から北緯三五度二八分八秒・五七東経一三九度三八分二三秒・〇八の地点まで、同地点から北緯三五度二八分八秒・四三東経一三九度三八分二三秒・一四の地点まで、同地点から北緯三五度二八分八秒・〇一東経一三九度三八分二三秒・二五の地点まで、同地点から北緯三五度二八分七秒・四四東経一三九度三八分二三秒・三五の地点まで、同地点から北緯三五度二八分六秒・八六東経一三九度三八分二三秒・三八の地点まで、同地点から北緯三五度二八分六秒・二九東経一三九度三八分二三秒・三四の地点まで及び同地点から北緯三五度二八分六秒・〇六東経一三九度三八分二三秒・三一の地点までそれぞれ引いた線以西の区域に限る。)

13年8月5日月曜日

Page 20: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

解析/ビジュアライゼーションに地理データを使うには

• 様々な形で地理空間に関する情報を含んだデータを

• 地理データと結びつけて

• 実際の地球上に対応付けるという作業が必要

• ここまでがビジュアライゼーション

13年8月5日月曜日

Page 21: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

(1)地理データとは

• 二次元(緯度経度)の幾何学

• 点(緯度経度、POI)

• 線(道路、線路など)

• 面(地域の形=多角形の集まり)

13年8月5日月曜日

Page 22: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理空間に関する情報を含んだデータから、地理空間データへ• 緯度経度→そのまま使える(精度には注意する必要)

• 都道府県など→最近は都道府県の境界は大きくは変わっていないため、国が提供しているデータで多角形に対応付け可能

• 市町村→多角形のデータはあるが、扱いが難しい。頻繁に起こる市町村合併に加えて、「神奈川県横浜市」「神奈川県横浜市中区」「横浜市中区」が混在するなど、各データに合わせた対応が必要

13年8月5日月曜日

Page 23: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理空間に関する情報を含んだデータから、地理空間データへ

• e-statには、「どの粒度の地理情報があるか」のメタデータがない

• 都道府県、都道府県のうちの人口密集地、都道府県+大都市、市区町村、人口20

万人以上の市区町村、ここからここまでの市区町村…

• 「中野区 AND 中野市」で全文検索したものを市区町村のデータとみなしている

• 横浜市のデータはわかりやすいhttp://www.city.yokohama.lg.jp/ex/stat/index2.html

13年8月5日月曜日

Page 24: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理空間に関する情報を含んだデータから、地理データへ• POI:「~小学校における~の観測データ」などといった場合、GPSで緯度経度を特定する必要がある場合がある

• 地図を使って特定する場合、利用規約の問題がある

• メッシュ→規格化されている

13年8月5日月曜日

Page 25: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

まとめ• 地理情報を含んだデータをちゃんとした地理データにするには、最終的に場合によるが、ある程度の標準化は可能

• ここで得られた点、線、面のデータをベースに、ビジュアライズを行うことになる

13年8月5日月曜日

Page 26: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理データからビジュアライズへ

• ビジュアライゼーション=情報デザインの問題

• 様々な難しいテーマがあるが

• 基本的には地理データがあるなら、地図を使わない手はない

13年8月5日月曜日

Page 27: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理データからビジュアライズへ

• 地図を使ったデータのビジュアライズ

• =基本的には、地図に何かを提示する

• 高度な手法では、地図自体を変形させる(カルトグラム)

13年8月5日月曜日

Page 28: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理データからビジュアライズへ

カルトグラムの例http://www.pref.tokushima.jp/docs/2009082500765/

13年8月5日月曜日

Page 29: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理データからビジュアライズへ

• 地図の形を残したまま情報を提示するには

• 点(分布を概観、画像などの付加データの参照など)

• 線(経路や動きの提示など)

• 面(濃淡、棒グラフや円グラフなど)

• 3D(メッシュデータなどの可視化)

13年8月5日月曜日

Page 30: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理データからビジュアライズへ

• 主題図:Thematic Map

• ある主題をわかりやすくした図

• 天気図

• 等高線

• ヒートマップ

13年8月5日月曜日

Page 31: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理データからビジュアライズへ

• その中でも「コロプレスマップ(Choropleth

Map)」を取り上げます

• コロプレスマップ=各地域を色で塗り分けたもの• 東京都は売上が高いから白、神奈川県は売上が低いから黄色など、千葉県は売上がとても低いから赤など

• 可視化しやすく、わかりやすい

13年8月5日月曜日

Page 32: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

コロプレスマップの元祖フランスにおける識字率統計(1826)

13年8月5日月曜日

Page 33: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

コロプレスマップを並べた元祖フランスの犯罪率と教育(1829)

13年8月5日月曜日

Page 34: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

地理データからビジュアライズへ

• コロプレスマップ同士を目で見て比較できる

• →新たな法則の発見の可能性

• 統計解析への糸口にもなりうる

13年8月5日月曜日

Page 35: ロケーションデータの取り扱い方法、わかりやすいビジュアライズの方法

参考文献• Maps and Geospatial Revolution(海外のオンライン講義「coursera」の講義)

• https://www.coursera.org/course/maps

• Geospatial Revolutionプロジェクト公式サイト

• http://geospatialrevolution.psu.edu/

• Milestones in the History of Thematic Cartography, Statistical Graphics, and Data Visualization

• http://datavis.ca/milestones/index.php

• 近代的グラフの発明者ウィリアム・プレイフェア

• http://id.fnshr.info/2012/07/12/playfair/

• Thematic map - Wikipedia

• http://en.wikipedia.org/wiki/Thematic_map

• イアン・ハッキング「偶然を飼いならす―統計学と第二次科学革命」

• http://www.amazon.co.jp/dp/4833222744

13年8月5日月曜日