Upload
kunihiko-miyoshi
View
780
Download
1
Embed Size (px)
Citation preview
北海道統計データ閲覧ツールSesekiの開発と今後の展開三好 邦彦 (@colspan)
FOSS4G 2016 Hokkaido (2016/7/9)
自己紹介経歴◦ 十勝地方幕別町出身
◦ 2002年4月~2008年3月札幌にて大学生時代を送る◦ 札幌ビズカフェに多大にお世話になる
◦ 2008年4月~現在 : 精密機器メーカーにて情報技術の研究開発に従事
◦ 2016年4月~現在 : 釧路公立大学皆月研究室学術研究員(遠隔)
受賞歴◦ 2015年北海道オープンデータハッカソンクリプトンフューチャーメディア賞
◦ 2016年アーバンデータチャレンジ2016 ファイナルアプリケーション部門金賞
その他◦ とかち東京クラブ事務局長
◦ 関東在住十勝出身者のゆるいコミュニティ、関東で北海道と十勝を発信中
◦ ホッキョクグマ好き(円山動物園年パス保有)
http://colspan.hatenablog.com/
北海道のオープンデータが今年1月本格的に施行されました!
しかし、数字の羅列のままではとても手間がかかる…
データの価値判断
市町村ランキング作成
地理関係把握
関連のある項目探し
統計データからヒートマップを作るのはさらに大変…
地理情報特有の高度なスキルが必要
そうだ、ビューアを作ろう!!
観光客統計データをクラスタリング
http://colspan.github.io/clustering_hokkaido_tourism/
北海道観光客統計データ閲覧くん
2015年10月 2016年2月
北海道オープンデータハッカソンクリプトンフューチャーメディア賞受賞
http://labo.colspan.net/hokkaido_tourism/
でも、観光だけ…?
ここまできたら汎用版を作ろう!!
こうして生まれた「閲覧ツール Seseki」市町村単位で集計されたデータを軽快に閲覧するためのアプリ
※「セセキ」 = アイヌ語で「温泉」を意味する単語観光の中心である温泉を軸に様々な観光戦略が湧いてくることを祈願し、この名前をつけた。
http://bit.ly/seseki_hokkaido
Step1データをExcel等で整形
Step2整形済データを入力 CSV
CSV
(方法1)CSVファイルを開く (方法2)スプレッドシートにペースト
Step3閲覧する
ヒートマップ表示&画像保存 ランキング 項目切替
市町村名表示 市町村の各データ一覧
http://bit.ly/seseki_hokkaido
Step3閲覧する
ヒートマップ表示&画像保存 ランキング 項目切替
市町村名表示 市町村の各データ一覧アーバンデータチャレンジ2015アプリケーション部門金賞受賞
http://bit.ly/seseki_hokkaido
北海道には牛が人よりも多い市町村が51もある
順位 市町村名飼育頭数の人口比
1 士幌町 10.94
2 別海町 7.00
3 標茶町 6.79
4 上士幌町 6.70
5 鶴居村 5.56
6 鹿追町 5.53
7 清水町 5.45
8 新得町 4.98
9 大樹町 4.87
10 豊頃町 4.83[出典]独立行政法人家畜改良センター届出情報の統計-目的別索引-牛の個体識別情報検索サービス
ドーナツ化現象が顕著に観察できる
[出典]北海道庁市町村別面積・人口・世帯数等の状況
でも、北海道だけ?
Githubで開発していますhttps://github.com/colspan/seseki_viewer
◦ 地図を差し替えればどこにでも対応できます◦ 現在私ひとりであるため縁のある場所から作っています…
◦ Webの汎用技術を組み合わせて作っています◦ D3.js, jQuery, GeoJSON, TopoJSON, handsontable, materialize-css
◦ Fork, Pull Request歓迎します!◦ 他地域版への展開や機能改善にご協力いただける方を探しています
http://bit.ly/seseki_hokkaido
Seseki が目指すこと
住んでいる地域を中心に分析する
自分で用意したデータを入力できる
自分のパソコンでも簡単に使える
新たなスキルがほとんどいらない
軽快に操作できる
「敷居が高い」と敬遠していた方に是非オススメします
目指すのは
最低限の機能単純な操作軽快な動作
オープンデータを活用して地元の医療問題を分析する研究を始めました◦ UDC2015 アイデア部門金賞「KODOプロジェクト」を指導された釧路公立大学皆月教授の指導の下進めています
◦ 分析手段にSesekiを使っています
◦ より詳細度の高い地域メッシュの分析も取り入れています
※本業は(Sesekiと全く関係がない)会社員をしています
私自身について
過疎化と死亡率の相関 最寄り産婦人科までの時間距離
(以下、時間があれば)
残課題
データ整形
可視化 分析
データ整形
可視化 分析
実はここが一番大変??
オープンデータの闇ファイルがリンク切れで入手できない
Excelファイルのバージョンが年度によって違う
ワークシート数が20とか30とかある
平気でセルを結合する
空行を使って改ページをしている
集計行と単位行の区別がなく列挙されている
全角スペースでうめつくされた謎の40列
全角文字と半角文字が不規則に混在する (2016 年 4月)
誤記・表記ゆれが多数 (中礼内、オホーツ)
200列もデータが並んでいるのはいいけど、集計したい順に並んでいない
合併前後のデータの分離・合算が使う側の作業になっている
有意義な情報なのに、集計だけでもつらい
機械と人の違い
純粋なデータ
人にとって可読性の高い書式
機械にとって可読性の高い書式
罫線がわかりやすく引かれている定期的にページが区切られる
1行ずつ、1列ずつデータの意味が明記される同じ書式で列挙されるワークシートやファイルをまたがない表記が統一されている
機械と人の違い
純粋なデータ
人にとって可読性の高い書式
機械にとって可読性の高い書式
罫線がわかりやすく引かれている定期的にページが区切られる
1行ずつ、1列ずつデータの意味が明記される同じ書式で列挙されるワークシートやファイルをまたがない表記が統一されている
数種類のデータだけなら手作業でも良いが、数十になると心が折れる…
要変換
闘うクレンジングプログラマー…
闘わなくて済む時代を作っていきましょうクレンジングに優しいデータとは何か、啓蒙していきましょう
ご静聴ありがとうございました