11

Jubatus Hackathon 2016.11.12 発発発発発発発発発発発発発発発

発言小町からのプロファイリング

Download PPTX Report

Upload
jubatusofficial
View
1.805
Download
0

Embed Size (px)

Citation preview

Page 1: 発言小町からのプロファイリング

Jubatus Hackathon 2016.11.12発言小町からのプロファイリング

Page 2: 発言小町からのプロファイリング

分析目的発言小町を発言者カットで見てみて発言者のペルソナを分析してみたい可能であれば発言者のペルソナの時間軸上での変遷を見てみたい

Page 3: 発言小町からのプロファイリング

入力データ発言小町

User ID User Name Date Title Url Topic Id Group Message Votes

Responses Face n_response n_favorite

発言小町からとってきたデータとりあえず、約 10,500件

Page 4: 発言小町からのプロファイリング

k-Meansによるクラスターの頻度分布6 48.781542 22.201863 13.489330 7.7097267 3.4936381 2.7927545 1.520384 0.010783

Page 5: 発言小町からのプロファイリング

クラスターの解釈クラスター番号 6 2 3 4の 1.19 4.78 2.77 4.72こと 0.71 1.22 1.45 5.66私 0.66 1.27 5.31 2.79よう 0.58 1.19 1.09 1.99方 0.53 0.80 0.65 0.85ない 0.46 0.97 1.00 1.37人 0.38 0.80 1.17 1.48何 0.30 0.55 0.67 0.76ん 0.29 0.45 0.68 0.60

Page 6: 発言小町からのプロファイリング

分析設計発言小町のデータのMessageから Bag of wordsを作成 Bag of wordsを元にクラスタリング User IDごとに各発言の分類されたクラスタ IDを集計クラスタごとの合計を総発言数で除してスコアを作成これをそのユーザのペルソナとする

Page 7: 発言小町からのプロファイリング

データ加工文章をMeCabで形態素解析して単語を抽出

単語は品詞として名詞、形容詞、副詞を分析対象とする MeCabで特殊扱いされている *を表層とするものは解析対象から外す同様にが、の、に、をのような単語も分析対象としない

形態素解析後 30000変数ぐらい

変数数を削減出現頻度のあまりにも少なすぎる変数や外れ値と考えられる記号などが単独で抽出された変数を削除するなどクレンジングを実施削減後 7000位に

Page 8: 発言小町からのプロファイリング

クラスタリング Jubatusでクラスタリングを実施するクラスタリング手法としては

DBSCAN(Density-Based Spatial Clustering Applications with Noise)を使用する

本データの場合、クラスタ数が不明、加えてクラスタとして超球面を仮定するのは妥当ではないため、k-Means法の使用は妥当ではない

Page 9: 発言小町からのプロファイリング

Jubatusに入れてみるテスト jubaclustering --configpath

/opt/jubatus/share/jubatus/example/config/clustering/dbscan.json ハイパーパラメータは Exampleそのもので df = jubaClient.push(batch) res = jubaClient.get_core_members()

Error! msgpackrpc.error.RPCError: b'clustering is not performed yet‘

What?

Page 10: 発言小町からのプロファイリング

Use the source, Luke! Jubatus coreのソース読む get_clusters綾しい If (clusters.empty()) {

throw JUBATUS_EXCEPTION(not_performed());

} なぜに空っぽ！ガンガンガン ! ドキュメントがあるわけでもな

く謎

Page 11: 発言小町からのプロファイリング

ハイパーパラメータを洗ってみる eps : 2.0, min_core_point　 : 3 Density-Based Spatial Clustering

Applications with Noise EpsとMinPtsの二つのハイパーパラメータとりあえず怪しくなさそう困った

I-7平野町中津高塚台平野町印路平野町西戸田押部谷町和田平野町黒田櫨谷町菅野櫨谷町池谷岩岡町岩岡平野町常本神

I-7平野町中津高塚台平野町印路平野町西戸田押部谷町和田平野町黒田櫨谷町菅野櫨谷町池谷岩岡町岩岡平野町常本神

Documents

北海道における座標系の区分htochiren.jp/midorijoho/Files/ZahyokeiHokkaido.pdf北見市足寄町別海町標茶町新得町釧路市大樹町白糠町斜里町

北海道における座標系の区分htochiren.jp/midorijoho/Files/ZahyokeiHokkaido.pdf北見市足寄町別海町標茶町新得町釧路市大樹町白糠町斜里町

Documents

ホーム | 瑞穂町ホームページホーム | 瑞穂町ホームページ

ホーム | 瑞穂町ホームページホーム | 瑞穂町ホームページ

Documents

非核宣言自治体一覧（日本非核宣言自治体協議会調べ）ž核宣言自治体一覧.pdf · 6藤崎町ﾌｼﾞｻｷﾏﾁ 2012/09/06 非会員 7大鰐町ｵｵﾜﾆﾏﾁ

非核宣言自治体一覧（日本非核宣言自治体協議会調べ）ž核宣言自治体一覧.pdf · 6藤崎町ﾌｼﾞｻｷﾏﾁ 2012/09/06 非会員 7大鰐町ｵｵﾜﾆﾏﾁ

Documents

中央明神地区① (旭町・東町・寺町・中町・南町・美崎町） …tokyotakken-menkyo.com/hachioji/wp-content/uploads/sites/...中央明神地区① (旭町・東町・寺町・中町・南町・美崎町）

中央明神地区① (旭町・東町・寺町・中町・南町・美崎町） …tokyotakken-menkyo.com/hachioji/wp-content/uploads/sites/...中央明神地区① (旭町・東町・寺町・中町・南町・美崎町）

Documents

石川県小松市松岡町方言における形容詞･形容動詞 …nihongo.hum.tmu.ac.jp/tmu_j/pdf/25/25-6小西いずみ.pdf石川県小松市松岡町方言における形容詞･形容動詞の活用

石川県小松市松岡町方言における形容詞･形容動詞 …nihongo.hum.tmu.ac.jp/tmu_j/pdf/25/25-6小西いずみ.pdf石川県小松市松岡町方言における形容詞･形容動詞の活用

Documents

飯飯島島島町町町新型インフルエンザ等等iijimarxbv.ww8.jp/assets/飯島町新型... · 2017-01-12 · 1 飯飯島島島町町町新型インフルエンザ等等

飯飯島島島町町町新型インフルエンザ等等iijimarxbv.ww8.jp/assets/飯島町新型... · 2017-01-12 · 1 飯飯島島島町町町新型インフルエンザ等等

Documents

第43回NDS NetBeansを使ったJavaプロファイリングの紹介

第43回NDS NetBeansを使ったJavaプロファイリングの紹介

Science

463 まつり 463 E...左下図神明町志多町宮下町二丁目喜多町宮元町氷川町城下町松郷小仙波今成一丁目月吉町石原町一丁目石原町二

463 まつり 463 E...左下図神明町志多町宮下町二丁目喜多町宮元町氷川町城下町松郷小仙波今成一丁目月吉町石原町一丁目石原町二

Documents

＜市外局番の一覧＞ - 総務省 E 38 北海道沙流郡（平取町及び日高町（栄町西、栄町東、新町、千栄、富岡、日高、本町西、本町東、松風町、三岩、宮下町、山手町及び若葉町に限る。）に限る。）

＜市外局番の一覧＞ - 総務省 E 38 北海道沙流郡（平取町及び日高町（栄町西、栄町東、新町、千栄、富岡、日高、本町西、本町東、松風町、三岩、宮下町、山手町及び若葉町に限る。）に限る。）

Documents

児童虐待死亡事例検証報告書- 5 - Ⅲ 再発防止に向けた提言（A）「「「町「町町町」」」」規模規模のののの自治体自治体ににににおけるおける児童虐待防止にににに向向向向けたけた提言

児童虐待死亡事例検証報告書- 5 - Ⅲ 再発防止に向けた提言（A）「「「町「町町町」」」」規模規模のののの自治体自治体ににににおけるおける児童虐待防止にににに向向向向けたけた提言

Documents

Cisco ISE プロファイリング設計ガイド...Android 2.3.4 注：Cisco ISE プロファイリングサービスは、このガイドで検証する主要機能です。他の

Cisco ISE プロファイリング設計ガイド...Android 2.3.4 注：Cisco ISE プロファイリングサービスは、このガイドで検証する主要機能です。他の

Documents

地震のときに逃げるための地図泰明町 - Nagoya...新川庄内川荒子川油屋町惟信町入場町正保町遠若町大手町寛政町本宮新町

地震のときに逃げるための地図泰明町 - Nagoya...新川庄内川荒子川油屋町惟信町入場町正保町遠若町大手町寛政町本宮新町

Documents

プロファイリング・自動意思決定とプライバシーに … › jp › information › report › profiling...プロファイリング・自動意思決定とプライバシーに

プロファイリング・自動意思決定とプライバシーに … › jp › information › report › profiling...プロファイリング・自動意思決定とプライバシーに

Documents

百億語のコーパスを用いた日本語の語彙・文法情報のプロファイリング

百億語のコーパスを用いた日本語の語彙・文法情報のプロファイリング

Documents

掲載している主な町丁目 9 7 1 梅田町1丁目菱町4丁目 6 梅田 …...菱町2丁目梅田町1丁目菱町5丁目宮本町4丁目平井町菱町4丁目梅田町2丁目

掲載している主な町丁目 9 7 1 梅田町1丁目菱町4丁目 6 梅田 …...菱町2丁目梅田町1丁目菱町5丁目宮本町4丁目平井町菱町4丁目梅田町2丁目

Documents

J R バス路線図 28 4 12).pdf毛馬町中野町網島町片町一丁目友渕町大東町都島本通都島南通東野田町都島北通善源寺町高倉町高倉町

J R バス路線図 28 4 12).pdf毛馬町中野町網島町片町一丁目友渕町大東町都島本通都島南通東野田町都島北通善源寺町高倉町高倉町

Documents

白石町 31 3 22 武雄市sy.pref.saga.lg.jp/kasen/kouzui/data/shiota1.pdf白石町太良町白石町嬉野市鹿島市武雄市波佐見町川棚町東彼杵町有明海

白石町 31 3 22 武雄市sy.pref.saga.lg.jp/kasen/kouzui/data/shiota1.pdf白石町太良町白石町嬉野市鹿島市武雄市波佐見町川棚町東彼杵町有明海

Documents

I-5 · 2015-06-11 · 櫨谷町寺谷伊川谷町前開櫨谷町友清押部谷町木見伊川谷町井吹櫨谷町福谷櫨谷町池谷高塚台櫨谷町長谷押部谷町高和

I-5 · 2015-06-11 · 櫨谷町寺谷伊川谷町前開櫨谷町友清押部谷町木見伊川谷町井吹櫨谷町福谷櫨谷町池谷高塚台櫨谷町長谷押部谷町高和

Documents

住居表示き旧わ新対照表新町名番号特番旧町名地番枝番 ......4 2 通町 146 4 3 通町 146 4 3 通町 146 4 4 通町 146 4 5 通町 146 青葉町 4 6 通町

住居表示き旧わ新対照表新町名番号特番旧町名地番枝番 ......4 2 通町 146 4 3 通町 146 4 3 通町 146 4 4 通町 146 4 5 通町 146 青葉町 4 6 通町

Documents

（市町名）...（市町名） ... [ ]

（市町名）...（市町名） ... [ ]

Documents

瀬谷区の都市計画道路の優先整備路線瀬瀬谷区の都 …...2018/08/29 · 川井町瀬谷町和泉町三保町新橋町飯田町矢指町下川井町二ツ橋町

瀬谷区の都市計画道路の優先整備路線瀬瀬谷区の都 …...2018/08/29 · 川井町瀬谷町和泉町三保町新橋町飯田町矢指町下川井町二ツ橋町

Documents

I-1 - Kobe平野町中津櫨谷町松本伊川谷町潤和伊川谷町有瀬玉津町今津玉津町高津橋平野町宮前伊川谷町別府櫨谷町菅野平野町

I-1 - Kobe平野町中津櫨谷町松本伊川谷町潤和伊川谷町有瀬玉津町今津玉津町高津橋平野町宮前伊川谷町別府櫨谷町菅野平野町

Documents

Jnm...和のあるマチづくりがテーマ国鍵擶鰐藤沢町長はこれまで｢和と思いやりの町政｣ということを言ってこ

Jnm...和のあるマチづくりがテーマ国鍵擶鰐藤沢町長はこれまで｢和と思いやりの町政｣ということを言ってこ

Documents

苫小牧港HM-全域 35000 170411[ORG2] · 2017. 4. 12. · 曹洞宗中央院大町本幸町本町寿町浜町栄町幸町錦町末広町表町若草町矢代町高砂町

苫小牧港HM-全域 35000 170411[ORG2] · 2017. 4. 12. · 曹洞宗中央院大町本幸町本町寿町浜町栄町幸町錦町末広町表町若草町矢代町高砂町

Documents

Ⅰ．市町村別主要指標Ⅰ．市町村別主要指標 1．農業大館市鷹巣町比内町森吉町阿仁町田代町合川町上小阿仁村管

Ⅰ．市町村別主要指標Ⅰ．市町村別主要指標 1．農業大館市鷹巣町比内町森吉町阿仁町田代町合川町上小阿仁村管

Documents

金沢近郊バス路線図橋場町扇町西大桑町若草町法島町小橋町堀川町京町額乙丸町四十万進和町赤土町二ッ寺町弓取町四十万町

金沢近郊バス路線図橋場町扇町西大桑町若草町法島町小橋町堀川町京町額乙丸町四十万進和町赤土町二ッ寺町弓取町四十万町

Documents

大熊･鳩浜町･浦上町･朝日町･有屋町･仲勝町･和光町･ …...公公 140 160 180 200 220 252．5 240 220 200 180 160 180 200 241． 5 66 120 100 134．5

大熊･鳩浜町･浦上町･朝日町･有屋町･仲勝町･和光町･ …...公公 140 160 180 200 220 252．5 240 220 200 180 160 180 200 241． 5 66 120 100 134．5

Documents

1076: CUDAデバッグ・プロファイリング入門

1076: CUDAデバッグ・プロファイリング入門

Technology

東日本大震災復興特別区域法資料 - Ishinomaki€¦ · 多古町東庄町大網白里町九十九里町横芝光町白子町新潟県：十日町市上越市津南町

東日本大震災復興特別区域法資料 - Ishinomaki€¦ · 多古町東庄町大網白里町九十九里町横芝光町白子町新潟県：十日町市上越市津南町

Documents