8
DEIM Forum 2017 C7-1 マイクロブログから リアルタイム 大学大学院 565–0871 2-1 E-mail: [email protected], ††{naoko,k-nakamura,babaguchi}@comm.eng.osaka-u.ac.jp あらまし Twitter したマイクロブログ い,多く ユーザが をリアルタイム するこ った. ユーザが じ対 を位 した ,これら から, して きる. に, によって が異 るこ ,また, にそ される ,一 される するこ し,Twitter から多く するこ する. ,位 されるご に, された し,各 じて しく をローカル して する. すローカル に対して ,さら により, しく する. された を, まれる により したローカル 較により した. キーワード マイクロブログ, ,ローカル ,リアルタイム 1. はじめに ,インターネット により, 易に きるように っている. して, した, を緯 する GeoNames [1] よう ,クラ ドソーシング により ユーザによって される大 する.さらに,ソーシャルメディア により, Twitter [2] Flickr [3] マイクロブログに される緯 されるジオタグ れる位 ら, して するこ っている. Rattenbury [11] Flickr されるジオタグ されるタグ して した.また,Cheng [12] Chang [13] Twitter から にわたり した大 ジオタグ において, をそ すローカル して した. これら ジオタグ から すローカル (以 )が され るが,こ よう により,イベント すローカル (以 )を する われている. Watanabe [14] ,位 きるサー ある Foursquare [4] された して し,Twitter まれる し,かつ いを して した.また,伊 [15] Foursquare された する するこ によ り,より多く して, した.こ ように,ジオタグ から えられるが, するために ジオタグ し, す位 った うオンライン る. ,こ よう ジオタグ に対するオンライ により,リアルタイム するデータベー 案する. Twitter にジオタグ されるご に, をリアルタ イムに するこ により,各 たタイミング ローカル う.また,ローカル す位 るこ により,各ローカル する. したローカル びそ づき,ローカル す対 わせて して する.アメリカ 一ヶ されたジオタグ きツ イートを った われる イベントを め,1 1,500 100 するこ きた. おり ある. 1) じたタイミング する. 2) して する. 3) により,異 する される に対 する. 4) に対するさら により,一 する. 2. 提案手法 Twitter を対 し, 1 ように, ・緯 x =(latlong) されるジオタグが されたツイート

マイクロブログからのリアルタイム地域情報抽出db-event.jpn.org/deim2017/papers/331.pdf ·  · 2017-02-23DEIM Forum 2017 C7-1 マイクロブログからのリアルタイム地域情報抽出

Embed Size (px)

Citation preview

DEIM Forum 2017 C7-1

マイクロブログからのリアルタイム地域情報抽出

上村 卓也† 新田 直子 † 中村 和晃† 馬場口 登†

† 大阪大学大学院工学研究科 〒 565–0871 大阪府吹田市山田丘 2-1

E-mail: †[email protected],

††{naoko,k-nakamura,babaguchi}@comm.eng.osaka-u.ac.jp

あらまし 近年 Twitterを代表としたマイクロブログの普及に伴い,多くのユーザが実世界観測情報をリアルタイム

に投稿することが可能となった.複数のユーザが同じ対象の観測情報を位置情報と共に投稿した場合,これらの投稿

から,観測対象を表す単語や画像などが地域情報として抽出できる.本研究では特に,観測対象によって観測情報の

投稿頻度が異なること,また,地域情報には常にその地域で観測される定常的なものと,一時的に観測される非定常

的なものが存在することに着目し,Twitterの位置情報付き投稿から多くの最新の地域情報を抽出することを目的と

する.提案手法は,位置情報付き投稿が発信されるごとに,投稿された単語の出現履歴を更新し,各単語の時空間的

出現特性に応じて定常,もしくは非定常な地域情報を表す単語をローカル語として抽出する.非定常な地域情報を表

すローカル語に対しては,さらなる出現履歴の更新により,削除,もしくは位置情報を更新する.抽出された地域情

報を,既存の地名辞書に含まれる場所語や,既存手法により抽出したローカル語との比較により評価した.

キーワード マイクロブログ,地域情報,ローカル語,リアルタイム処理

1. は じ め に

近年,インターネットの発達により,世界中の地域情報の取

得が容易に入手できるようになっている.地域情報として,専

門機関が作成した,場所語を緯度・経度情報と共に保持する

地名辞書や,GeoNames [1] のような,クラウドソーシングの

利用により世界中のユーザによって構築される大規模な地名

辞書が存在する.さらに,ソーシャルメディアの発達により,

Twitter [2]や Flickr [3]などのマイクロブログに投稿される緯

度・経度で表されるジオタグと呼ばれる位置情報付きの投稿か

ら,呼称や略称などの非公式な語や,特産品や方言などの地域

に特有な語を地域情報として抽出することが可能となっている.

例えば,Rattenburyら [11]は Flickrに投稿されるジオタグ

付き画像に付与されるタグの中で,空間的局所性の高いものを

その場所の地域情報として抽出した.また,Cheng ら [12] や

Changら [13]は,Twitterから長期間にわたり収集した大量の

ジオタグ付き投稿において,空間的局所性の高い単語をその場

所の地域情報を表すローカル語として抽出した.

これらの手法では,長期間のジオタグ付き投稿から定常的な

地域情報を表すローカル語(以下,定常語と呼ぶ)が抽出され

るが,このような定常語の利用により,イベントなどの一時的

な地域情報を表すローカル語(以下,非定常語と呼ぶ)を抽出

する研究も行われている.例えばWatanabeら [14]らは,位置

情報を付与できるサービスである Foursquare [4]に登録された

場所名を定常語として利用し,Twitterの投稿に含まれる単語

のなかで場所名と共起し,かつ時空間的に局所性の高いを非定

常語として抽出した.また,伊藤ら [15] は,Foursquare で登

録された場所名と頻繁に共起する単語も定常語とすることによ

り,より多くの定常語を利用して,非定常語を抽出した.この

ように,ジオタグ付き投稿から定常語,非定常語共に抽出でき

ると考えられるが,常に最新の地域情報を保持するためには,

ジオタグ付き投稿を常に観測し,定常語と非定常語の抽出や非

定常語の示す位置の更新,空間的局所性を持たなくなった非定

常語の削除を行なうオンライン処理が必要となる.

本研究では,このようなジオタグ付き投稿に対するオンライ

ン処理により,リアルタイムな地域情報を保持するデータベー

スの構築手法を提案する.提案手法では,Twitterにジオタグ

付き投稿が発信されるごとに,単語の空間的局所性をリアルタ

イムに解析することにより,各単語の時空間的出現特性に応じ

たタイミングでローカル語判定を行う.また,ローカル語の示

す位置の一貫性を調べることにより,各ローカル語の定常語/

非定常語の判別,及び非定常語の削除や位置更新を実現する.

抽出したローカル語及びその位置,時間に基づき,ローカル語

が表す対象の観測情報となる投稿も合わせて地域情報として収

集する.アメリカ本土で一ヶ月間に発信されたジオタグ付きツ

イートを使った実験では,使われる頻度が少ない語や,最新の

イベントを表す語などを含め,1日平均約 1,500個の定常語と

約 100個の非定常語を抽出することができた.

本研究の主な貢献は次に示すとおりである.

1) 観測情報の投稿頻度に応じたタイミングで地域情報を抽出

する.

2) 定常的/非定常的な地域情報を区別して抽出する.

3) 非定常語の位置更新により,異なる地域で発生する同じ語

で表される地域情報に対応する.

4) 非定常語に対するさらなる空間的局所性の観測により,一

時的な地域情報を削除する.

2. 提 案 手 法

提案手法は Twitterを対象とし,図 1のように,経度・緯度

x = (lat,long)で表されるジオタグが付与されたツイートと呼

� ���Ì� � % åÛÝâÌÝßæÞã åÛÝâÌÝßæÞã

� �� åÛÝâÌÝàæÝâ åÛÝâÌÝáæàß

�� �� �� ����� � ����

�����%

��������

�����%�

� �

ßåÚÝáß ÙåàÚáâà

ßãÚáâà ÙããÚàÞâ

���� �� ��

É`r>

y4q�4k

�������������

j\qb �

�×

² N�

� �� � ��� � ��

PA��

�þ

��������4]�A�³¹A-YÒ

³¹A �4]�A

o8�þ

������Ò�A�6Ò�A-YÒ

�4]�A���

j\qb���

Ò�A

6Ò�A

� �

� �

��

� �

��#Ì%��� ßÞ�áß�

�� �� � �����

� ���������

���� ������

� ��������������

���

図 1 提案手法の概要

ばれる投稿から,ローカル語 lk (k ∈ N),およびローカル語が発信された位置のジオタグ集合 Gk = {xk,n|n = 1, · · · , Nk},ローカル語に関する画像集合 Vk = {Ik,i|i ∈ N},ローカル語に関するツイート集合 Bk = {Ek,i|i ∈ N} がローカル語の定常語と非定常語に分けて格納された地域情報データベースを構築す

ることを目的とする.非定常語に関しては,初めてデータベー

スに記録された時間 stk と最後に記録された時間 ltk も同様に

地域情報データベースに記録する.

ローカル語 lk の示す地理的確率分布 Pk(x)はジオタグ集合

Gk から,カーネル密度推定を用いて以下のように求められる.

Pk(x) =1

Nkh

Nk∑n=1

K(x− xk,n

h

)(1)

ただし,Nk は lk のジオタグ数,hはバンド幅,K(·)はカーネル関数である.

Twitterでは,有名な都市名などを表す定常語は使用頻度が

高いのに対し,施設名や特産物などマイナな地域情報を表す定

常語はめったに使われることがない.そのような定常語の出現

頻度の違いに対応するため,提案手法では単語ごとに出現履歴

を記録する.ジオタグ付きツイートが投稿されるたびツイート

に含まれる単語の出現履歴を更新し,ローカル語の判定を行う.

各単語の出現情報はローカル語と判定されるまでそれぞれ蓄積

されるため,単語ごとに適切な時区間で局所性を判定すること

ができる.

また,非定常語が高い空間的局所性を持つのは一時的であり,

同じ語が,異なる時間に異なる地域の情報を表す場合もある.

このような非定常語の空間分布の経時変化に対応するためには,

各単語の最新の出現履歴を観測する必要がある.特に,一時的

に局所性をもつ非定常語は,出現履歴を常に蓄積すると,過去

の出現履歴の影響で局所性の判定が困難となる.そこで,局所

性の低い単語は一般語の可能性が高いと考え出現履歴を削除す

る.これにより,一時的な非定常語に対しても,適切に局所性

の判定が可能と期待される.

ローカル語と判定された語は,一貫して同じ位置を示す場合,

定常語と判断できる.そこで,ローカル語はまず非定常語とし,

一定の時間同じ位置を示した場合に定常語と判定する.

以上より提案手法は図 1のように,Step1)ローカル語/一般

語の判定,Step2)定常語/非定常語の判定の 2ステップから構

成される.

Step1) ローカル語/一般語の判定

ツイートに含まれる各単語 uz は,自身の最新の出現履歴によっ

てローカル語か一般語に判定される.uz がどちらかに判定さ

れた場合,uz の出現履歴を削除し,地域情報データベースに登

録されているか確認する.

Step1-1) uz がローカル語と判定されたとき

定常語として登録されていれば地域情報データベースに新しい

ジオタグとツイート,画像を追加し,そうでなければ Step2)

に移行する.

Step1-2) uz が一般語と判定されたとき

地域情報データベースに登録されていた場合,過去の非定常語

と判定し,地域情報データベースから削除する.

Step2) 定常語/非定常語の判定

Step1-1)においてローカル語と判定された語が定常語か否かの

判定に応じ,地域情報データベースに登録されているか確認の

もと,新しいジオタグとツイート,画像を追加する.

Step2-1) 地域情報データベースに登録されている場合

非定常語が定常語と判定された場合,定常語に変更する.それ

以外は,記録されているジオタグやツイート,画像を更新もし

くは削除する.

Step2-2) 地域情報データベースに登録されていない場合

定常語/非定常語の判定に応じてローカル語を登録する.

また,一時的に特定の地域の情報を表すが,その後用いられ

ない非定常語を削除するため,登録されている非定常語 lk に

対して,最後の登録時間 ltk から 1日時間が経過すると地域情

報データベースから削除する.

次節より各ステップの詳細を述べる.

2. 1 前 処 理

オンライン処理の実現のため,各単語の空間的局所性の判定

は効率的に行なう必要がある.そこで提案手法では,地理空間

を複数のエリアに分割し,エリアごとの単語の出現頻度の比較

によりローカル語を抽出する.エリアごとのツイート数が異な

ると単語の出現頻度にばらつきが生じ,正確にローカル語の判

定ができない.そこで,2分割反復法を用いて地理空間上を各

エリアのツイート数がなるべく均等になるように分割する.2

分割反復法とは,2次元の空間をツイート数が半分になるよう

に再帰的に分割するものであり,分割する回数を nに設定する

と 2n 個のエリアに分割する.こうして得られたエリア集合を

A = {aj |j = 1, · · · , J}とする.エリアの緯度・経度情報によって Twitterから得られるジオタグ付きツイートのエリアを決定

する.Botアカウントなどの同一ユーザによる複製ツイートの

影響をふせぐため,各単語の出現頻度はユーザにつき各エリア

で 1回のみカウントする.

次に,ローカル語は地名や特産物,イベントなどを表す単語

であり,主に名詞から構成されると考えられるため,ツイート

に対して Brill ’s Tagger [5]を用いて形態素解析を行い名詞の

みを抽出する.TermExtract [6] と呼ばれるキーワード自動抽

出サービスを用いることにより,複数の単語からなる複合名詞

を生成する.これは例えば“Michigan”という単語が州の名

であるのに対し,“Michigan Stadium”は施設名であるように,

ローカル語を複合名詞として抽出することにより示す場所や意

味が限定されると考えられるためである.以下では名詞・複合

名詞を区別せず名詞と呼ぶ.抽出された名詞は,ローカル語の

候補として以下の処理を行なう.

2. 2 ローカル語と一般語の判定

名詞 uz の出現履歴を頻度ヒストグラム Fuz = {fuz,j |j =

1, · · · , J} として記録する.ここで,fuz ,j はエリア aj での出

現頻度を示す.uz を含んだジオタグ x = (lat, lon) ∈ aj の付

与されたツイートが投稿されるたび,fuz ,jを 1増やす.

uz の局所性は,テキストマイニングの分野で,コーパス中

のドキュメントごとに固有の単語を抽出するために用いられ

る TFIDF 法を応用し,uz の J 個のエリアにおける最大出現

頻度 fmaxuz

= arg maxj

fuz,j,及び出現エリア数 |Auz | により

TFIDF値が最大となる tfidfmaxuz

を算出し判定する.

tfidfmaxuz

= fmaxuz

· idfuz (2)

idfuz = logJ

|Auz |, whereAuz = {aj |fuz,j |= 0} (3)

ただし,|Az|は集合 Az 内の要素数を表す.

tfidfmaxuz

は特定のエリアにおいて uz の出現頻度が高くなる

と大きくなる.よって,tfidfmaxuz

>= Rとなる uz をローカル語

lkと判定する.ここで,uz が 1つのエリアで θ1回出現し,かつ

他のエリアでは出現していない場合,ローカル語と判定すると

すれば,RはR = θ1 · logJ と決定できる.より多くのエリアで出現している場合は,1つのエリアで θ|Az| 回 (fmax

uz>= θ|Auz |)

以上使用されなければローカル語と判定されず,θ|Az| は出現

エリア数 |Auz |に応じて高くなるよう,以下のように自動的に決定される.

θ|Auz | =R

log J|Auz |

(4)

θ1 を低く設定すると,あまり観測情報が投稿されないマイナな

地域情報を表す定常語が抽出されやすくなる.

さらに,tfidfmaxuz

< rとなる uz を一般語であると判定する.

uz が 1つのエリアで θ1 回使用されたときに λθ1 個のエリアで

出現していれば一般語と判定するとすれば,rは r = θ1 · log Jλθ1

と決定できる.一般語も,1つのエリアでの出現頻度が多い場

合には,λfmaxuz

個以上のエリア(|Auz | >= λfmaxuz)で出現しな

ければ一般語と判定されず,λfmaxuz

は,最大出現頻度 fmaxuz

応じて高くなるよう以下のように自動的に決定される.

λfmaxuz

=J

exp rfmaxuz

(5)

λθ1 を高く設定することにより,複数のエリアで使用される,

つまり州名など大きな地域の情報を表すローカル語を抽出でき

る.一方,多くのエリアで出現する一般語を削除する程度に低

く設定する必要がある.

2. 3 定常語と非定常語の判定

抽出されたローカル語が一定の期間一貫して同じ場所を示し

ている場合,そのローカル語は定常語と考えられる.そこで,

ローカル語 lk が初めて抽出されたとき,抽出に利用した出現履

歴の時区間長 tk が tk >= W を満たしていれば定常語と判定す

る.一方,一度非定常語と判定されたローカル語が,再びロー

カル語として抽出された場合にはデータベースに記録している

過去の出現履歴を参照し,示す場所の一貫性を検証する.

非定常語 lk の示す場所の一貫性を頻度ヒストグラムに基づ

き検証する.ここで lk のデータベース内に記録されている頻度

ヒストグラムと新しい出現履歴の頻度ヒストグラムをそれぞれ

F oldk と Fnew

k と定義する.ローカル語 lk は,stk からW の時

間が過ぎ,かつ F oldk と Fnew

k が十分類似しているとき,定常

語である可能性が高い.よって,F oldk と Fnew

k の類似度 sk を

ヒストグラム交差法により算出し,sk >= S を満たすものを定

常語と判定する.

一方,sk >= S を満たしているが stk から十分に時間が経って

いないものは,非定常語として F oldk を以下の式で更新する.

fold(τ+1)k,j =

fold(τ)k,j + fnew

k,j (ifsk |= 0)

fk,j (otherwise)(6)

ただし,fold(τ+1)k,j を更新前,f

old(τ)k,j を更新後の lk のこれまで

のエリア aj における出現頻度とする.また,sk < S である場

合は lk の示す位置が変化したと考え,データベースに記録さ

れている lk に関する記録を新しい出現履歴により全て置き換

える.

3. 評 価 実 験

Twitterの Streaming APIを用いて緯度が 24度から 49度,

経度が-125度から-66度,すなわちアメリカ本土から発信され

た 2016年の 1月から 3月の 3ヶ月分のジオタグ付きツイート

18,531,981件と 2016年の 9月から 10月の 1ヶ月分のジオタグ

付きツイート 6,655,763件を収集した.最初の 3ヶ月分のジオ

タグ付きツイートは前処理においてエリア分割に使用し,後の

30 日分のジオタグ付きツイートは地域情報データベースを構

築するのに使用した.

3. 1 パラメータの影響評価

提案手法では,J と θ1,λθ1,W,S の 5つのパラメータが

ある. 多くのローカル語を早い段階で抽出するため,1つのエリ

アのみに 3回出現した単語はローカル語と判定するよう θ1 = 3

に設定した上で,他のパラメータの影響を評価する.初めの 10

日間のジオタグ付きツイート 2,316,213件を用いて構築した地

域情報データベース内にあるローカル語を以下の 4種類の単語

と比較し,その妥当性を評価した.

まず,複数のエリアで使用されるローカル語が正しく抽出で

きることを確認するため,48個の州名,次に,使用頻度が低い

ローカル語が正しく抽出できることを確認するため,7,322個の

都市名を用いた.また,複数のエリアで使用される一般語が正

しく判定できることを確認するため 296個のストップワードを

使用した.州名と都市名はともに約 30,000個の場所名が登録さ

れている Census 2015 U.S. Gazetteer [7]から,ストップワー

ドは Stopword List [8] から得た.これら 3 種類の単語はロー

カル語と一般語の判定と関係しており,J と λθ1 の評価に用い

る.また,定常語と非定常語を判定するW と S の影響を評価

するため,約 220万の場所名を掲載している GeoNames [1]を

様々な場所名の真値として用いた.

図 2に J の値を変化させたときのローカル語と一般語の判定

結果への影響を示す.J が低すぎると,州名や都市名の空間的

局所性の判定が困難となり,一時的に正しくローカル語と抽出

されたとしても,後に古い非定常語として誤って削除されやす

く,安定した定常語として抽出できない.一方,J が高すぎる

とストップワードの局所性が高く判定され,ローカル語の信頼

性が低くなる.

次に図 3に λθ1 の値を変化させたときのローカル語と一般語

の判定結果への影響を示す.λθ1 は一般語と判定する際のエリ

アの広がりに対するしきい値とみなせる.従って,J と同様に,

λθ1 が低いと,州名や都市名が一般語と誤って判定され,λθ1

が高いと,ストップワードがローカル語と誤って判定される.

最後に,図 4 に S と W の値を変化させたときの定常語と

非定常語の判定結果への影響を示す.S を高く設定すると,

GeoNamesに含まれる場所名が非定常語として多く残るが,S

が 0.6以下で結果はほぼ変化しない.これらの結果から,ほと

んどの場所名はほぼ同じエリアで使用されることが多く,頻度

ヒストグラムの類似度が 0.7以上であったことがわかる.一方,

それ以外のローカル語のほとんどが時間により大幅に異なるエ

リアで出現し,頻度ヒストグラムの類似度は 0.2未満となった.

また,W が 8時間以上のとき GeoNamesに含まれる多くの場

所名が非定常語として多く残る.一方,W を短くすると,多

くの非定常語が誤って定常語と判定されることが考えられるた

め,W = 7 時間程度一貫した場所で出現したローカル語を定

常語と判定するのが望ましいと考えられる.

以上の結果より,今回の実験で用いたデータセットに対して

は,θ1 = 3 のとき,J = 256, λθ1 = 25, S = 0.6, W = 7 時

間が適切である.これらのパラメータは地域情報を観測したジ

オタグ付きツイートの投稿頻度などに依存するため,すべての

データセットに適切なパラメータの決定は困難であるが,以上

のように場所名,ストップワードなどの正解となるべき単語の

利用により,データセットに応じたパラメータの決定が可能と

考えられる.

3. 2 比 較 実 験

前節の結果からパラメータを J = 256, θ1 = 3, λθ1 = 25,

S = 0.6, W = 7時間とし,専門機関によって作成された地名

辞書である Census 2015 U.S. Gazetteer [7],クラウドソーシ

ングにより作成された地名辞書である GeoNames [1]との比較

により,提案手法により得られた地域情報の妥当性についてさ

らに検証する.Gazetteerは単語ごとに 1つの緯度・経度情報,

GeoNamesは単語ごとに 1つ以上の緯度・経度情報を保持する.

また,提案したオンライン処理の有効性を検証するため,

Chengら [12]の手法で初めの 10日間のジオタグ付きツイート

からバッチ処理により抽出したローカル語と比較する.Cheng

�����

����

����

��w¡

����

fLm2þ�

gm2ø�ûµ���

�� ��þm2þ�

�����

����

�����

��w¡

����

��¥���¥�

図 7 提案手法と Cheng らの手法で抽出した定常語数

らの手法ではサポートベクターマシン (SVM)による識別器を用

いて,空間的局所性に基づきローカル語を抽出する.Gazetteer

から無作為に選択した 296 個の都市名と,296 個のストップ

ワードを正例と負例のトレーニングデータとして学習した識別

器によって 10,082個の定常語を抽出した.さらに,Gazetteer

に含まれる 7,322個の都市名を手動で加えた計 17,404個のロー

カル語に対し,各ローカル語を含んだジオタグ付きツイートの

ジオタグを緯度・経度情報とした.

まず,各日において 1日分のジオタグ付きツイートを受信し

た時点で提案手法によって抽出された定常語と非定常語の数を

図 5,6に示す.ローカル語の示す位置の一貫性を検証するた

めに一定の期間が必要なため,初めの 4日間は非定常語の数が

多い.しかし 5日目以降,約 100個の非定常語を保ちながら 1

日平均約 1,500個の定常語数が抽出された.10日後には提案手

法により 17,865個の定常語が抽出され,10日間のジオタグ付

きツイートを用いた Chengらによる手法で抽出した定常語数

を超えた.図 7によると,Chengらの手法で抽出したローカル

語と共通した語は約 30%であり,約 11,000個のローカル語は

各手法でのみ抽出された.実際には,Chengらの手法のみで抽

出されたローカル語のうち 4,927個は Gazetteerから手動で加

えた都市名であるため,ジオタグ付きツイートからは抽出され

たローカル語は 6,182個である.さらに図 5,7に示すように,

提案手法は,30日後にはさらに多くの他のデータベースに含ま

れないローカル語をジオタグ付きツイートから収集した.

このように量としては多くのローカル語が抽出されている.

さらに,ローカル語,及びその位置や時間など,抽出した地域

情報の正しさを評価するため,以下の節で応用例による評価結

果を示す.

3. 2. 1 ツイートの発信位置推定

抽出した地域情報の正しさを,テキスト情報のみを用いたツ

イートの発信位置推定により評価する.収集した 6,655,763件

のジオタグ付きツイートのうち 13,296件のジオタグ付きツイー

トをテストデータとし,残りから地域情報を抽出した.提案手

法では,位置推定と地域情報の抽出が並列に処理されるため,

テストツイートが投稿されると,それまでに投稿されたすべて

のジオタグ付きツイートから抽出したローカル語と位置情報

を用いて発信位置が推定される.位置推定の対象となるツイー

ト t がM 個のローカル語 lm(m = 1, · · · ,M)を含むとき,全

ローカル語の発信位置のジオタグ集合∪M

m=1 Gm から,式 (1)

を用いてツイートの発信源の確率分布 Pt(x)を推定する.カー

ネル関数はガウス関数を用い,バンド幅は Silverman [9] が提

21

16

22

4143

46 46

20

22

16

53

0 0

0

5

10

15

20

25

30

35

40

45

50

8 16 32 64 128 256 512

#o

f st

ate

na

me

s

J

stationary geospatial terms temporary geospatial terms

(a) ローカル語に含まれる州名数

���� ����

����

���� ���� ���� ����

�� �� �� �� � � �

���

����

����

����

����

����

� � �� � ��� �� ���

�w¡X

��� ����

(b) ローカル語に含まれる都市名数

� �

� �

� �

� � � � � �

GVQe}�WX

��� ����

(c) ローカル語に含まれるストップワード数

図 2 J による影響 (θ1 = 3, λθ1 = J/10, W = 6 時間, S = 0.3). J が低いとき,州名と都市

名が誤って一般語と判定され,J が高いとき,ストップワードが誤ってローカル語と判定

される.

��

��

��

���� �� �� ��

��

��

��

��

��

� � �� � �� � �� �

^¡X

��� ����

���

(a) ローカル語に含まれる州名数

�������� ���� ���� ���� ���� ���� ����

�� � � � � � � �

��

����

���

����

���

����

�� � �� � �� � ��

�w¡X

��� ����

���

(b) ローカル語に含まれる都市名数

� �

� �

� �

� �

��

� �� �� � � � � ��

GVQe}�WX

��� ����

���

(c) ローカル語に含まれるストップワード数

図 3 λθ1 による影響 (θ1 = 3, J = 256, W = 6 時間, S = 0.3). λθ1 が低いとき,州名と都市

名が誤って一般語と判定され,λθ1 が高いとき,ストップワードが誤ってローカル語と判

定される.

��� ��� ��� ��� ��� ��� ���

�� �� �� �� �� ��

��

��

���

���

���

���

��

��

� �� �� �� �� �� ��

U�Mg�GÆþ����X

fLm2þ� �������û�µ���

(a) 非定常語のうち GeoNames に含まれる場所語数

������

��� ��� ��� ��� ��� ���

��

��

����

�� ��

��

��

���

���

���

���

��

��

� � � � �� �� ��

U�Mg�GÆþ����X

fLm2þ� � ���� �û��ß���

(b) 非定常語のうち GeoNames に含まれる場所語数

図 4 S による影響 (θ1 = 3, J = 256, λθ1 = 25, W = 6 時間) 及び W による影響 (θ1 = 3,

J = 256, λθ1 = 25, S = 0.6).

案したものを使用した.推定誤差は,推定された tの発信位置

xest(t) = arg maxx

Pt(x)とテストツイートに付与されているジ

オタグの誤差 [km]で算出する.

Gazetteerにおいては,都市名や町名,地区名に同じ語が重

複して用いられ,使用頻度の高い都市名のみを用いた場合が最

も位置推定の精度が高かったため,30,000 個の場所名のうち

7,322 個の都市名を位置推定に用いた.また,Gazetteer には

“ chicago city”のような公式名が登録されているが,Twitter

では“ chicago”のように省略して使われることが多い.従って,

テストツイートに含まれる単語と部分的なマッチングを行った.

また,Chengらの手法において最初の 10日間のジオタグ付き

ツイートから抽出したローカル語 (これ以降は Cheng と表記

する) に加え,30日間全てのジオタグ付きツイートからもロー

カル語 (これ以降は Cheng*と表記する)を抽出した.Cheng*

はジオタグ付きツイートから抽出した 21,466個のローカル語

に,Gazetteerから得た 7,322個の都市名を手動で加えた合計

28,788個のローカル語に相当する.提案手法においては,定常

語のみを位置推定に用いた結果 (Proposed*) と定常語と非定常

�����

�����

�����

�����

�����

�����

� � � � �� �� �� �� � �� �� �� �� �

���X

��

fLm2þ� �Qm2û�µ���

図 5 提案手法により抽出した定常語数

���

���

���

���

���

���

���

��

� � � � �� �� �� �� � �� �� �� �� �

����X

��

fLm2þ� �Qm2û�µ���

図 6 提案手法により抽出した非定常語数

語の両方を位置推定に用いた結果 (Proposed)を示す.

図 8,9に各日において位置推定されたツイート数 T と推定誤

差が 50km以内のテストツイートの割合である推定精度 ACC

を示す.GeoNames のローカル語により最も多くのテストツ

イートに対し位置推定されたが,そのほとんどは推定誤差が大

きく,ACC は一番低かった.Gazetteerは GeoNamesよりも

精度よくツイートを位置推定することができたが,都市名のみ

を用いているため推定できたツイート数 T は最も少なかった.

表 1 に各手法で抽出されたローカル語の例を示す.Gazetteer

と GeoNames は正しい場所名を含むが,“ beach”や“ park”

などの多くの場所で使用される語も含むため,推定精度が低下

した.一方,ジオタグ付きツイートから抽出したローカル語に

より,多くのツイートに対し正しく位置が推定された.

特に提案手法では“ domain central park”などのあまり観測

されない場所名が抽出され,“ fall food festival”や“ bears vs

colts”などのような一時的な非定常語を正しく抽出,また削除し

たことにより,最初の 10日間のジオタグ付きツイートを学習し

た Chengらの手法よりも良好な結果が得られた.Cheng*では

30日間のジオタグ付きツイートを学習しているため,“ domain

central park”などの観測頻度の低い場所名を抽出できるが,

“ crow”や“ jewel”などの一般語が一時的に局所性を持ったた

め,誤ってローカル語として抽出され,位置推定の精度が低下

した.一方で,提案手法ではこれらの一般語を正しく削除でき,

推定精度 ACC が最も高くなった.定常語のみを位置推定に用

いる方が推定精度は高くなるが,非定常語も位置推定に使うこ

とにより,より多くのツイートに対し正しく位置が推定された.

表 2に各手法における位置推定結果の 30日間の平均をまと

める.提案手法では,GeonNamesよりも大幅に少ないローカ

ル語 (約 1.8%)により,2倍のツイートに対し正しく位置が推定

された.また,Chengらの手法と比較しても,2倍程度のロー

カル語により,位置推定精度が向上した.

Chengや Cheng*は 10日間や 30日間のジオタグ付きツイー

トをバッチ処理により学習しているのに対し,提案手法では 1

日目から順に学習しているため初期はローカル語が少なく,位

置推定できるツイートが限定される.しかし,提案手法によっ

てローカル語が多く抽出されるに従い,精度が向上した.表 2

に各手法における位置推定結果の後半の 10日間の平均をまとめ

表 1 各手法により抽出されたローカル語各手法 ローカル語

全ての手法 las vegas, new york, portland

Gazetteer, Geonames,Cheng のみ beach, park, dayton, hampton

Cheng のみ fall food festivals, crow, jewel

Cheng,提案手法のみ cincinnati zoo, golden nugget hotel, rains

提案手法のみ (定常語) domain central park, waccamaw river

提案手法のみ (非定常語) white plains oktoberfest, bears vs colts

表 2 各手法の位置推定結果 (30 日間平均)

各手法 Proposed Proposed* GeoNames [1] Gazetteer [7] Cheng [12] Cheng* [12]

T 97.6 95.2 196 60.8 109 109

ACC(5km) 0.507 0.524 0.126 0.205 0.415 0.440

(1515/2927) (1498/2857) (728/5872) (373/1823) (1355/3269) (1539/3267)

ACC(50km) 0.735 0.744 0.180 0.371 0.612 0.672

(2150/2927) (2127/2857) (1059/5872) (676/1823) (2002/3269) (2196/3267)

ACC(100km) 0.760 0.771 0.192 0.388 0.638 0.694

(2225/2927) (2202/2857) (1130/5872) (708/1823) (2083/3269) (2267/3267)

表 3 各手法の位置推定結果 (後半の 10 日間平均)

各手法 Proposed Proposed* GeoNames [1] Gazetteer [7] Cheng [12] Cheng* [12]

T 105 103 189 58.9 106 106

ACC(5km) 0.529 0.537 0.132 0.221 0.400 0.469

(558/1054) (554/1032) (249/1893) (124/589) (423/1057) (499/1063)

ACC(50km) 0.743 0.755 0.188 0.441 0.603 0.680

(783/1054) (779/1032) (356/1893) (218/589) (637/1057) (723/1063)

ACC(100km) 0.761 0.773 0.199 0.441 0.620 0.694

(802/1054) (798/1032) (376/1893) (223/589) (655/1057) (738/1063)

る.30,000個以上のローカル語を用いて,高い推定精度 ACC

を保ちながら Chengや Cheng* よりも多くのツイートを正し

く位置推定できた.

提案手法で多くのローカル語を抽出しても,位置推定された

ツイート数 T は Chengや Cheng*と比べあまり増えなかった.

これは,テストツイートはよく観測される対象に観測情報であ

る可能性が高く,観測頻度の少ない対象を表すローカル語が位

置推定に用いられることが少ないためである.これらのローカ

ル語の妥当性を示すため,抽出されたすべてのローカル語は定

常語,非定常語別にウェブサイト(注1)に提示する.

3. 2. 2 画像の自動タグ付け

次に,収集された地域情報の正しさを画像への自動タグ付け

により評価する.ここでは,提案手法でのみ抽出できたローカ

ル語の評価として,非定常語に焦点を当てて検証する.全ての

非定常語 lk について,初めて抽出された時間 stk と最後に抽

出された時間 ltk,ジオタグ集合 Gk,ツイート例 Bk,画像例

(注1):http://www2c.comm.eng.osaka-u.ac.jp/˜kamimura/index.html

��

���

���

���

���

� � � � � �� �� �� �� �� �� �� �� �� ��

)(N�å�ïR2�VX

� �����������

� ������������

�������

�������

�����

������

図 8 T (位置推定されたテストツイート数)

���

���

���

���

���

���

��

��

���

� � � � �� �� �� � �� �� �� �� � ��

N�­Ø� ������

���

���������������

����������������

��� ����

��!������

��"#

��"#�

図 9 ACC (50 km 以内の誤差で位置推定されたテストツイートの割合)

Vk が地域情報として抽出されている.図 10,11に 30日目の

4時間 (2016/10/09 9:00-13:00 PST) に抽出された非定常語を

位置及び語が表す対象の観測情報となるツイート例や画像例と

共に示す.ほとんどが 4時間内に各地で発生したイベントを表

す語であるが,赤枠で示すように誤った非定常語も含まれてい

た.これは図 11の最後で示すように同じ場所から異なるアカ

ウントによる投稿された複製ツイートが原因で抽出されたもの

である.

30日目に抽出された 66個の非定常語のうち,38個の非定常

語に対して平均 3.7枚の画像が観測情報として抽出された.38

個の各非定常語 lk において,xest(lk) = arg maxx

Plk(x) の位

置が含まれるエリア内で,sk の前後 2時間に投稿された画像を

非定常語 lk が表す対象を観測した画像の候補として収集した.

そのうち,ツイートの本文に非定常語 lk を含まないものを選

択し合計 3,814枚のテスト画像を用意した.

GoogLeNet [10]は ImageNetの画像を大量に学習した 22層

の畳み込みニューラルネットワークであり,画像に対して 1000

のラベルとその予測スコアのベクトルを出力する.非定常語 lk

の各テスト画像に対して,画像 Vk との GoogLeNet の出力の

コサイン類似度をそれぞれ算出する.ここで,もっとも高い類

似度の値が P を超えたとき,テスト画像に対して lk のタグを

付与する.P = 0.2 と設定したとき,6.7%のテスト画像に対

して lk がタグとして付与され,手動で確認したところ,うち

64.9%が正しかった.

表 4にテスト画像に対して正しくタグ付けが行なわれた例を

ツイートの本文と場所,時間と共に示す.他の地域情報データ

ベースとの比較を行なうため,場所情報のみから GeoNames

を用いてテスト画像のタグを推定した結果を示す.また,自動

タグ付けは一般に画像特徴に基づき行われるため,GoogLeNet

による出力を画像特徴に基づく自動タグ付けの結果とした.一

方,提案手法では非定常語 lk が抽出された時間 stk や場所情

報Gk,Vk の画像特徴を考慮したタグ付けが行われる.表 4に,

GeoNamesとGoogLeNet,提案手法によるタグ付けの結果を示

す.GeoNamesや GoogLeNetによるタグ付けでは“ chicago”

のような場所名や,“ stage”といった対象物が表されるが,提

案手法では“ allstage arena saint pablo tour”のように画像が

撮影されたイベントに関するタグが付与される.表 4の最後の

����������� �����

����������������

D��������

����������

��� �����������

����������� ����

��������������

������������������

�������

��������������

������������ ������

�����������

���������

�������������

������ �����������

��������� �������

��������

図 10 非定常語とそれに関する場所と画像例 (2016/10/09 9:00-13:00

PST). lk の場所は xest(lk) = arg maxx

Plk (x) で算出した.

例は,誤ったタグ付けの例である.これは,テスト画像が場所,

時間,画像特徴すべての点において,“ neil”という人物のイベ

ントを表す特徴に類似したためである.

表 5には 8日目と 30日目に候補画像に対して正しくタグ付

けが行なわれた例をそれぞれ示す.これらの画像は同じ場所で

投稿されており GeoNamesによるタグ付けでは“ chicago”の

ように同一であるが,提案手法では投稿時間と画像特徴の情報

も使って“ go cubbies”や“ chicago marathon route”のよう

に異なるイベントに関するタグが付与された.

今回は画像特徴の類似度の比較手法が単純であるため,より

高精度の手法を用いることによりタグ付けの精度が上がる可能

性はあるが,提案するオンライン処理で抽出した一時的な地域

情報が画像の自動タグ付けにも利用できる程度に正しいことが

示された.

4. ま と め

本稿では,オンライン処理により,ジオタグ付きツイートが

投稿されるごとに各単語の空間的局所性を観測し,信頼性の高

い最新の地域情報を多く収集する手法を提案した.収集した地

域情報にはローカル語とその時間や場所に加えて,関連するツ

イートや画像情報が含まれる.アメリカ本土で投稿された 600

万件以上の一ヶ月間のジオタグ付きツイートを用いた実験では,

1日平均で,使用頻度の低い語を含んだ約 1,500個の定常語と

表 4 自動タグ付けの例. GoogLeNet によるタグ付けは推定スコアを示している.

R2�V

ì@

ìë

�d

���

fLm2

��������������

�� ������� ���

������������������

����������������� ��!

"����� �!�"�������!��

������ ��#

����� ��#

��������������

#� ������� ���

!������ ���

$�%%������� ���

&'��(�%%����� �

$��!�������������!�

)��*��!��*���##�

#� ������� ��#

�������������#

�����$'��

�' �(�������*�%

������ #��

��!�%����� ���

�"!��$!��+� #��

������!'��� ���

�� ������� ���

��������������

"��"��!

�����*�%%�

## �������� ��

��������������

���%

## �������� ��

��������������

������ #���

���!��� ���

,!'�+ -��-�!

� �.��������� �!

�!�+��!�������"�����

/� �+���0 1���(-!'

$�����+�������*������+�%%

��!"� �!'��!���'�

2�!�� ��"��"��!

�����*�%%�

��%����!�

�%�3��+���

"��"������

+�-�!�

*!%%�-$�%%� #��

4�����+� ���

5!'�������%��!����

5��6���!

����������$��������7����

��"�'�������(��$-

8��+�����..���#�+ �%�9

"��"��!

�����!��!'��

)�-!'�!��� ��'����

8:!'��$'����+��;�%%

�%%���������������

��$%!�!'�$����*�"!%�� ���%

5!'�������%��!����

5��6���!

raiders tailgate

・Raiders tailgate don’t mess around. This is legit stuff.

・Sunday Funday at The Raiders Tailgate with the black hole fans!

・Raiders Legend Bill Romanoski. @ Raiders Tailgate!!!

hurtsburg pumpkin festival

・Pumpkin fun at the Hartsburg Pumpkin Festival!

・Smiling because of all the dogs we saw @ Hartsburg Pumpkin Festival

・Fall is life @ Hartsburg Pumpkin Festival

scary option

・AIDS :Why Pence Is A Scary Option For Women And Public Health

・AIDS :Why Pence Is A Scary Option For Women And Public Health

・AIDS :Why Pence Is A Scary Option For Women And Public Health

図 11 非定常語とそれに関するツイート例 (2016/10/09 9:00-13:00

PST)

表 5 8 日目及び 30 日目に投稿された画像の自動タグ付け例

R2�V

ì@

ìë

�d

���

fLm2

�������������

� ���� � �������

�������

�����������������

�����!"���� �#��

$������%� ���

&�� ���'�'���"���������('�� �

���')���*� �'�$���"!�

+��%��&��,,�'���#�%�����-�

��������

����'������)'�

.�� '�'����'��/�����!�00

+�/�����!�.���%

� ��� ������ � �

������������

�������

����������

'���� ����

����'��� � ��

����)""��

現在のイベントを表す約 100個の非定常語を抽出し,1ヶ月で

47,000個のローカル語を抽出した.収集された地域情報の利用

により,他の地名辞書を用いた場合よりも多くのツイートに対

し精度よく位置推定できること,また,Twitterに投稿された

画像に対し,観測対象のイベントに関するタグを付与できるこ

とを確認した.一方で,提案手法では“McDonald”のような

世界中の様々な場所で使用される定常語は抽出することができ

ない.また,同じ場所で異なるアカウントにより似た内容の投

稿が連続して行なわれた場合には,誤ったローカル語が抽出さ

れる.今後の課題として,それらの語に対して正しく一般語と

判定する処理方法の検討が挙げられる.

謝 辞

本研究の一部は科学研究費補助金基盤研究 (C)による.

文 献[1] GeoNames, http://www.geonames.org.

[2] Twitter, https://twitter.com.

[3] Flickr, https://flickr.com.

[4] Foursquare, https://foursquare.com.

[5] E. Brill, “A Simple Rule-based Part of Speech Tagger,”

Proceedings of Workshop on Speech and Natural Language,

pp.112-116, 1991.

[6] TermExtract, http://gensen.dl.itc.u-tokyo.ac.jp.

[7] Census 2015 U.S. Gazetteer, https://www.census.gov/geo/maps-

data.

[8] Stopword List, http://www.ranks.nl/stopwords.

[9] B. W. Silverman, “Density Estimation for Statistics and

Data Analysis,” Monographs on Statistics and Applied

Probability, Chapman and Hall, 1986.

[10] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D.

Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich,

“Going Deeper with Convolutions,” Proceedings of IEEE

Conference on Computer Vision and Pattern Recognition

(CVPR), pp.1–9, 2015.

[11] T. Rattenbury and M. Naaman, “Methods for Extracting

Place Semantics from Flickr Tags,” ACM Transaction on

the Web, 3(1), 30 pages, 2009.

[12] Z. Cheng, J. Caverlee, and K. Lee, “You are Where You

Tweet: A Content-based Approach to Geo-locating Twit-

ter Users,”Proceedings of ACM International Conference

on Information and Knowledge Management (CIKM), pp.

759–768, 2010.

[13] H. -W. Chang, D. Lee, M. Eltaher, and J. Lee,“@Phillies

Tweeting from Philly? Predicting Twitter User Locations

with Spatial Word Usage,” Proceedings of International

Conference on Advances in Social Networks Analysis and

Mining (ASONAM), pp. 111–118, 2012.

[14] K. Watanabe, M. Ochi, M. Okabe and R. Onai, “Jasmine:

A Real-tme Local-event Detection System based on Geolo-

cation Information Propagated to Microblogs,” Proceed-

ings of ACM International Conference on Information and

Knowledge Management(CIKM), pp. 2541-2544, 2011.

[15] 伊藤正彦, 吉永直樹, 豊田正志, “マイクロブログストリーム中の位置参照表現に着目した実世界イベントの時空間可視化,”

Proceedings of DEIM Forum, F1-4, 5 pages, 2016.