7
DEIM Forum 2015 F6-3 ジオタグ付き写真の撮影者を在住者と観光者に分類することによる ホットスポットの発見 櫻川 直洋 廣田 雅春 †† 石川 ††† 横山 昌平 †††† 静岡大学情報学部 432–8011 静岡県浜松市中区城北 3-5-1 †† 首都大学東京システムデザイン研究科 191–0065 東京都日野市旭が丘 6-6 ††† 首都大学東京システムデザイン学部情報通信システムコース 191–0065 東京都日野市旭が丘 6-6 †††† 静岡大学大学院情報学研究科 432–8011 静岡県浜松市中区城北 3-5-1 E-mail: [email protected], ††[email protected], †††[email protected], ††††[email protected] あらまし 本研究では,写真の撮影者をその地域の在住者 (地域に詳しい人) と観光者 (地域に詳しくない人) に分類し, ホットスポット (写真の多く撮影される地域) の発見を行う手法を提案する.撮影された写真を一様に扱い,ホットス ポットの発見を行う場合,観光に来た撮影者の割合の多い観光地において,有名な観光スポットが発見される.しか し,観光に来た人の中には地域に住む人の関心や生活を知りたいというニーズが存在する.一方,地域に住む人がシ ステムを利用した際,新しいスポットを知ることができない.そこで,撮影者の分類ごとにホットスポットを発見し, それぞれから関心を持たれている地域を発見することが重要である.提案手法では,撮影された写真のジオタグと撮 影時刻から,撮影者を在住者と観光者に分類し,それぞれの撮影者の写真のジオタグに基づき,ホットスポットの発 見を行う.また,発見されたホットスポットはどのような撮影者から関心を持たれているかという情報を付与する. キーワード ユーザ分類,関心領域,Flickr 1. はじめに 近年,デジタルカメラや,スマートフォンの普及により,人々 は,日常生活や,観光などにおいて,気軽に写真を撮影するこ とができるようになった.それらの写真には,機器に付与され ているGPS機能によって,写真を撮影した地点の緯度経度情 報などが付与されている. また,撮影した写真を Flickr (注1Panoramio (注2などのソーシャルメディアサイトで共有する撮 影者が増加している.人々が多くの写真を撮影した地域には, 多くの人々が興味・関心のある領域が含まれていると考えられ る.このような興味・関心のある領域を分析し,観光産業への 応用,写真を撮影した人々の行動を分析する研究が行われてい [1] [2]本研究において,多量の写真が撮影された地域をホットス ポットと定義する.ホットスポットには,多くの人々が興味・ 関心のある領域が含まれていると考えられる.また,ある地域 に詳しいと考えられる人を,その地域の在住者と定義し,ある 地域に観光に来ていると考えられる人を,その地域の観光者と 定義する.ある観光地には,観光スポットの他に在住者にとっ て関心のあるスポットがあると考えられる.そのため,観光地 の在住者は日常的に観光スポット以外の関心のあるスポットを 訪れると考えられる.しかし,既存研究では,在住者と観光者 を一様に扱いホットスポットの抽出を行うため,観光地におい (注1):http://www.flickr.com/ (注2):http://www.panoramio.com/ て,有名な観光スポットのみがホットスポットとして抽出され てしまう.この原因として,観光地には,多くの観光者が訪れ, 観光スポットで多くの写真を撮影する.そのため,観光者の数 や観光者の撮影した写真は,ソーシャルメディア上で急増する. それに対して観光地の在住者の数は,大きく変化しない.その ため,観光者によってソーシャルメディアにアップロードされ る写真数に比べ,在住者の写真は少ない.そのため,写真の撮 影者を一様に扱い,ホットスポットの発見を行った場合,観光 者の写真ばかりが結果に反映されてしまい,在住者の写真が結 果に反映されづらいため,有名な観光スポットのみが発見され てしまう. 1 に既存手法で多く用いられる DBSCAN を用いて,撮影 者を考慮せず,ホットスポットを抽出した図を示す.実際に発 見されたホットスポットは有名な観光スポットばかりである. そのため,撮影者を考慮しなければ,在住者のみが知るような スポットを抽出することは困難である. 観光者の中には,観光地の在住者の文化や生活を知りたいと いうニーズが存在する.複数にわたって,同じ観光地に来る観 光者や,長期間の滞在を行う観光者は,観光スポットのみでは なく,地域の在住者に人気の飲食店や,娯楽施設など,地域の 在住者が普段から利用するようなスポットを知りたいと考える. 一方,在住者は今まで知らなかった興味深いスポットを知りた いというニーズも存在する.そのため,在住者のみが知る興味 深いスポットの発見を行うことは重要である.そこで,本研究 では,写真の撮影者を地域の在住者と観光者に分類することに より,有名な観光地と共に,観光地の在住者のみが知るような

ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

DEIM Forum 2015 F6-3

ジオタグ付き写真の撮影者を在住者と観光者に分類することによるホットスポットの発見

櫻川 直洋† 廣田 雅春 †† 石川 博 ††† 横山 昌平 ††††

† 静岡大学情報学部 〒 432–8011 静岡県浜松市中区城北 3-5-1

†† 首都大学東京システムデザイン研究科 〒 191–0065 東京都日野市旭が丘 6-6

††† 首都大学東京システムデザイン学部情報通信システムコース 〒 191–0065 東京都日野市旭が丘 6-6

†††† 静岡大学大学院情報学研究科 〒 432–8011 静岡県浜松市中区城北 3-5-1

E-mail: †[email protected], ††[email protected], †††[email protected],

††††[email protected]

あらまし 本研究では,写真の撮影者をその地域の在住者 (地域に詳しい人)と観光者 (地域に詳しくない人)に分類し,

ホットスポット (写真の多く撮影される地域)の発見を行う手法を提案する.撮影された写真を一様に扱い,ホットス

ポットの発見を行う場合,観光に来た撮影者の割合の多い観光地において,有名な観光スポットが発見される.しか

し,観光に来た人の中には地域に住む人の関心や生活を知りたいというニーズが存在する.一方,地域に住む人がシ

ステムを利用した際,新しいスポットを知ることができない.そこで,撮影者の分類ごとにホットスポットを発見し,

それぞれから関心を持たれている地域を発見することが重要である.提案手法では,撮影された写真のジオタグと撮

影時刻から,撮影者を在住者と観光者に分類し,それぞれの撮影者の写真のジオタグに基づき,ホットスポットの発

見を行う.また,発見されたホットスポットはどのような撮影者から関心を持たれているかという情報を付与する.

キーワード ユーザ分類,関心領域,Flickr

1. は じ め に

近年,デジタルカメラや,スマートフォンの普及により,人々

は,日常生活や,観光などにおいて,気軽に写真を撮影するこ

とができるようになった.それらの写真には,機器に付与され

ているGPS機能によって,写真を撮影した地点の緯度経度情

報などが付与されている. また,撮影した写真を Flickr(注1)や

Panoramio(注2)などのソーシャルメディアサイトで共有する撮

影者が増加している.人々が多くの写真を撮影した地域には,

多くの人々が興味・関心のある領域が含まれていると考えられ

る.このような興味・関心のある領域を分析し,観光産業への

応用,写真を撮影した人々の行動を分析する研究が行われてい

る [1] [2].

本研究において,多量の写真が撮影された地域をホットス

ポットと定義する.ホットスポットには,多くの人々が興味・

関心のある領域が含まれていると考えられる.また,ある地域

に詳しいと考えられる人を,その地域の在住者と定義し,ある

地域に観光に来ていると考えられる人を,その地域の観光者と

定義する.ある観光地には,観光スポットの他に在住者にとっ

て関心のあるスポットがあると考えられる.そのため,観光地

の在住者は日常的に観光スポット以外の関心のあるスポットを

訪れると考えられる.しかし,既存研究では,在住者と観光者

を一様に扱いホットスポットの抽出を行うため,観光地におい

(注1):http://www.flickr.com/

(注2):http://www.panoramio.com/

て,有名な観光スポットのみがホットスポットとして抽出され

てしまう.この原因として,観光地には,多くの観光者が訪れ,

観光スポットで多くの写真を撮影する.そのため,観光者の数

や観光者の撮影した写真は,ソーシャルメディア上で急増する.

それに対して観光地の在住者の数は,大きく変化しない.その

ため,観光者によってソーシャルメディアにアップロードされ

る写真数に比べ,在住者の写真は少ない.そのため,写真の撮

影者を一様に扱い,ホットスポットの発見を行った場合,観光

者の写真ばかりが結果に反映されてしまい,在住者の写真が結

果に反映されづらいため,有名な観光スポットのみが発見され

てしまう.

図 1に既存手法で多く用いられる DBSCANを用いて,撮影

者を考慮せず,ホットスポットを抽出した図を示す.実際に発

見されたホットスポットは有名な観光スポットばかりである.

そのため,撮影者を考慮しなければ,在住者のみが知るような

スポットを抽出することは困難である.

観光者の中には,観光地の在住者の文化や生活を知りたいと

いうニーズが存在する.複数にわたって,同じ観光地に来る観

光者や,長期間の滞在を行う観光者は,観光スポットのみでは

なく,地域の在住者に人気の飲食店や,娯楽施設など,地域の

在住者が普段から利用するようなスポットを知りたいと考える.

一方,在住者は今まで知らなかった興味深いスポットを知りた

いというニーズも存在する.そのため,在住者のみが知る興味

深いスポットの発見を行うことは重要である.そこで,本研究

では,写真の撮影者を地域の在住者と観光者に分類することに

より,有名な観光地と共に,観光地の在住者のみが知るような

Page 2: ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

図 1 観光地におけるホットスポットの分布

スポットの発見を目指す.

本研究では,有名な観光スポットの発見と共に在住者のみが

知るスポットの発見を行うために,写真に付与されたジオタグ

情報,撮影時刻,撮影された写真の枚数を用い,写真の撮影者

を地域の在住者と観光者に分類する手法を提案する.それぞれ

の手法について,撮影者の分類の精度を算出する.また,分類

された撮影者ごとにホットスポットの発見を行い,分類された

撮影者ごとに発見されたホットスポットの特徴を検証する.

本論文の構成は次のとおりである.2章では,本研究と関連

研究の差分について述べる.3章では,提案手法の概要につい

て述べる.4章では,提案手法の精度と得られたホットスポッ

トの例を示す.5章では,本研究で得られた成果のまとめにつ

いて述べる.

2. 関 連 研 究

ジオタグ付き写真から写真が撮影された地域の情報を抽出,

可視化する研究がいくつか挙げられる.Yin ら [3]は,地理的

特徴を抽出する地域をグリッドに分け,写真に付与されている

ジオタグ情報とテキストタグを用いて,セル内の地理的特徴を

抽出し可視化をしている.Lamprianidis ら [4]は,地理的特徴

を抽出する地域をグリッドに分け,セル内の写真のジオタグ情

報を用いて,密度ベースのクラスタリングを行い,セル内で写

真が多く撮影されている地点を抽出し,可視化をすることで,

ユーザにとって人気のスポットを抽出している.これら2つの

研究は,ユーザにとって人気のあるスポットを抽出することは

できるが,ユーザ情報を考慮したスポットの抽出はすることが

できない.本研究では,ユーザ情報を分類し,それぞれ人気の

あるスポットを抽出し,可視化をする.

ソーシャルメディアのユーザの分類を行う研究として,田原

らの研究 [5] がある.田原らは Twitter(注3)のユーザの中から

ある地域に在住するユーザの分類を行った.語の出現頻度,語

を発信するユーザの数,地域の周辺とその他の地域の差異を考

慮して抽出した特徴語と,その特徴語を抽出した指標である地

(注3):http://twitter.com

図 2 提案手法の流れ

域度を用いて検索する手法を提案している.しかし,Twitter

にジオタグ情報を付与することは可能であるが,その利用率は

2012年の時点で 0.77%と非常に低いため(注4),ホットスポッ

トの発見を行うことは困難である.本研究では,ジオタグ情報

の収集が容易である,写真共有サイトの Flickrのユーザを対象

にユーザの分類を行う.

Eric [7]は Flikcrのユーザを,観光者と撮影者に分類し,そ

れぞれの撮影者の写真の撮影位置を地図上にプロットすること

で,撮影者毎の特徴を可視化した.しかし,写真の撮影位置を

地図上にプロットしただけであるため,どの地域が特に関心を

持たれているか,その地域で何が関心を持たれているのかと

いった情報を得ることができない.そこで,本研究では,ホッ

トスポットとして可視化させることで,具体的に関心の持たれ

ているスポットの位置を示すと共に,どのようなものが関心を

持たれているかという情報を可視化させる.

3. 提 案 手 法

本研究では,ソーシャルメディアサイトにアップロードされ

たジオタグ情報付き写真を用いて,写真の撮影者を地域の在

住者と観光者に分類し,有名な観光スポット情報と共に地域在

住者のみが知る情報の発見を行う.提案した手法によって分類

された撮影者ごとに,関心を持たれているスポットを可視化を

行う.

図 2に提案手法の流れを示す.はじめに,観光地の指定を行

う.観光地の指定は緯度経度で範囲の指定を行う.指定された

観光地内の写真の撮影者を取得する.取得した撮影者が,これ

までに撮影したすべての写真を収集する.取得したすべての撮

影者に対して,撮影者の写真の枚数,ジオタグ情報,撮影時刻

を用いて,撮影者を観光者と在住者に分類する.地域に詳しい

と考えられる撮影者を在住者,地域に観光に来ていると考えら

(注4):http://semiocast.com/

Page 3: ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

れる撮影者を観光者と定義する.最後に分類された撮影者毎に

ホットスポットの発見を行う.

3. 1 Photo Collectionの抽出

撮影者の分類,ホットスポット発見のための写真,写真に付与

されているジオタグ情報,撮影時刻を管理するデータベースを

作成する.本研究では,写真に付与されたジオタグ情報として,

写真の撮影位置情報 (Exif の GPSLatitude,GPSLongitude)

を用いる.Flickr API を用いて,ジオタグ情報が付与されて

いる写真とそのジオタグ情報,写真の撮影時刻情報 (Exif の

DateTimeOriginal),および写真の撮影者情報を Flickrから取

得する.

写真の収集の流れとして,FlickrAPIを用いて,観光地の緯

度経度の範囲を指定し,範囲内で写真を撮影した撮影者を抽出

する.抽出された撮影者が今までにアップロードしたすべての

写真を収集し,データベースに格納する.ここで,撮影者ごと

に今までにアップロードした全ての写真を時系列でソートした

ものを Photo Collectionと定義する.

Photo Collectionの中には,写真を数枚のみ撮影した Photo

Collectionが存在する.この Photo Collectionは観光の際に撮

影した写真のみが含まれている場合が存在する.このような撮

影者の Photo Collectionは正確に分類することができない.そ

のため,ノイズとして処理を行う.本論文では,ノイズ処理の

閾値として,Photo Collectionの総数が 30枚以下かつ,撮影

位置が観光地のみの撮影者の写真はノイズとして除去した.

3. 2 撮影者の分類

本研究では,写真に付与されたジオタグ情報,撮影時刻,P

hoto Collection の総数を用い,撮影者を在住者と観光者に分

類する手法を提案する.ある地域でよく写真を撮影する撮影者

はその地域の在住者であると考えられる.本研究では,指定し

た地域でよく写真を撮影する撮影者の分類を行うため,Photo

Collectionの枚数,地域内の写真の頻度,地域の滞在時間の 3

つの情報を用いた.

3. 2. 1 撮影位置の割合に基づいた分類

写真の撮影位置を用いて撮影者の分類を行う.ソーシャルメ

ディアを利用するユーザが日常的に写真をアップロードすると

仮定した場合,在住する地域で撮影した写真は,観光の際に撮

影した写真より多くなると考えられる.そのため,撮影者の

Photo Collectionは,観光の際に撮影した写真より,在住して

いる地域で撮影した写真の割合が多くなると考えられる.これ

に基づき,Photo Collectionの中で指定した地域で撮影された

写真の割合が小さい場合,観光者と分類し,指定した地域で撮

影された写真の割合が大きい場合,在住者と分類する.

図 3(a)に,ある撮影者の Photo Collectionを示す.撮影者

A は Photo Collection の中に地域内の写真数が少ない.その

ため,観光者と分類する.それに対して,撮影者 Bは,Photo

Collectionの中に地域内の写真が多数存在する.そのため,撮

影者 Bを在住者と分類する.

3. 2. 2 地域内の写真の頻度に基づいた分類

写真の撮影時刻に基づいて,指定した地域内で撮影された写

真の頻度を算出することにより,撮影者の分類を行う.観光者

は観光の際,短期間に多くの写真を撮影すると仮定すると,観

光地の写真数が急増すると考えらえれる.一方,在住者は,写

真を定期的に撮影することができると考えられる.

期間を指定し,Photo Collectionを指定した期間ごとに区切

る.区切られた Photo Collection の数と指定した地域の写真

の数から期間ごとの平均写真枚数を得る.区切られた期間ごと

に撮影された指定した地域の写真の枚数を取得し,最も写真の

枚数が多い期間を抽出する.最も写真が撮影された期間の写真

数と,期間ごとの平均写真数を比較することで,写真が急増し

ているか検出する.指定した地域内の写真の枚数が急増した場

合,観光者と分類し,指定した地域内で撮影された写真の頻度

が急増しない場合,在住者と分類する.

図 3(b)にある撮影者の Photo Collectionを示す.撮影者 A

は,多くの期間で,指定した地域内の写真を撮影しておらず,1

つの期間にまとめて指定した地域内の写真を撮影している.こ

のため,期間ごとの平均写真枚数と,最も指定した地域内の写

真数に大きな差ができる.そのため,撮影者 Aを観光者と分類

する.それに対して,撮影者 Bは,多くの期間で,地域内の写

真を撮影しているため,期間ごとの平均写真数と,最も指定し

た地域内の写真数の差が小さくなる.そのため,撮影者 Bを在

住者と分類する

3. 2. 3 地域滞在時間に基づいた分類

写真の撮影時刻に基づいて,指定した地域に滞在している時

間を算出することで,撮影者の分類を行う.Photo Collection

の中で,指定した地域内で撮影された写真が連続した際,その

撮影時刻の差を抽出する.Photo Collection中,指定した地域

内で撮影された写真が連続する全ての写真に対して処理を行い,

撮影時刻の差の総和を得る.

撮影時刻の差の総和は,指定した地域の滞在時間と考えられ

る.人々は観光の際,限られた時間で写真を撮影するのに対し,

在住者は長い期間で写真を撮影することが可能である.これよ

り,指定した地域の滞在時間が短い撮影者を観光者,滞在時間

が長い撮影者を在住者と分類する.

図 3(c)にある撮影者の Photo Collectionを示す.撮影者 A

は,指定した地域内の写真が連続した際の撮影時刻の差の総和

は非常に短い.そのため,撮影者 Aを観光者と分類する.それ

に対して,撮影者 B は,指定した地域内の写真が連続した際

の,撮影時刻の差の総和が大きい.そのため,撮影者 Bを在住

者と分類する

3. 3 ホットスポットの発見

分類された撮影者が,どのような地域に関心を持っている

かを可視化するため,分類された撮影者毎の写真の撮影位置

に基づいてホットスポットの発見を行う.写真が多く撮影さ

れる地域は人々にとって関心のある地域であると考えられる

ため,写真の密度の高い地域を推定するため,密度ベースの

クラスタリング手法である DBSCAN(Density-Based Spatial

Clustering) [6]を用いてホットスポットの発見を行う.クラス

タ間の距離の閾値 Epsとデータ数の閾値 Numに基づいて,以

下の接続関係で到達できる集合であり,集合の中でも極大なも

のをクラスタとして抽出する.

Page 4: ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

(a) 撮影位置の割合に基づいた分類             (b) 地域内の写真の頻度に基づいた分類            (c) 地域滞在時間に基づいた分類

図 3 特徴的な Photo Collection の例

xp∈ NEps(xp) (1)

|NEps(xp)≧ Num| (2)

ただし, NEps(xp) = xp∈ X||Dist(xp, xq) < Eps である.

2点間の距離Dist(xp, xq)はヒュベニの公式を用い,算出する.

Dist(xp, xq) = ((M ∗ dP ) ∗ (M ∗ dP ) +

(N ∗ cos(P ) ∗ dR) ∗ (N ∗ cos(P ) ∗ dR))2 (3)

このとき,Pは 2点間の平均緯度,dPは 2点間の緯度差,dR

は 2 点間の経度差,M は午線曲率半径を表す.DBSCAN に

よって抽出されたクラスタがそれぞれホットスポットである.

4. 実 験

4. 1 撮影者分類

本研究で提案した撮影者の分類手法を評価する実験を行った.

本章の実験では,提案手法により分類した撮影者の精度を評価

することを目的とする.今回,撮影位置の割合に基づいた分類

では,指定した地域内の写真枚数が Photo Collection の割合

の閾値を変化させる地域滞在時間に基づいた分類では,滞在時

間を変化させ分類を行う.地域内の写真の頻度に基づく分類で

は,期間を 2週間ごとに区切り,最も指定した地域の写真が多

い期間の写真数と平均の差の閾値を変化させ,分類を行う.地

域滞在時間に基いた分類では,滞在時間を変化させ,実験を行

う.これらの実験を行うことで,各手法の適切なパラメータを

得るとともに,最も撮影者の分類に適した手法を選出する.

4. 2 実 験 方 法

撮影者の分類を行うためのデータセットとしてローマ内を指

定し,写真の収集を行った.また,正解データとして無作為に

選んだ撮影者 1000人の撮影した写真の総数 184,971枚を用い

て,人手で分類を行った.人手による撮影者の分類は,撮影者の

Photo Collectionを閲覧し,写真の撮影位置と写真に撮影され

た内容から撮影者の分類を行った.提案した手法の結果につい

て正解データと比較して適合率 (Precision),再現率 (Recall),

F値を計算し,評価指標とした.ただし,F値は以下の式で計

算を行う.

F =2 ∗Recall ∗ Precision

(Recall + Precision)(4)

表 1 正解データの撮影者数と写真数

撮影者 撮影者数 枚数

観光者 786 126,482

在住者 232 58,481

4. 3 実 験 結 果

正解データによる観光者と在住者の人数と提案した手法の分

類結果を表 1に示す.

表 1よりローマ内の写真の撮影者の多くは,観光者であるこ

とが分かる.そのため,すべての撮影者の中から在住者を分類

することが重要である.

表 2 に,分類のための閾値を変更した結果を示す.ここで,

分類手法の枚数,滞在時間,頻度はそれぞれ,撮影位置の割合

に基づいた分類,地域滞在時間に基づいた分類,地域内の写真

の頻度に基づく分類を示す.

表 2より,撮影位置の割合に基づいた分類では,Photo Col-

lectionのうち 5割以上が観光地内の写真の撮影者を在住者と分

類する結果が最も良い結果となった.撮影位置の割合に基づい

た分類では,期間ごとの平均と,最も地域内の写真の多い期間

の差が 2倍以内の場合,在住者と分類する結果が最も良い結果

となった.地域滞在時間に基づいた分類では,滞在時間が 14日

以上の撮影者を在住者と分類する結果が最も良い結果となった.

表 3に,各手法で最も良いパラメータの結果をまとめたもの

を示す.表 3より観光地内の写真の頻度に基づく分類では,観

光者と在住者の両方の結果が非常に低いことが分かる.これは,

撮影した写真の中からうまく撮影を行えたもののみをアップ

ロードする撮影者が存在することが挙げられる.写真の選別を

行うため,観光の際に撮影された写真の枚数が少なくなってし

まう.また,数回にわたって観光に来た撮影者も存在する.こ

の撮影者は,複数にわたって写真をアップロードする.これら

の撮影者は,頻度に大きな差が生じないため,正確に分類する

ことができなかったと考えられる.

地域滞在時間に基づいた分類では,観光者と在住者の結果が

他の手法に比べて良い値を得ることができた.これは写真の枚

Page 5: ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

表 2 再現率,適合率,F 値

分類手法 パラメータ 撮影者の分類 再現率 適合率 F 値

枚数 4 割 観光者 0.474 0.914 0.624

在住者 0.617 0.584 0.692

5 割 観光者 0.568 0.895 0.695

在住者 0.613 0.875 0.701

6 割 観光者 0.698 0.861 0.771

在住者 0.595 0.906 0.698

頻度 1.5 倍 観光者 0.301 0.540 0.364

在住者 0.351 0.174 0.235

2 倍 観光者 0.284 0.549 0.374

在住者 0.349 0.181 0.238

2.5 倍 観光者 0.272 0.550 0.368

在住者 0.345 0.562 0.229

滞在時間 12 日 観光者 0.884 0.918 0.889

在住者 0.758 0.630 0.708

14 日 観光者 0.909 0.939 0.924

在住者 0.754 0.683 0.717

16 日 観光者 0.912 0.915 0.906

在住者 0.719 0.680 0.694

数が少ない撮影者であっても,日常的に在住している地域の写

真が連続するため,在住者だと分類でき,観光の際に撮影した

写真は短い期間に撮影するため,観光者として分類できたと考

えられる.このため,ホットスポットの発見のための分類手法

は,地域滞在時間に基づいた分類を用いる.

4. 4 検 証 実 験

ローマで撮影者の分類を行った結果,地域滞在時間に基づい

た分類が最も良い精度で分類を行うことができることが分かっ

た.ここで,本実験で得られた分類のためのパラメータは他の

観光地において利用することができるか,または,観光地ごと

にパラメータを決める必要があるかの検証を行う.新しく観光

地として,パリとニューヨークを指定し,最も結果の良かった,

地域滞在時間に基づいた分類の適切なパラメータを検証する.

正解データとして,無作為に選んだ 500人ずつの撮影者を人

手で分類を行った.人手による撮影者の分類は撮影者の Photo

Collectionを閲覧し,写真の撮影位置と写真に撮影された内容

から撮影者の分類を行った.パリとニューヨークの撮影者にパ

ラメータを変化させながら,地域座滞在時間に基づく分類に

よって分類した結果を表 4 に示す.表 4 より,分類の精度は,

ローマとパリでは,パラメータを 14日に設定した場合の結果

が最も高く,ニューヨークではパラメータを 16日に設定した

場合が最も高いことが分かる.どの観光地も 14日前後で最も

高い精度で分類を行うことができるため,パラメータは観光地

ごとに存在するのではなく,一律して 14日前後をパラメータ

に設定し分類を行うことで,高い精度での分類を行うことがで

きることが分かった.

4. 5 可視化結果

観光地滞在時間に基づく分類の結果に対して,観光者と在

住者のそれぞれの写真に DBSCANを適用することによって発

見されたホットスポットの分布を図 4に示す.DBSCANのパ

ラメータとして Eps = 0.00015,Num = 25 に設定した.図

表 3 閾値を変更した際の分類結果

地域 滞在時間 撮影者の分類 再現率 適合率 F 値

パリ 12 日 観光者 0.893 0.917 0.905

在住者 0.658 0.715 0.685

14 日 観光者 0.927 0.928 0.924

在住者 0.754 0.741 0.747

16 日 観光者 0.914 0.900 0.906

在住者 0.681 0.646 0.663

ニューヨーク 12 日 観光者 0.894 0.916 0.905

在住者 0.682 0.733 0.706

14 日 観光者 0.907 0.906 0.906

在住者 0.714 0.708 0.711

16 日 観光者 0.928 0.880 0.903

在住者 0.757 0.625 0.684

4のマーカーは,発見されたホットスポット内の写真の位置を

示している.また,色の違うマーカーは,それぞれ別のホット

スポットである.ローマの中央部分は,コロッセオやテルミニ

駅といった有名な観光スポットが集中している地域である.図

4より,観光者と分類された撮影者は,観光地が集中している

ローマ中心に多くのホットスポットが存在し,在住者と分類さ

れた撮影者のホットスポットは,ローマ中心のみでなく,ロー

マ内の様々な地域に存在することが分かる.

また,観光者と在住者のそれぞれで発見されたホットスポッ

トで特徴的なものを図 5 に示す.図 5(a) より,観光者の撮影

した写真は,ローマ中心に集中するため,1つのホットスポッ

トが大きな塊として発見された.観光者で発見されたホットス

ポットは有名な観光スポットで記念撮影をする写真が発見され

た.これは,観光者は,移動手段,滞在時間,目的の場所が限

定されるため,同じような場所で写真を撮影するためであると

考えられる.

図 5(b) より,在住者のホットスポットは,写真の観光者の

ホットスポットと比較して,ホットスポットが分割されている.

コロッセオの例を上げると,ホットスポットがコロッセオの内

部,コロッセオ外部というようにスポットが意味のある分割と

なっている.これは観光者では,写真の枚数が多すぎるため,こ

のような分割にはならなかったと考えられる.今後 DBSCAN

の適切なパラメータを設定する必要があると考えられる.また,

図 5(c)より,在住者のホットスポットは郊外では,飲食店の写

真,ライブなどのイベントの際に撮影された写真,観光者では

発見されなかったような観光スポットなどが発見された.これ

は,在住者は,有名な観光地の他に,興味・関心を持つスポッ

トが存在するため,そのような場所でも写真を撮影するためで

あると考えられる.

図 5(b)の黄色のマーカーで示されたホットスポットは,観光

スポットが集中する地域において,観光者のホットスポットで

は発見されなかったが,在住者のホットスポットでは発見され

たスポットである.このホットスポットには,軍の行進や,大

道芸といった,ある時間のみで写真を撮影することができるよ

うな観光スポットが存在した.

Page 6: ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

(a) 観光者のホットスポットの分布          (b) 在住者のホットスポットの分布         

図 4 分類された撮影者ごとのホットスポットの分布

5. お わ り に

本研究では,ソーシャルメディア上にアップロードされた写

真のジオタグ情報と撮影時刻に基づいて写真の撮影者を分類

する手法を提案した.撮影位置の割合に基づいた分類,地域滞

在時間に基づいた分類,地域内の写真の頻度に基づく分類の

3つの手法を提案し,再現率,適合率,F値を用いての評価を

行った.

分類の結果として写真の枚数が少ない場合でも,撮影者の分

類を行うことができるため,観光地の滞在時間に基づく分類が

最も高い精度で分類することができることが分かった.地域滞

在時間に基づいた分類のパラメータとして,滞在時間の閾値が

存在するが,14日を閾値にすることで,最も高い精度で分類を

行うことができることが分かった.さらに,分類のパラメータ

は観光地ごとに設定するのではなく,一律して 14日間で分類

を行うことができる.

また,分類された撮影者ごとにホットスポットを可視化した.

観光者の写真は観光スポットが集中する地域に集中しており,

在住者の写真は広い地域で撮影されていることが分かった.観

光者の撮影した写真から発見された特徴的なホットスポットは,

有名な観光地であるのに対し,在住者の撮影した写真から発見

されたホットスポットは,有名な観光スポットの他,飲食店で

の写真や,イベントの写真など多様なホットスポットを発見す

ることができた.

今後の方針として,発見されたホットスポットの分類を行う

予定である.ホットスポット内に含まれている写真に付与され

たテキストタグや画像解析を行うことで,ホットスポットの分

類(食事,イベント)情報の可視化を目指す.また,発見され

るホットスポットに関心を持つ撮影者に応じてホットスポット

を分類していきたいと考えている.観光者のみに関心を持たれ

るスポット,在住者のみに関心を持たれるスポット,すべての

撮影者に関心を持たれるスポットの 3つに分類し,システムを

利用するユーザに可視化したいと考えている.

今後の課題として,ノイズ処理の閾値を変化させ,実験を行

うことで,適切なノイズ処理の閾値の決定が挙げられる.また,

写真が密集して撮影された地域を求めるために,DBSCANを

用いた.そのため,発見されるホットスポットは DBSCANの

パラメータに依存する.また,観光者の写真数は,在住者の写

真数より多いため,撮影者毎に DBSCANのパラメータを設定

する必要がある.また,観光スポットが一か所に集中している

観光地や,観光スポット同士が離れている観光地など,地域に

応じたホットスポットの発見に適切なパラメータの決定方法が

挙げられる.

文 献[1] 王佳な,野田雅文, 高橋友和,出口大輔, 井手一郎, 村瀬 洋,“Web 上の大量の写真に対する画像分類による観光マップの作成”,情報処理学会,2011

[2] DmiDmitry Laptev, Alexey Tikhonov, Pavel Serdyukov,

Gleb Gusev ,“ Parameter-Free Discovery and Recommen-

dation of Areas-of-Interest”,22th ACM SIGSPATIAL In-

ternational Conference on Advances in Geographic Informa-

tion Systems, 2014

[3] Zhijun Yin,Liangliang Vao,Jiwei Han,Chengxiang Zhai,Thomas Huang,“Geographical Topic Discovery and Com-

parison”, 20st International WWW Conference, 2011

[4] George Lamprianidis,Dieter Pfoser,“Collaborative Geospa-

tial Feature Search”,20th ACM SIGSPATIAL Interna-

tional Conference on Advances in Geographic Information

Systems,2012  [5] 田原琢士,馬強,“Twitter から有益な日常情報を発見するため

の特徴語による地域ユーザの検索”,第6回データ工学と情報マネジメントに関するフォーラム,2014

[6] M. Ester,H. P. Kriegel, J. Sander and X. Xu,“A Density-

Based Alogorithm for Descovering Clusters in Large Spatial

Databases with Noise”,The Second Int’l. Conf. on knowl-

edge Discovery and Data Mining,1996

[7] “Eric Fischer”,https://www.flickr.com/photos/walkingsf/

Page 7: ジオタグ付き写真の撮影者を在住者と観光者に分類することによ …db-event.jpn.org/deim2015/paper/216.pdf · Eric[7] はFlikcr のユーザを,観光者と撮影者に分類し,そ

(a) 観光者のホットスポット (b) 在住者のホットスポット 1

(c) 在住者のホットスポット 2

図 5 撮影者ごとの特徴的なホットスポット