1
ファクトチェックのための要検証記事探索の支援 内山香,鈴木海渡,田上翼,塙一昇(東北大学),乾健太郎(東北大学/理化学研究所AIPセンター ) 小宮篤史,藤村厚夫(スマートニュース株式会社),楊井人文,山下亮(一般社団法人日本報道検証機構),町野明徳 研究の概要 端緒情報 判定 検証必要度 ランク付け 記事タイトル: ふるさと納税で… 記事URL: http://www.xxx 検証必要度スコア: スコアとツイート内容: 完全な誤報です! 大げさで… 日本って… 「誤報」等の単語 でフィルタリング 必要 記事毎に まとめる 記事タイトル: ふるさと納税で… 記事URL: http://www.xxx スコアとツイート内容: 完全な誤報です! 大げさで怪しい 日本って… 記事タイトル: 訃報 ◯◯◯◯死去 記事URL: http://www.xxx スコアとツイート内容: え!?嘘やん! 嘘であって… 嘘やん。… 上位から 人手で検証 検証した結果を 訓練事例に追加 記事タイトル: 訃報 ◯◯◯◯死去 記事URL: http://www.xxx 検証必要度スコア: スコアとツイート内容: え!?嘘やん! 嘘であって… 嘘やん。… 不要 検証必要度:低 検証必要度:高 フェイクニュースや誤情報の拡散が社会問題化 日本報道検証機構ではファクトチェックを必要とするニュース記事(以下、 要検証記事)を探索する際に、手がかりとしてSNSでの記事の誤りの指摘 や内容に疑義を呈している投稿(以下、端緒情報)を利用 機械学習を用いて端緒情報を効率的に収集し、要検証記事を提示す ることでファクトチェッカーを支援する仕組みの構築 目的 データセットの作成 ツイート単位のデータセット ニュース記事に対してつぶやかれた「誤報」や「デ マ」などの単語を含むツイートを収集し、各ツイート 端緒情報であるかを人手でラベル付けしたデータ 指摘の対象となるニュース記事のURL を本文に含んでいるツイート ニュース記事を周知するツイート(以 下、ニュースツイート)に対する返信 ◯◯ニュース @news http://◯◯◯◯◯.com/◯◯◯◯◯ A議員「選挙のためならどんな手でも 使う」 USER_4 @user_4 @news え、こんなこと言ってなかったよ! 編集で捏造してる!! ◯◯ニュース @news http://◯◯◯◯◯.com/◯◯◯◯◯ A議員「選挙のためならどんな手でも 使う」 user_5さんがリツイート USER_5 @user_5 え、こんなこと言ってなかったよ! 編集で捏造してる!! ニュースツイートをリツイートした後 の240秒以内のツイート USER_3 @user_3 http://◯◯◯◯◯.com/◯◯◯◯◯ ◯◯は縮小といってる。他紙と違って 不可解ですが両方裏付けしてるのか? ツイート間の時間ごとのリツイートと その直後のツイートの関係の有無 ニュース記事単位のデータセット ・正例:1,036 ツイート ・負例:6,739 ツイート 各ニュース記事に対するツイート集合の内に1つ以上 端緒情報であるツイートを含む記事を要検証記事と 定義し、各ニュース記事が要検証記事であるかを人手 でラベル付けしたデータ ・正例:564 記事 ・負例:1,271 記事 実験 手法:LSTMによる2値分類 P(y|w & …w ( ) 完全 誤報 です Embedding Layer softmax LSTM 実験①:端緒情報分類 各ツイートが端緒情報であるかを分類 訓練:6,220ツイート 評価:1,555ツイート Precision Recall F1 0.62 0.55 0.59 実験②:要検証記事分類 USER_1 @user_1 http://◯◯◯◯◯.com/◯◯◯◯◯ ◯◯党は政党要件を満たさないとデマ が流れているが、しょうもない誤報USER_2 @user_2 http://◯◯◯◯◯.com/◯◯◯◯◯ このキャップ投げナックルの動画一生 見てられる(大実験①で訓練した分類器を用いて、各ニュース記事が要検 証記事であるかを分類 Precision Recall F1 0.64 0.75 0.69 確率上位半分のニュース記事をチェック すれば要検証記事の8割以上を獲得可能 分類器を用いることで効率的なファクト チェックの支援を期待できることを確認 支援システム まとめと展望 記事データ l 検証必要度スコアの 高いニュース記事か らユーザに提示 l 検証必要度スコアは 端緒情報確率1位の 値を利用 l ニュース記事のタイ トルと概要を表示 言及ツイート l 端緒情報確率の高い ツイートの内容から ユーザに提示 l モデルには記事タイ トルやURL、ハッ シュタグを削除した ツイート本文を入力 l 一般ユーザからのSNSでの投稿という集合知を利用したファク トチェックを支援するための仕組みを提案した l 記事の検証必要度スコアに対して、言及ツイート数よる話題性 や政治的な内容を含むかを加味するなど指標を再考する l ニュース記事を読みながら誤りを指摘するツイートを表示する Chrome拡張機能などの検討する しかしながら、投稿を「誤報」や「嘘」などの特定のフレーズを含んでい るかで単純にフィルタリングするだけでは、ファクトチェックに役立たな い投稿が収集されるうちの大半を占めてしまっている 完全 { 0.34, 0.67, 0.11, ・・・ } 分散表現 リツイート後の 240秒以降では ツイートの半分 以上が関係なし 1:URLを含むツイート 2:リプライツイート 3:リツイート後のツイート

ファクトチェックのための要検証記事探索の支援tagami/resources/JSAI2018.pdf · 実験①で訓練した分類器を用いて、各ニュース記事が要検 証記事であるかを分類

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ファクトチェックのための要検証記事探索の支援tagami/resources/JSAI2018.pdf · 実験①で訓練した分類器を用いて、各ニュース記事が要検 証記事であるかを分類

ファクトチェックのための要検証記事探索の支援内山香,鈴木海渡,田上翼,塙一昇(東北大学),乾健太郎(東北大学/理化学研究所AIPセンター )小宮篤史,藤村厚夫(スマートニュース株式会社),楊井人文,山下亮(一般社団法人日本報道検証機構),町野明徳

研究の概要

端緒情報判定

検証必要度ランク付け

記事タイトル:ふるさと納税で…記事URL:http://www.xxx

検証必要度スコア:

スコアとツイート内容:完全な誤報です!大げさで…日本って…「誤報」等の単語

でフィルタリング

必要

記事毎にまとめる

記事タイトル:ふるさと納税で…

記事URL:http://www.xxx

スコアとツイート内容:完全な誤報です!大げさで怪しい日本って…

記事タイトル:訃報 ◯◯◯◯死去

記事URL:http://www.xxx

スコアとツイート内容:え!?嘘やん!嘘であって…嘘やん。…

上位から人手で検証

検証した結果を訓練事例に追加

記事タイトル:訃報 ◯◯◯◯死去

記事URL:http://www.xxx

検証必要度スコア:

スコアとツイート内容:え!?嘘やん!嘘であって…嘘やん。…

不要

検証必要度:低

検証必要度:高フェイクニュースや誤情報の拡散が社会問題化日本報道検証機構ではファクトチェックを必要とするニュース記事(以下、要検証記事)を探索する際に、手がかりとしてSNSでの記事の誤りの指摘や内容に疑義を呈している投稿(以下、端緒情報)を利用

機械学習を用いて端緒情報を効率的に収集し、要検証記事を提示することでファクトチェッカーを支援する仕組みの構築目的

データセットの作成①ツイート単位のデータセットニュース記事に対してつぶやかれた「誤報」や「デマ」などの単語を含むツイートを収集し、各ツイートが端緒情報であるかを人手でラベル付けしたデータ

指摘の対象となるニュース記事のURLを本文に含んでいるツイート

ニュース記事を周知するツイート(以下、ニュースツイート)に対する返信

◯◯ニュース @newshttp://◯◯◯◯◯.com/◯◯◯◯◯A議員「選挙のためならどんな手でも使う」USER_4 @user_4@newsえ、こんなこと言ってなかったよ!編集で捏造してる!!

◯◯ニュース @newshttp://◯◯◯◯◯.com/◯◯◯◯◯A議員「選挙のためならどんな手でも使う」

user_5さんがリツイート

USER_5 @user_5え、こんなこと言ってなかったよ!編集で捏造してる!!

ニュースツイートをリツイートした後の240秒以内のツイート

USER_3 @user_3http://◯◯◯◯◯.com/◯◯◯◯◯◯◯は縮小といってる。他紙と違って不可解ですが両方裏付けしてるのか?

ツイート間の時間ごとのリツイートとその直後のツイートの関係の有無

② ニュース記事単位のデータセット

・正例:1,036 ツイート・負例:6,739 ツイート

各ニュース記事に対するツイート集合の内に1つ以上の端緒情報であるツイートを含む記事を要検証記事と定義し、各ニュース記事が要検証記事であるかを人手でラベル付けしたデータ・正例:564 記事・負例:1,271 記事

実験手法:LSTMによる2値分類

P(y|w& …w()

完全 な 誤報 です

Embedding Layer

softmaxLSTM

実験①:端緒情報分類各ツイートが端緒情報であるかを分類訓練:6,220ツイート 評価:1,555ツイート

Precision Recall F10.62 0.55 0.59

実験②:要検証記事分類

USER_1 @user_1http://◯◯◯◯◯.com/◯◯◯◯◯◯◯党は政党要件を満たさないとデマが流れているが、しょうもない誤報。

USER_2 @user_2http://◯◯◯◯◯.com/◯◯◯◯◯このキャップ投げナックルの動画一生見てられる(大嘘)

実験①で訓練した分類器を用いて、各ニュース記事が要検証記事であるかを分類

Precision Recall F10.64 0.75 0.69

確率上位半分のニュース記事をチェックすれば要検証記事の8割以上を獲得可能

分類器を用いることで効率的なファクトチェックの支援を期待できることを確認

支援システム

まとめと展望

記事データl 検証必要度スコアの高いニュース記事からユーザに提示

l 検証必要度スコアは端緒情報確率1位の値を利用

l ニュース記事のタイトルと概要を表示

言及ツイートl 端緒情報確率の高いツイートの内容からユーザに提示

l モデルには記事タイトルやURL、ハッシュタグを削除したツイート本文を入力

l 一般ユーザからのSNSでの投稿という集合知を利用したファクトチェックを支援するための仕組みを提案した

l 記事の検証必要度スコアに対して、言及ツイート数よる話題性や政治的な内容を含むかを加味するなど指標を再考する

l ニュース記事を読みながら誤りを指摘するツイートを表示するChrome拡張機能などの検討する

しかしながら、投稿を「誤報」や「嘘」などの特定のフレーズを含んでいるかで単純にフィルタリングするだけでは、ファクトチェックに役立たない投稿が収集されるうちの大半を占めてしまっている

完全{ 0.34, 0.67, 0.11, ・・・ }分散表現

リツイート後の240秒以降ではツイートの半分以上が関係なし

1:URLを含むツイート

2:リプライツイート

3:リツイート後のツイート