Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
ファクトチェックのための要検証記事探索の支援内山香,鈴木海渡,田上翼,塙一昇(東北大学),乾健太郎(東北大学/理化学研究所AIPセンター )小宮篤史,藤村厚夫(スマートニュース株式会社),楊井人文,山下亮(一般社団法人日本報道検証機構),町野明徳
研究の概要
端緒情報判定
検証必要度ランク付け
記事タイトル:ふるさと納税で…記事URL:http://www.xxx
検証必要度スコア:
スコアとツイート内容:完全な誤報です!大げさで…日本って…「誤報」等の単語
でフィルタリング
必要
記事毎にまとめる
記事タイトル:ふるさと納税で…
記事URL:http://www.xxx
スコアとツイート内容:完全な誤報です!大げさで怪しい日本って…
記事タイトル:訃報 ◯◯◯◯死去
記事URL:http://www.xxx
スコアとツイート内容:え!?嘘やん!嘘であって…嘘やん。…
上位から人手で検証
検証した結果を訓練事例に追加
記事タイトル:訃報 ◯◯◯◯死去
記事URL:http://www.xxx
検証必要度スコア:
スコアとツイート内容:え!?嘘やん!嘘であって…嘘やん。…
不要
検証必要度:低
検証必要度:高フェイクニュースや誤情報の拡散が社会問題化日本報道検証機構ではファクトチェックを必要とするニュース記事(以下、要検証記事)を探索する際に、手がかりとしてSNSでの記事の誤りの指摘や内容に疑義を呈している投稿(以下、端緒情報)を利用
機械学習を用いて端緒情報を効率的に収集し、要検証記事を提示することでファクトチェッカーを支援する仕組みの構築目的
データセットの作成①ツイート単位のデータセットニュース記事に対してつぶやかれた「誤報」や「デマ」などの単語を含むツイートを収集し、各ツイートが端緒情報であるかを人手でラベル付けしたデータ
指摘の対象となるニュース記事のURLを本文に含んでいるツイート
ニュース記事を周知するツイート(以下、ニュースツイート)に対する返信
◯◯ニュース @newshttp://◯◯◯◯◯.com/◯◯◯◯◯A議員「選挙のためならどんな手でも使う」USER_4 @user_4@newsえ、こんなこと言ってなかったよ!編集で捏造してる!!
◯◯ニュース @newshttp://◯◯◯◯◯.com/◯◯◯◯◯A議員「選挙のためならどんな手でも使う」
user_5さんがリツイート
USER_5 @user_5え、こんなこと言ってなかったよ!編集で捏造してる!!
ニュースツイートをリツイートした後の240秒以内のツイート
USER_3 @user_3http://◯◯◯◯◯.com/◯◯◯◯◯◯◯は縮小といってる。他紙と違って不可解ですが両方裏付けしてるのか?
ツイート間の時間ごとのリツイートとその直後のツイートの関係の有無
② ニュース記事単位のデータセット
・正例:1,036 ツイート・負例:6,739 ツイート
各ニュース記事に対するツイート集合の内に1つ以上の端緒情報であるツイートを含む記事を要検証記事と定義し、各ニュース記事が要検証記事であるかを人手でラベル付けしたデータ・正例:564 記事・負例:1,271 記事
実験手法:LSTMによる2値分類
P(y|w& …w()
完全 な 誤報 です
Embedding Layer
softmaxLSTM
実験①:端緒情報分類各ツイートが端緒情報であるかを分類訓練:6,220ツイート 評価:1,555ツイート
Precision Recall F10.62 0.55 0.59
実験②:要検証記事分類
USER_1 @user_1http://◯◯◯◯◯.com/◯◯◯◯◯◯◯党は政党要件を満たさないとデマが流れているが、しょうもない誤報。
USER_2 @user_2http://◯◯◯◯◯.com/◯◯◯◯◯このキャップ投げナックルの動画一生見てられる(大嘘)
実験①で訓練した分類器を用いて、各ニュース記事が要検証記事であるかを分類
Precision Recall F10.64 0.75 0.69
確率上位半分のニュース記事をチェックすれば要検証記事の8割以上を獲得可能
分類器を用いることで効率的なファクトチェックの支援を期待できることを確認
支援システム
まとめと展望
記事データl 検証必要度スコアの高いニュース記事からユーザに提示
l 検証必要度スコアは端緒情報確率1位の値を利用
l ニュース記事のタイトルと概要を表示
言及ツイートl 端緒情報確率の高いツイートの内容からユーザに提示
l モデルには記事タイトルやURL、ハッシュタグを削除したツイート本文を入力
l 一般ユーザからのSNSでの投稿という集合知を利用したファクトチェックを支援するための仕組みを提案した
l 記事の検証必要度スコアに対して、言及ツイート数よる話題性や政治的な内容を含むかを加味するなど指標を再考する
l ニュース記事を読みながら誤りを指摘するツイートを表示するChrome拡張機能などの検討する
しかしながら、投稿を「誤報」や「嘘」などの特定のフレーズを含んでいるかで単純にフィルタリングするだけでは、ファクトチェックに役立たない投稿が収集されるうちの大半を占めてしまっている
完全{ 0.34, 0.67, 0.11, ・・・ }分散表現
リツイート後の240秒以降ではツイートの半分以上が関係なし
1:URLを含むツイート
2:リプライツイート
3:リツイート後のツイート