28
Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Embed Size (px)

Citation preview

Page 1: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Using Behavioral Data to Identify Interviewer Fabrication in Surveys+ CHI 2013-Benjamin Birnbaum/안현진x 2013 summer

Page 2: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Using Behavioral Data to Identify Interviewer Fabrication in Surveys

2013. 08. 08_ UX Lab. Meeting

발제자_ 석사과정 안현진

Page 3: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

우리 랩에서는 설문조사를 잘 안한다?“우리 랩에서는 사용자들의 로그를 수집하거나 인터뷰를 많이 하지, 설문은 잘 안해요”by 중식쌤

?

Page 4: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Life(User) loggingContext AwareUser Behavior[ ]

태평양 같은 관심분야... 좁히지 못하고 있습니다...

Page 5: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Using Behavioral Data to Identify Interviewer Fabrication in Surveys

설문조사에서 행동 데이터를 이용한 인터뷰어의 조작 행위 식별에 관하여

Page 6: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Benjamin BirnbaumCSE Department Univeristy of Washington

[email protected]

Gaetano BorrielloCSE Department University of Washington

[email protected]

Abraham D. FlaxmanIHME University of Washington

[email protected]

Brian DeRenziCSE Department University of Washington

[email protected]

Anna R. KarlinCSE Department University of Washington

[email protected]

저자 소개

Hi, UW

Page 7: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Intro.

연구자의 데이터 조작 행위(Curbstoning)

1. 몇몇 대상에 연락이 닿지 않기 때문에

2. 민감한 질문을 하는 것이 불편해서

3. 완료한 설문조사 개수에 따라 돈을 받기 때문에

데이터의 신뢰도(품질)은 조사 기관의 주요한 관심사

But

이유

Page 8: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

데이터 수집에 전자기기를 사용하면 효율이 좋다.

Intro.

전자적으로 수집되는 데이터의 양이 증가하고 있다

Page 9: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

데이터 수집에 전자기기를 사용하면 효율이 좋다.

Intro.

전자적으로 수집되는 데이터의 양이 증가하고 있다

연구자가 전자 장비로 설문조사를 실시할 때,답을 선택하고 변경할 때, 질문 사이를 이동하고 스크롤할 때 등 행동 데이터의 흔적을 남긴다.

Page 10: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

데이터 수집에 전자기기를 사용하면 효율이 좋다.

Intro.

전자적으로 수집되는 데이터의 양이 증가하고 있다

연구자가 전자 장비로 설문조사를 실시할 때,답을 선택하고 변경할 때, 질문 사이를 이동하고 스크롤할 때 등 행동 데이터의 흔적을 남긴다.

흔적이 기록된 경우 데이터가 조작되고 있는지를 나타내는 신호를 줄 수 있다. eg. 데이터 조작자들은 자신의 답을 자주 변경하거나 실제 데이터를 수집하는 인터뷰보다 더 빨리 데이터를 채울 가능성이 있다.

Page 11: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

SW Tools

ODK(Open Data Kit)는 터치스크린을 사용하여 구조화 된 데이터를 기록 할 수 있게함.설문은 질문 텍스트, 응답 유형 및 조사 분기 논리를 제공하는 XML형태로 특정되어 수집됨.

Page 12: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

SW Tools

이벤트 종류 설명 매개 변수선택한 답 객관식 질문 프롬프트에 대한 답변을 선택하거나 변경 선택한 반응

다음 프롬프트가 앞으로(왼쪽으로) 넘어감

뒤로 프롬프트가 뒤로(오른쪽으로) 넘어감

스크롤 사용자가 프롬프트에서 위쪽 또는 아래쪽으로 스크롤 스크롤된 픽셀 수(방향 표시에 의해 판별됨)

텍스트 변경 텍스트 프롬프트 숫자 또는 자유 텍스트 질문에 대한 변경 변경 전의 답변, 변경 후의 답변

1. Log event type

응답: 질문 프롬프트인 경우, 프롬프트에 대한 응답의 실제 값

ORD: 숫자 질문 프롬프트에 대해, 응답의 순서에 따른 위치를 나타내는 양의 정수

시간: 프롬프트에 소요되는 밀리 초 단위의 총 시간

최초 편집까지 지연 시간: 프롬프트를 처음 전환했을 때부터 처음의 편집이 만들어지기까지의 밀리 초 단위 시간

연속 편집 횟수: 사용자가 질문 프롬프트에 대한 답을 도중에 프롬프트의 변화 없이 연속적으로 다시 편집한 횟수

비연속 편집 횟수: 사용자가 질문 프롬프트에 대한 답을 프롬프트를 넘기자마자 즉시 편집한 횟수

2. 로그에서 추출한 프롬프트 수준의 특징 일부 (총 209가지)

Page 13: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

SW Tools

3. 로그에서 추출된 인스턴스 레벨의 특성 일부 (641가지)

총 시간

총/평균/최소 응답시간

총/평균/최소 최초 편집까지 지연 시간

평균 문자열 길이

노트 시간

조건부 횟수

조건부 총 시간

평균/ 최대 객관식 연속적 수정

넘기기 횟수

뒤로가기 횟수

총 스크롤

지난 질문을 체크한 쵯수

이전 연구에서 밝혀진 부분을 참고/영감을 얻음.

랜덤 포레스트법을 연구 철학으로 삼고 접근하여 특징을 추출

이 특성들은 어떻게 정했나?

Page 14: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험을 위한 설문조사 제작공부 습관에 대한 설문

- 응답자가 작년에 들은 가장 어려운 수업, 과목명, 수강 시기, 과목을 좋아했는지, 할애시간

- 유급 노동, 자원 봉사, 연구 및 가족 등 학교 외부 일에 얼마나 많은 시간을 소비했는지

- etc...

Page 15: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험을 위한 설문조사 제작공부 습관에 대한 설문

- 응답자가 작년에 들은 가장 어려운 수업, 과목명, 수강 시기, 과목을 좋아했는지, 할애시간

- 유급 노동, 자원 봉사, 연구 및 가족 등 학교 외부 일에 얼마나 많은 시간을 소비했는지

- etc...

44개의 질문을 포함

- 객관식 27개, 숫자 7개, 주관식 10개로 구성

- 고민이 필요한 질문과 그렇지 않은 질문을 구별

- 조건(분기문) 로직을 포함시킴

5~10분정도 소요

18세에서 25세 사이의 대학생에게만 부여함

서면으로만 전달

Page 16: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험 프로토콜1) 연구자는 우리의 실험의 목적에 대해 아무것도 듣지 않았으며, 그들이 데이터를 조작하는 것에 대한 동기는

부여 되지 않았고, “누군가를 인터뷰한 척하고 응답하라”

2) 연구의 목적은 연구자 조작을 검출하는 알고리즘을 실험한다는 것을 통보 받음

3) 연구의 목적을 알고 데이터를 현설적으로 조작하는 데 대한 인센티브를 부여

Page 17: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험 프로토콜 (Cont...)(1) 교육 세션

연구자들은 1~2시간 정도 걸리는 교육 세션에 참석

우리 학과의 학부 지도교수를 대신해 공부 습관에 대한 설문 조사를 실행한다고 말함

다음 후속 세션까지 ODK를 사용해서 10명의 설문을 해오도록 요청

또한 설문의 결과 뿐 아니라 ODK의 데이터 품질에 대한 연구를 하고 있다고 말함 (자세하게는 말하지 않음)

ODK사용법을 가르치고 “다섯 명의 서로 다른 사람을 인터뷰하고 그들이 응답한 것처럼” 요청

이 데이터를 fake0 (정보에 입각하지 않은 조작 데이터) 이라고 이름 붙임

Page 18: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험 프로토콜 (Cont......)(2) 인터뷰 세션

교육 세션 후 일주일에 걸쳐 참가자들에게 10명의 응답자에게 설문을 하도록 요청

이 기간 동안 수집 된 데이터는 real 이라는 이름을 붙임

수집한 데이터가 실제로 수집되었는지 확인하기 위해 확인 작업을 함

- 응답자 중 무작위 표본에 대해 재면담을 수행

- 데이터 조작이나 다른 편법에 대한 보고를 감사히 받을 것이며 보상에 영향을 미치지 않을 것이라고 전달

Page 19: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험 프로토콜 (Cont.........)(3) 후속 세션

인터뷰 세션 후, 연구자들에게 실험실로 돌아와 두 시간 동안 후속 세션에 참가하도록 요청

후속 세션은 두 라운드로 구성되어 있음

라운드 1

- 우리는 최초에 “조작된 설문 조사 데이터를 자동으로 검출하는 알고리즘을 설계하고 있으며”

- “우리의 알고리즘이 조작된 데이터를 얼마나 잘 검출하는지 테스트하고 있다”고 알림

- 연구의 목적을 아는 상태에서 40분간 4~10개의 양식을 조작하도록 시켰다

- 정보에 입각한 조작 데이터라고 부르고 fake1이라 이름 붙였다.

Page 20: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험 프로토콜 (Cont............)(3) 후속 세션 (Cont...)

라운드 2

- 연구자들에게 얼마나 잘 조작했는지에 대한 피드백을 제공

- 어떤 문서가 잘 조작되었는지 예측하는 데 사용된 상위 3개의 알고리즘을 담은 이메일을 전송

- 메일을 받은 후 4~10개의 설문지를 꾸미는데 40분을 제공

- 더 나은 정보에 입각한 조작 데이터라 부르고 fake2라 이름 붙임

Page 21: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

실험 설계 및 데이터 수집

실험 프로토콜 (Cont...............)

Lable Description Explanation When Collected

Data Set

Real 실제(real) 교육 세션의 끝에 일어난 것을 포함해, 면접관과 응답자 사이에 일어난 실제 인터뷰

인터뷰 세션 D0, D1, D2

fake0정보에 입각하지 않은 조작(uninformed fake)

교육 세션에 일어난 조작 인터뷰. 참가자들은 “다섯 명의 서로 다른 사람을 면담한 것처럼 가짜로 설문을 작성하라”고 지시받았음.

교육 세션 D0

fake1 정보에 입각한 조작(informed fake)

후속 세션의 첫 번째 회차의 조작 인터뷰. 참가자들은 연구의 진정한 목적을 알았고 사실적으로 데이터를 조작하는 것에 대한 금전적 인센티브를 받음.

후속 세션 D1

fake2더 나은 정보에 입각한 조작(better-informed fake)

후속 세션의 두 번째 회차의 조작 인터뷰. 참가자들은 연구의 진정한 목적을 알았고 사실적으로 데이터를 조작하는 것에 대한 금전적 인센티브를 받았으며, 조작 데이터를 식별하는 데 사용되는 특징에 대한 피드백을 제공 받음.

후속 세션 D2

Page 22: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

결과(Result)

연습 세트에 대한 임의의 포레스트 분류자를 연습해 각각의 데이터 세트를 위한 테스트 세트에서 평가했다.

데이터 세트 D0에서 정확도는 96%, D1 90%, D2 86% 였다.

정밀성(precision), 기억(recall), 특이성(specificity), F1점수를 포함한 수치는 표 6과 같다

표 7과의 비교를 통해 행동 데이터가 얼마나 도움이 되었는지 볼 수 있다.

전반적인 수행?

Page 23: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

결과(Result)

(1) 연구자들이 경험과 함께 데이터를 잘 조작할 동기를 얻을 때, 행동 데이터는 응답 데이터에 비해 더 중요한

조작의 지표가 된다.

(2) 조작을 예측하기 위해서는, 개인적인 즉각적 수준의 특성들보다 집계된 형식 수준의 특성들을 사용하는 것

이 더 낫다.

(3) 어려운 문제들에서 측정한 시간 정보는, 쉬운 문제들에서 측정한 시간 정보보다 조작을 더 정확하게 예측한

다. (ex. 특정 전공에 수업료가 더 비쌌다면, 더 비싼 전공을 선택하는데 망설였겠는가? / vs 성은 무엇인가?)

일반적 결론

Page 24: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

한계(Limitation)

1. fake0 데이터를 조작할 때, 진짜 인터뷰를 하지 않은 상황이었으며, fake1과 fake2를 꾸며낼 때는 대략

10개의 인터뷰를 한 상태 였다.

-> 데이터의 정확도에서 큰 차이를 줄 수 있는 치명적인 부분이 아닐까... 이래도 되는걸까...?

2. 본 연구에서 설문조사의 어떠한 데이터가 조작되는 경우, 전체 설문이 조작된다. 실제 설문 조사에서 연구자

들은 몇 문항만을 조작할지도 모른다.

-> 알고리즘에 따라 뒷 부분을 조작하면 앞부분까지 모두 틀리게 된다.

본 실험의 한계

Page 25: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

한계(Limitation)

1. 데이터를 분석하는 방법을 완전히 이해하지 못했다. (랜덤 포레스트, 통계 등...)

2. 행동 데이터를 추출해내는 과정이 더 궁금했는데 자세한 설명이 없어 아쉽다.

나의 한계...

Page 26: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

토론(Discussion Point)

1. 우리 랩에서 설문조사를 잘 사용하지 않는 이유는 무엇인가요?

2. 어쩔 수 없이(?) 데이터를 조작할 수 밖에 없었던 경험을 듣고 싶습니다.

Page 27: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

감사합니다

Page 28: Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

Appendix

Random Forest2008,����������� ������������������  의료진단����������� ������������������  및����������� ������������������  중요����������� ������������������  검사����������� ������������������  항목����������� ������������������  결정����������� ������������������  지원����������� ������������������  시스템을����������� ������������������  위한����������� ������������������  랜덤����������� ������������������  포레스트����������� ������������������  알고리즘����������� ������������������  적용