25
Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI + CHI 2016 - Matthew Kay, Gregory L. Nelson, Eric B. Hekler / 김김김

Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

Embed Size (px)

Citation preview

Page 1: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI+ CHI 2016- Matthew Kay, Gregory L. Nelson, Eric B. Hekler/김유정x 2016 Spring

Page 2: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

Researcher-Centered Design of Statistics:Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

CHI2016 - UX and Usability Methods

2016. 6. 9.사용자경험 연구실 김유정

[ ]Matthew Kay, Gregory L. Nelson, Eric B. Hekler

Page 3: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

✓ 2015 년 초 <Basic and Applied Social Psychology> 유의성 검정 사용금지 선언✓ 미국통계학회 (ASA) 가 p-value 와 유의성검정에 대한 공식 해명성명을 밝히기까지…

* 박소영 , 3 대 심리학 저널에 게재된 논문 , 100 건 중 62 건 가설 입증에 실패 , 한국일보 , 2015-08-28. (http://www.hankookilbo.com/v/a0438094c3cb454d895939754759b6ed)** 박준석 ( 오하이오주립대 심리학 박사과정 , 페이스북 https://m.facebook.com/joonsuk.park.5/posts/1282611928419264)

재현성 위기와 유의성 검증에 대한 의심✓ 심리학 저널에 게재된 논문 중 절반 이상이 가설 입증에 실패

네이처에서 과학자 1500 명을 대상으로 실시한 설문조사 결과 !과학의 재현성 위기에 대해 1500 명 과학자에게 묻다 (http://photohistory.tistory.com/16472)

Page 4: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

통계적으로 유의미한 결과는 얼마나 유의미할까 ?

* 박준석 , 통계적으로 유의미한 결과는 얼마나 유의할까 , 사이언스온 , 2016-05-20. (http://scienceon.hani.co.kr/402347)

✓ 별이 떴다 ? 안떴다 ?: p 값 잘라내기✓ ‘ 유의성검정’이라는 이상한 통계분석 방식이 20 세기 중반 이후 학계로 확산

✓ 의학 / 생명과학 연구에서도 지속적으로 제기되고 있는 문제⭐️⭐️⭐️별이떴다 !!!⭐️⭐️⭐️

의도적 개입을 통한p 값 잘라내기 시도 !

Page 5: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

HCI 커뮤니티 “남일 같지 않네요”✓ RepliCHI: 재현성 위기는 HCI 분야에서도 이미 고민하고 있는 부분이다

✓ NHST 에 대해서 문제를 제기 , 다른 접근을 제안하는 것이 바로 이 논문 !

Honorable Mention (Top 5%)

✓ 매우 잘썼다고 생각했는데 , 찾아보니 역시 honorable mention!

Page 6: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

논문의 저자들

* http://www.mjskay.com

• University of Washington Ph.D. candidate• 1 저자는 When (ish) is my bus? 저자이기도 함• 요번 가을부터 미시건 iSchool 교수로 임용되었음• personal data, statisitics 관련한 토픽에 관심이 많은 것 같다

Page 7: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

논문의 저자들

* http://www.greglnelson.info** http://www.designinghealth.org/about.html

• 2 저자는 UW 의 Ph.D. student

• 3 저자는 애리조나 주립대 조교수

Page 8: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

HCI 에서 Frequentist statistics 사용의 문제점

Bayesian statistics is better for HCI community,helping knowledge accrual and small-n studies

한마디로 요약해보면 ,

“ ”

NEW OLDvs.

p < .05 *

>

메타분석 전까지는 지식 축적 어렵다그런데 HCI 에서는 별로 없음 !

small-n study 분석에 문제가 있다그런데 HCI 에서는 많이 함 !검증된 토픽에 대해 (1) frequentist (2) bayesian 분석을 시뮬레이션 했더니 ,역시 bayesian 이 최고야 ! 이 테크닉이야말로 researcher-centered 통계다 !

Page 9: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

• NHST 는 이중부정 이해화 해석을 전제로 하는 지배적인 통계기법• 연 구 문 제 를 단 순 한 binary

question 으로 바꾸는 단점• p-value 가 최우선이 되고 , 다른 결과들은 무시되는 경향

Frequentist Statistics Bayesian Statistics

• 베 이 즈 정 리 에 따 라 사 전 지 식 을 확 률 로 활 용 하 며 , 결 과 에 따 라 확률을 지속적으로 수정• effect size, confidence 등 을 강조• 실질적인 물음들에 답할 수 있음• 지식 축적에 용이함 ( 효율성 )

✓ frequentist 와의 대립으로도 유명 (?)

그래서 , 베이지안 통계가 어쨌다고 ?

✓ 추론 대상의 사전 확률과 추가적인 관측을 통해 해당 대상의 사후 확률을 추론하는 방법✓ HCI 에서는 메타분석 없이도 오류 수정 , 지식 축적에 대해 효과적으로 작동할 수 있다 !

Page 10: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

fast-to-slow: 진행보다 빠르다가 느려짐slow-to-fast: 진행보다 느리다가 빨라짐

control: 아무런 표시 없음 }각 조건마다 100 명씩 배정

시뮬레이션 실험 선택✓ 토픽 선정 : 설문 진행률 표시 (progress indicator) 방식이 설문 완료율에 미치는 영향✓ 100 개의 시뮬레이션 “ world” 에서 4 개의 실험을 각각 진행 (400 개 실험에 대한 데이터 생성 )

slow-to-fast

fast-to-slowcontrol

Experiment 1

fast-to-slowcontrol

fast-to-slowcontrol

fast-to-slowcontrol

Experiment 2

Experiment 3Experiment 4

World #01

slow-to-fast

fast-to-slowcontrol

Experiment 1

fast-to-slowcontrol

fast-to-slowcontrol

fast-to-slowcontrol

Experiment 2

Experiment 3Experiment 4

World #02

slow-to-fast

fast-to-slowcontrol

Experiment 1

fast-to-slowcontrol

fast-to-slowcontrol

fast-to-slowcontrol

Experiment 2

Experiment 3Experiment 4

World #03

…slow-to-

fastfast-to-

slowcontrol

Experiment 1

fast-to-slowcontrol

fast-to-slowcontrol

fast-to-slowcontrol

Experiment 2

Experiment 3Experiment 4

World #100

Page 11: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

두 가지 분석방법✓ 두 방법 모두 기본적으로 logistic regression 사용

• 실 험 1~4 에 대 한 분 석 을 각 각 진행• 추가로 메타분석을 실시함

Frequentist Analysis Bayesian Analysis

• 실험 i 의 posterior 를 실험 i+1의 prior 로 설정하여 결과를 분석• 실 험 4 의 경 우 , Cauchy

distribution 을 이 용 하 여 prior 설정

Page 12: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 1: single world - one paper early

Single world 결과를 보면 , B 에서 결과가 빠르게 향상되고그로 인해 메타분석에 이르기 전에 이미 정교한 결과를 얻어냄

Page 13: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 1: single world - one paper early

점선들의 의미는 실제 효과의 값으로 추정된 값

* Logistic regression(https://en.wikipedia.org/wiki/Logistic_regression)

Log-odds ratio = 0, 차이가 없다 (equal)

Page 14: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 1: single world - one paper early

• Confidence intervals 를 보면 각각의 실험이 서로 도움을 전혀 주지 못함• experiment 2 는 간신히 결과 (borderline)는 나오지만 영가설 검증은 실패함• 엄격한 기준에서 experiment 4 는 실패

Page 15: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 1: single world - one paper early

메타분석에서 와서야 근접한 결과 + CI 가 결과로 도출됨

Page 16: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 1: single world - one paper early

앞선 실험 결과값을 바탕으로 다음 실험의 결과가 빠르게 향상됨

Page 17: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 2: many worlds - one paper early

Single world 결과와 마찬가지로 , many world에서의 결과 역시bayesian analysis 가 더 빠르게 정교한 결과를 도출해냄

Page 18: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 2: many worlds - one paper early

딱히 실험결과가 향상되지 않음

앞선 결과와 마찬가지로메타분석에 와서야 지식이 통합됨

Page 19: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 2: many worlds - one paper early

실험 2 부터 결과 향상이 나타남

메타분석 없이도 정교한 결과 도출

Page 20: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 2: many worlds - one paper early

Frequentist Bayesian

fast-to-slow - control 0.27 0.17slow-to-fast - control 0.27 0.20fast-to-slow - slow-to-

fast 0.26 0.22RMSE(root-mean-squared error) in exeperiment 4

실험 4 에 대해서만 비교해봐도 결과 향상을 볼 수 있음

Page 21: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 3: small-n studies

small-n studies 에서 나타날 수 있는 magnitude error 완화

frequentist analysis 보다 novel condition 결과 정확도가 높다 !

각 조건당 20 명씩 배정

Page 22: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 3: small-n studies

실험 1 에서의 결과에서도 bayesian 이 극단적인 효과를 줄여줌

각 조건당 20 명씩 배정

Page 23: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

결과 3: small-n studies

Frequentist Bayesian

fast-to-slow - control 0.66 0.36slow-to-fast - control 0.68 0.51fast-to-slow - slow-to-

fast 0.83 0.60RMSE(root-mean-squared error) in exeperiment 4

실험 4 에 대해서만 비교해봐도 결과 향상을 볼 수 있음

각 조건당 20 명씩 배정

Page 24: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

몇 가지 논의점

Bayesian analysis increases the value of small-n studies of novel work

Bayesian analysis fits into how statistical practice is shaped in HCI

Bayesian analysis is increasingly accessible

Challenges and opportunities in setting priors

Practical impact of research through cost/benefit analysis

1

2

3

4

5

Page 25: Researcher-Centered Design of Statistics: Why Bayesian Statistics Better Fit the Culture and Incentives of HCI

THANK YOU-End of the Document-[ ]사용자경험 연구실 김유정[email protected]