84

데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유
Page 2: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

강사 소개

• 유재명

• 서울대학교 산업공학과 / 동 대학원 인지과학 박사

• (주)퀀트랩 대표

• 국민대학교 겸임교수

Page 3: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

• 1일차: 기술 통계와 신뢰구간,Jamovi, R, Python

• 2일차: 상관분석, 가설검정, 회귀분석

Page 4: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

통계에서 사례와 변수

• 통계(統計): 모아서(統) 계산하다(計)

• 사례: 데이터 수집의 단위 (예: 고객, 상품 등)

• 변수: 사례마다 다른 값을 갖는 특성(예: 만족도, 크기, 색상 등)

Page 5: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

데이터를 표로 정리하기

• 행(row)• 표에서 가로 방향 한 줄

• 하나의 사례

• 열(column)• 표에서 세로 방향 한 줄

• 하나의 변수

Page 6: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

변수의 종류

• 변수의 종류에 따라 가능한 연산이 다름

• 변수를 나누는 방법은 여러 가지

• 가장 간단하게 2가지로 나누면:• 연속변수

• 범주형 변수

Page 7: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

연속 변수

• 연속변수: 값이 연속적으로 변하는 변수

• 대표적으로 크기, 무게, 길이 등의 물리량

• 수학에서 실수(real number)로 표현

• 서로 더하거나 일정한 수로 나누는 등의 연산이 가능 (예: 평균)

Page 8: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

정수에 대응되는 변수

• 점수, 개수 등은 정수에 대응되는 경우

• 1, 2, 3, 4로 변하므로 연속적으로 변하지는 않음

• 엄밀히 말하면 연속 변수가 아니지만, 실무적으로는 연속 변수와 같이 취급

• 판단이 어려울 경우 해당 변수의 평균이 의미가 있는지 생각

Page 9: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

범주형 변수

• 서로 다른 이름이나 유형을 값으로 가지는 변수 (예: 성별, 여부, 지역)

• 수나 번호로 표시해도 구별을 위한 이름일 뿐 크기나 순서를 뜻하지는 않음• 예: 남자는 1, 여자는 2로 표기한다고 해서 남자 + 여자 = 3은 불가

• 더하거나 나누는 연산을 할 수 없고 세는 counting 것만 가능

Page 10: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

서열 변수 Ordinal Variable

• 크고 작음, 높고 낮음의 순서만 있는 경우

• 예) 학력(초졸, 중졸, 고졸, …)

• 분석 목적에 따라 연속 변수 또는 범주형 변수로 변환• 학력의 경우 재학 기간을 이용하면 연속 변수로 바꿀 수 있음

• 초졸→ 6, 중졸→ 9, 고졸→ 12, …

Page 11: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

통계의 종류

• 기술 통계(descriptive statistics): 데이터를 묘사, 설명

• 추론 통계(inferential statistics): 데이터를 바탕으로 추론, 예측

Page 12: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

기술 통계

• 중심 경향치: 데이터가 어디에 몰려있는가? (대표적인 예: 평균)

• 분위수: 데이터에서 각각의 순위가 어느 정도인가?

• 변산성 측정치: 데이터가 어떻게 퍼져있는가?

Page 13: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

중심 경향치 central tendency

• 데이터가 어디에 몰려있는가?

• 평균

• 중간값

• 최빈값

Page 14: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

평균

• N개의 값이 있을 때, 그 합계를 N으로 나눈 것

• 평균은 극단값에 따라 영향을 크게 받음• 10, 20, 30, 40, 50이 있을 경우→ 30

• 10, 20, 30, 40, 500이 있을 경우→ 120

Page 15: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

대졸 초봉의 예

• 1986년 미국 노스캐롤라이나 대학 (UNC)

• 졸업생 평균 초봉이 가장 높은 학과는 지리학과 (25만 달러)

• 당시 미국 대졸 평균 초봉은 2만 2천달러 수준

• 도대체 무슨 일이?

• 당시 마이클 조던이 UNC 지리학과를 졸업하고 NBA 진출

Page 16: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

중간값 median

• 값들을 크기 순으로 정렬했을 때 중간에 위치한 값• 10, 20, 30, 40, 50의 중간값 → 30

• 이상치에 대해 강건(robust)한 것이 특징• 10, 20, 30, 40, 500의 중간값 → 30

• "중위수"라는 표현도 많이 사용 (중위소득, 중위가격 등)

• 값이 짝수개 있을 경우는 (N-1)/2번째와 (N+1)/2 번째의 평균• 10, 20, 30, 40의 중간값→ 25

Page 17: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

평균 vs. 중간값

Page 18: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

최빈값 mode

• 가장 많은 사례에서 관찰된 값

• 영어 mode에는 상태, 유행, 가장 많은 것 등의 뜻이 있음

• 연속 변수보다는 범주형 변수에서 유용• 예: 직원 중에 김씨가 30%가 가장 많음

• 연속 변수의 경우 구간을 나누어 최빈값을 구하는 경우가 많음• 예: 고객 중에 30대가 25%로 가장 많음• 구간을 나누는 방법에 따라 최빈값이 달라질 수 있음

Page 19: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

엑셀에서 중심경향치

• 데이터가 A1에서 A10 범위에 있을 경우

• 평균

=AVERAGE(A1:A10)

• 중간값

=MEDIAN(A1:A10)

• 최빈값

=MODE(A1:A10)

Page 20: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

분위수 quantile

• 크기순으로 정렬된 데이터를 q개로 나누는(분) 위치의 값

• 대표적으로 사분위수, 백분위수가 있음

Page 21: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

사분위수 quartile

• 데이터를 4등분하는 위치• 제1사분위수→ 1/4 지점

• 제2사분위수→ 2/4 지점

• 제3사분위수→ 3/4 지점

• 영어 철자에 주의. 분위수(quantile), 사분위수(quartile)

Page 22: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

백분위수 percentile

• 데이터에서 순위를 퍼센트로 표현

• 최소값 = 0퍼센타일

• 제1사분위수 = 25퍼센타일

• 제2사분위수 = 중간값 = 50퍼센타일

• 제3사분위수 = 75퍼센타일

• 최대값 = 100퍼센타일

Page 23: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

엑셀에서 분위수

• 제1사분위수

=QUARTILE(A1:A10, 1)

• 제3사분위수

=QUARTILE(A1:A10, 3)

• 50퍼센타일

=PERCENTILE(A1:A10, 50%)

Page 24: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

변산성 측정치

• 데이터가 퍼져 있는 정도를 나타내는 수치

• 종류:• 범위

• 사분위수 범위

• 분산

• 표준편차

Page 25: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

범위 range

• 최대값 – 최소값• 예: 10, 20, 30, 40, 50의 경우 최대값(50) – 최소값(10) = 40

• 극단값이 있으면 커짐• 예: 10, 20, 30, 40, 500의 경우 490

Page 26: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

사분위간 범위 InterQuartile Range

• 줄여서 IQR

• 제3사분위수 - 제1사분위수

• 극단값은 최소값 또는 최대값 근처에 있으므로 극단값의 영향이 적음

Page 27: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

편차 deviation

• 값 – 평균

• 예:• 원 데이터가 30, 40, 50인 경우

• 평균은 40

• 편차는 -10, 0, +10

Page 28: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

분산 variance

• 편차 제곱의 평균

• 직관적으로 이해하기는 어려우나 수학적으로 중요한 여러 성질이 있음

• 편차를 제곱하여 크기가 커지므로 표준편차(√분산)를 많이 사용

Page 29: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

엑셀에서 분산과 표준편차 구하기

• 분산

=VAR(A1:A10)

• 표준편차

=STDEV(A1:A10)

Page 30: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

모집단 population

• 연구의 관심이 되는 집단 전체

• 모집단은 실제로 존재하는 집단이라기보다 추상적, 주관적으로 정의됨

• 예: 고객만족도 조사에서 '고객'은 누구인가?• 이미 구매한 사람? vs. 앞으로 구매할 사람?• 수십년 전에 구매한 고객도 고객인가?• 앞으로 구매할 사람이 누구인지 알 수 있나?

• 실제로 모집단을 관찰할 수 있는 경우는 거의 없음

• 전수조사는 대부분 비효율적이거나 불가능

Page 31: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

모수 population parameter

• 파라미터(parameter): 어떤 시스템의 특성을 나타내는 값

• 모집단(population) 파라미터(parameter): 모집단의 특성을 나타내는 값

• 예시: 모집단의 평균 (모평균), 모집단의 분산 (모분산)

• 주의! "표본의 크기"를 "모수"라고 하는 경우도 있으나 잘못된 표현

• 모수를 구하기 위해서는 전수조사가 필요 (사실상 어려움)

Page 32: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

표본 sample

• 특정 연구에서 선택된 모집단의 부분 집합

• 실제로 분석의 대상이 되는 데이터

• 주의:• 일상에서 표본은 하나의 사례를 뜻하는 경우가 있음 (예: 옷감 샘플)

• 통계에서 표본은 하나의 집합을 의미(=여러 개의 사례)

Page 33: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

표집 sampling

• 모집단에서 표본을 추출하는 것

• 동일한 모집단에서 동일한 방법으로 표집을 하더라도 다른 표본을 얻을수 있음• 예: 동일한 주사위를 10번 던진 결과를 하나의 표본이라 하면 표본마다 다를 수있

• 표집오차(sampling error): 모집단 대신 표본을 관찰하는데서 발생하는 오차

• 표집오차는 측정의 문제가 아님

Page 34: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

통계량 sample statistic

• 표본에서 얻어진 수로 계산한 값 (=통계치)

• 예시:• 표본의 평균 (표본평균)

• 표본의 분산 (표본분산)

• "모집단의 통계량"이라는 표현은 없음 (통계량은 표본에서 구한 값)

• "표본의 모수" 같은 말도 없음 (모수는 모집단에서 구한 값)

Page 35: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

표집 분포 sampling distribution

• 동일한 모집단에서 표집을 할 때마다 통계량들의 분포

• 주의:• 실제로 표집을 여러 번 하지는 않음

• 표본에서 값들의 분포가 아님

• 예: 동일한 사안을 가지고 동일 시점에 동일 방법으로 여론조사를 해도조금씩 다른 결과들이 나올 수 있음→여론조사 결과의 분포=표집분포

Page 36: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

표집분포의 예

• 6면체 주사위의 평균은 3.5

• 주사위를 10번 던진 결과 (1개의 표본)

• 표본 분포: 하나의 표본에서 1, 2, 3, 4, 5, 6이 어떤 비율로 나왔는가?

• 표집 분포: 여러 개의 표본에서 평균이 어떤 비율로 나왔는가?

Page 37: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

오차 범위 margin of error

• 오차범위: 표집 오차가 발생할 수 있는 범위

• 통계량은 모수와 정확히 일치하지는 않지만 대부분 일정 범위 내에서 관찰됨

• 무작위 추출을 한다면 표본의 통계량은 일정한 확률을 따르게 됨

• 주사위 10개를 굴리면 평균이 대체로 3.5 근처에서는 나옴

• 따라서 표집 오차는 대부분의 경우 일정 범위 내에서만 발생

Page 38: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

신뢰구간 confidence interval

• 통계량은 일정 비율의 표본에서 모수±오차범위에 관찰

• 반대로 말하면 일정 비율의 표본에서 통계량±오차범위 내에 모수가 있음

• 신뢰구간 = 통계량 ± 오차범위• 신뢰구간의 상한 = 통계량 + 오차범위• 신뢰구간의 하한 = 통계량 – 오차범위

• 신뢰보다는 "여기에 모수가 있을 것"이라고 자신할 수 있는 구간

Page 39: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

신뢰수준 confidence level

• 신뢰수준: 신뢰구간에 모수가 존재하는 표본의 비율

• 신뢰구간 안에 모수가 있다는 자신감의 수준으로 이해

• 신뢰수준이 높으면 → 신뢰구간이 넓다

Page 40: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

신뢰구간과 신뢰수준의 관계의 예시

• Q: "지금 시키면 치킨 언제 오나요?"

• A1: "20~30분 내로 갑니다" (더 늦게 올 가능성도 있음, 자신감 낮음)

• A2: "오늘 저녁 내로는 갑니다" (어쨌든 이 안에 오기는 옴. 자신감 높음)

Page 41: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

신뢰구간과 신뢰수준

• 신뢰구간은 좁을 수록 구체적• 예: "연말에 코스피 지수는 4100~4200이 될 것"• 예: "연말에 코스피 지수는 0 ~ ∞이 될 것" (아무 의미도 없는 말)

• 신뢰수준은 높을 수록 확실함

• 신뢰구간이 좁으면 신뢰수준이 낮으므로 타협이 필요• 교과서적으로는 95%, 99% 등을 추천하나 절대적 기준은 없음• 감수할 수 있는 수준에서 결정

Page 42: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

유의수준 significance level

• 유의수준 = 100% - 신뢰수준

Page 43: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

통계량의 신뢰구간

• 모든 통계량은 해당하는 모수에 대한 신뢰구간을 가짐

• 평균의 신뢰구간, 중간값의 신뢰구간 등등

• 신뢰구간을 구하는 방법• 표집분포의 특성을 수학적으로 유도

• 부트스트래핑

Page 44: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

부트스트래핑 bootstrapping

• 표본에서 다시 표본을 추출하는 재표집(resampling)을 수행

• 표본이 모집단을 잘 반영한다면 재표집 또한 실제 표집과 비슷할 것

• 위의 과정을 통해 표집 분포를 시뮬레이션

Page 45: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

평균의 신뢰구간 공식

ത𝑋 ± 𝑡𝑠

𝑛

• ത𝑋: 표본평균

• 𝑡: 임계치(신뢰수준에 따라 결정)

• 𝑠: 표본표준편차

• 𝑛: 표본의 크기

Page 46: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

신뢰구간과 표본의 크기

• 평균, 표준편차는 표본에서 구하는 값

• 신뢰구간을 좁힐 수 있는 방법1. 신뢰수준을 낮춘다2. 표본의 크기를 늘린다

• 표본의 크기를 늘리는 것이 중요

• 단, 신뢰구간을 좁히기 위해서는 제곱으로 많은 데이터가 필요 (1/ 𝑛)

Page 47: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

엑셀에서 평균의 신뢰구간 구하기

• 오차범위는 CONFIDENCE.T 함수로 계산

• 신뢰구간 = 평균-오차범위 ~ 평균+오차범위

Page 48: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

엑셀

• 데이터 분석에서 가장 널리 사용되는 도구

• 내장된 비주얼 베이직으로 프로그래밍도 가능

• 최대 1백만행, 1만6천열 크기의 데이터만 열 수 있음

• 얼마나 크면 빅 데이터인가? 엑셀에서 열리지 않으면. (농담)

• 복잡한 계산에는 한계

Page 49: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

영국 COVID-19 확진 누락

• 텍스트 파일로 받은 검사결과를 엑셀 파일로 변환

• 엑셀 파일이 다룰 수 있는 한도를 넘어선 검사 결과가 누락

• 총 16,000건의 확진이 누락됨

Page 50: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

유전자 이름 오류

• 엑셀은 특정한 문자를 자동으로 변환

• 일부 유전자 기호는 자동으로 날짜로 바뀜(예: SEPT2, MARCH1)

• 2005~2015년 간 네이처를 포함 18개 유명 학술지에 게재된 논문의 보충 자료를 조사

• 3,597편의 논문이 유전자 기호를 포함하는 엑셀 파일을 보충 자료로 첨부

• 그중 704편의 논문의 보충 자료에서 자동 변환과 관련된 오류 발견

Page 51: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

R

• 통계 전용의 프로그래밍 언어 (S 언어에서 유래)

• 상업적 목적으로도 자유롭게 사용 가능

• 다양한 최신 통계 기법들이 구현

• 학계와 산업계에서 널리 사용

Page 52: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

Jamovi

• R의 경우 통계 분석을 위해 코드 작성이 반드시 필요

• Jamovi: R에 기초한 GUI 방식의 무료 공개 통계 프로그램

• 코딩 없이 마우스 클릭으로 데이터 분석

• R 초보자들도 R을 활용한 데이터 분석을 쉽게할 수 있음

Page 53: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

Python

• 범용(general purpose) 프로그래밍 언어

• 쉽고 간편한 문법으로 빠른 프로그램 작성이 장점

• C, Java 등에 비해서는 처리 속도가 느린 것이 단점

• 교육, 웹 개발, 데이터 분석에서도 활발히 사용

• 머신러닝, 인공지능 등에서는 학계와 산업계에서 사실상의 표준

Page 54: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

R vs. Python

• R의 장점• 통계 분석이 간단

• 프로그래밍에 대한 배경 지식이 덜 필요

• Python의 장점• 머신러닝, 인공지능 등에 유리

• 프로그래밍에 배경 지식이 있을 경우 편리

• 데이터 분석 이외의 목적으로도 활용이 가능

Page 55: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

Jamovi 파일 열기

1. 좌측 상단의☰버튼 클릭

2. Open 클릭

3. Browse 클릭 후 데이터 파일을 찾아 열기

Page 56: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

Jamovi 기술 통계

1. Analyses 클릭

2. Exploration 클릭

3. Descriptives 클릭

4. 원하는 변수를 Variables 창으로 옮김

Page 57: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

Jamovi 평균의 신뢰구간

• Analyses 클릭

• T-Tests 클릭

• One Sample T-Test 클릭

• 원하는 변수를 Dependent Variables 창으로 옮김

• Additional Statistics• Mean difference 체크

• Confidence Interval 체크

Page 58: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

RStudio

• R을 이용한 데이터 분석을 지원하는 프로그램

• 왼쪽이 명령창(console)

• > 표시 옆에 코드를 입력

• ENTER를 누르면 실행

Page 59: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

RStudio 편집창

• 명령창에 입력한 코드는 저장이 되지 않으므로 편집창을 이용

• 메뉴에서 File→ New File→ R Script

• 편집창에서 CTRL + ENTER 를 누르면

현재 커서가 있는 행의 코드가

명령창으로 복사되어 실행

Page 60: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

R 사칙연산

• 덧셈 1 + 2

• 뺄셈 4 - 5

• 곱셈 5 * 6

• 나눗셈 3 / 4

Page 61: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

주석

• 한 줄의 코드에서 # 를 표시 이후의 내용은 주석 처리

• 코드에 설명이나 메모 등을 남기기 위한 방법

1 + 1 # 더하기

Page 62: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

변수

• 데이터(값)에 이름을 붙이는 것 x = 3

• 변수는 값과 동일하게 사용할 수 있다 x + 1

• 한 번 정의한 변수는 다시 정의할 수 있다 x = 4

• =의 오른쪽을 계산 후 왼쪽에 대입 x = x + 1

Page 63: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

변수명 규칙

• 알파벳, 한글, 한자 등 가능

• 알파벳 대소문자는 구분(apple과 APPLE은 다른 변수)

• 숫자도 쓸 수 있지만(예: x1) 변수명 첫 글자에는 쓸 수 없음(예: 1x)

• 특수 문자 중에는 밑줄(_)과 온점(.)을 쓸 수 있음

• 띄어쓰기는 할 수 없음. 대신 밑줄이나 온점을 사용

Page 64: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

함수

• 제곱근 sqrt(2)

• 합계 sum(1,2,3)

Page 65: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

벡터

• 여러 개의 데이터를 묶은 것

• 벡터 만들기 x = c(1, 2, 3)

• 제곱근 sqrt(x)

• 합계 sum(x)

Page 66: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

함수 도움말

• 함수 이름 앞에 물음표를 붙여서 실행

?sum

• RStudio 오른쪽 하단 Help 탭에서 검색

Page 67: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

패키지 설치

• 패키지: 추가적인 함수를 묶은 것

• 엑셀 파일을 열기 위해서는 readxl 패키지를 설치

• 함수를 이용해서 설치

install.packages('readxl')

Page 68: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

메뉴를 이용한 패키지 설치

• 우하단 Packages 탭에서 Install 버튼 클릭

• 팝업창에서 Packages 칸에 설치할 패키지 이름 입력(예: readxl)

Page 69: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

데이터 파일 열기 (1)

• 우상단 Environment 탭에서 Import Dataset → From Excel

Page 70: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

데이터 파일 열기 (2)

• Browse →파일 선택→변수 이름 지정→ Import

Page 71: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

작업 디렉토리 지정

• 작업 디렉토리(폴더)를 지정할 경우 파일명만 입력하면 해당 폴더에서파일을 찾음

• 여러 개의 파일을 한 폴더에서 코드로 다룰 때 편리

• 메뉴 Session → Set Working Directory → Choose Directory

• 지정된 작업 디렉토리의 내용은

우하단 Files 탭에서 볼 수 있음

Page 72: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

작업 디렉토리 지정 후 코드로 파일 열기

• 지정된 작업디렉토리에서 car.xlsx 파일 열기

car = readxl::read_excel('car.xlsx')

• 열린 데이터는 우상단 Environment 탭에서 클릭하거나 View 함수로내용을 볼 수 있음(View의 V는 대문자)

View(car)

Page 73: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

중심경향치

• car 변수에 담긴 데이터에서 price 컬럼

car$price

• 평균

mean(car$price)

• 중간값

median(car$price)

Page 74: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

최소, 최대, 백분위

• 최소값

min(car$price)

• 최대값

max(car$price)

• 백분위 (엑셀의 percentile 함수와 동일)

quantile(car$price, .25)

Page 75: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

분산과 표준편차

• 분산

var(car$price)

• 표준편차

sd(car$price)

Page 76: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

주피터 노트북 jupyter notebook

• Python을 이용해 데이터 분석을 하기 위한 프로그램

• 분석 서버에 웹으로 접속하여 구동하는 방식

• PC에서 실행할 경우 PC 자체가 서버 역할

• http://localhost:8888 에 접속 (localhost는 자기 자신)

Page 77: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

노트북 열기

• 작업할 데이터 파일이 있는 폴더 선택• Desktop: 바탕화면

• Documents: 내 문서

• Downloads: 다운로드

• 데이터 파일이 보이는지 확인

• New → Python 3

Page 78: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

주피터 노트북 코드 실행

• 단축키 SHIFT+ENTER

• 코드 아래 실행 결과가 표시

• 코드를 수정하고 다시 SHIFT+ENTER를 누르면 실행 결과를 덮어씀

Page 79: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

모듈 임포트

• 모듈(module): 함수들을 관련된 것끼리 모아놓은 것

• 모듈의 함수를 사용하려면, 먼저 모듈을 임포트(import) 해야

import pandas as pd

• pandas: 표 형태의 데이터를 다루는 모듈

• as pd: pandas에 pd라는 약칭을 붙임. 생략할 수 있음

Page 80: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

파일 열기

df = pd.read_excel('car.xlsx')

• pd. pd 모듈의(Python에서 .은 소속을 나타냄)

• read_excel 함수를 이용해서

• 'car.xlsx' 파일을 읽어

• 그 내용을 df 변수에 할당

Page 81: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

데이터 보기

df.head()

• Python에서는 특정 변수에 소속된 함수들이 있음

• df 변수에 소속된 head는 df의 첫 5행을 보여주는 역할

• 괄호 () 안에 들어갈 내용이 없어도, 함수이므로 무조건 붙임

• df.head(10)과 같이 하면 첫 10행을 보여줌

Page 82: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

중심경향치

• df.price: df의 price 컬럼

• 평균

df.price.mean()

• 중간값

df.price.median()

Page 83: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

최소, 최대, 분위수

• 최소

df.price.min()

• 최대

df.price.max()

• 분위수

df.price.quantile(.25)

Page 84: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 · 2021. 2. 21. · Title: 데이터 분석을 위한 통계 기초 상관분석과 회귀분석 Author: 유

분산과 표준편차

• 분산

df.price.var()

• 표준편차

df.price.std()