14
통계학 기초 확률변수_기대값 확률변수 random variable 함수 function 정의 두 집합 X, Y 사이의 대응관계로 집합 X의 모든 원소들을 각각 집합 Y 의 유일한 원소에 일대일 대응시키는 관계 기호 : , - y는 x의 함수 집합 X는 함수 f의 정의역(domain), 집합 Y는 함수 f의 공역(range) 확률변수 정의 확률실험 표본공간 S가 정의역, 실수(real number)가 공역인 측정 measure 함수 확률실험의 각 결과에 실수 값을 할당하는 assign 규칙 (함수) (기호) 알파벳 , 확률변수 종류 이산형 discrete 확률변수 X의 정의역 원소가 유한이거나 셀수 있는 경우 (예) 2개 주사위 눈금 합, 대전시 한 달 교통사고 건수 연속형 continuous X의 정의역 원소가 무한인 경우 (예) 대전시 기업 종사자 일년 연봉, 대전 일 강수량 데이터 data 확률변수의 관측값을 데이터라 한다. 확률변수 X의 측정된 관측값은 으로 표현한다. 데이터 분석에 서는 변수의 종류를 측정형 metric (정량적 quantitative)과 범주형 non-metric (정성적 qualitative) y = f ( x ) f : X Y X, Y , Z ,... x = X ( s ) x = X (w), w S ( x 1 , x 2 ,..., x n ) 측정형 metric 구간 interval 배수의 의미가 없는 측정형 온도, 시간 비율 ratio 절대값, 배수가 의미 있는 측정형 키, 몸무게, 용돈, 교통사고 건수 범주형 non-metric 명목 nominal 개체를 분류하기 위한 속성 성별, 거주형태, 고향 순서 ordinal 개체의 크기를 나타내는 척도 학점 A, B, ... / 소득 상, 중, 하 한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page 1 14

확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

확률변수 random variable

함수 function 정의

•두 집합 X, Y 사이의 대응관계로 집합 X의 모든 원소들을 각각 집합 Y의 유일한 원소에 일대일 대응시키는 관계

•기호 : , - y는 x의 함수

•집합 X는 함수 f의 정의역(domain), 집합 Y는 함수 f의 공역(range)

확률변수 정의

확률실험 표본공간 S가 정의역, 실수(real number)가 공역인 측정 measure 함수

확률실험의 각 결과에 실수 값을 할당하는 assign 규칙 (함수)

•(기호) 알파벳

• ,

확률변수 종류

이산형 discrete

확률변수 X의 정의역 원소가 유한이거나 셀수 있는 경우

(예) 2개 주사위 눈금 합, 대전시 한 달 교통사고 건수

연속형 continuous

X의 정의역 원소가 무한인 경우

(예) 대전시 기업 종사자 일년 연봉, 대전 일 강수량

데이터 data

확률변수의 관측값을 데이터라 한다. 확률변수 X의 측정된 관측값은 으로 표현한다. 데이터 분석에

서는 변수의 종류를 측정형 metric (정량적 quantitative)과 범주형 non-metric (정성적 qualitative)

y = f (x) f :X→Y

X,Y ,Z,...

x = X(s) x = X(w),w⊂ S

(x1, x2,..., xn )

측정형

metric

구간 interval 배수의 의미가 없는 측정형 온도, 시간

비율 ratio 절대값, 배수가 의미 있는 측정형 키, 몸무게, 용돈, 교통사고 건수

범주형

non-metric

명목 nominal 개체를 분류하기 위한 속성 성별, 거주형태, 고향

순서 ordinal 개체의 크기를 나타내는 척도 학점 A, B, ... / 소득 상, 중, 하

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page1 14

Page 2: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

확률밀도함수 probability density/mass function

정의

•확률변수의 값이 정의역, 각 값에 대응하는 확률 값을 공역으로 하는 규칙

•규칙은 함수, 표, 그래프로 표현 - x-축의 확률변수 값, y-축은 대응하는 확률 값

• -연속형, -이산형

•확률공리 : (1)

(2)

누적 분포함수 Cumulative Distribution function

정의 definition

확률변수 X의 정의역의 가장 작은 값 부터 임의의 값 까지 ( 값을 포함) 확률 값을 누적시킨 함수

(기호) - (연속형), (이산형)

성질 property

(1) 는 비감소 nondecreasing 함수 ->

(2) ,

(3) (이산형) (연속형)

P(X = x) = P(x) = PX (x)

f (x) p(x)

f (x) > 0, p(x) > 0 for all x

p(xi ) = f (x)dx−∞

∫all xi∑ = 1

F(x)

−∞ x x

F(x) = P(X ≤ x) F(x) = f (x)dx−∞

x

∫ F(x) = P(x)−∞

x

F(x) x1 < x2 ⇒ F(x1) ≤ F(x2 )

F(−∞) = 0 F(∞) = 1

P(x) = F(x)− F(x −1) f (x) = F '(x)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page2 14

Page 3: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

확률분포함수 in R

이항분포 *binom(시험회수,p) 포아송분포 *pois(λ)  

음이항분포 *nbinom(성공회수,p) 초기하분포 hyper(관심개수M,N-M,표본개수)

카이제곱 *chisq(df) 감마분포 *gamma(𝛼, 1/β)

정규분포 *norm(μ,sd)

함수 기능

d*(x, 모수) 확률밀도함수 확률 값, f(x)

p*(x, p, 모수) 분포함수 값, F(x)

q*(p, 모수) 역분포함수 값, F-1(p)

r*(n, 모수) 분포함수 따르는 데이터 n개 랜덤하게 생성

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page3 14

Page 4: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

기대값 (The expected value)

정의

확률변수 가 확률밀도함수 을 갖는다고 가정하자. 확률변수 의 기대값은 다음과 같다.

( 데이터 분석) 평균 mean : 데이터의 크기의 중앙 center 위치 location 척도

(함수 g(x)의 기대값)

분산 variance

1) 함수 의 기대값 :

2) 데이터의 흩어짐 spread 척도

3) (간편식) (데이터 분석)

4) 분산의 양의 제곱근을 확률변수 의 표준편차(standard deviation)

정리(THEOREM)

상수 에 대하여 (1) (2)

연습문제

1) 주사위 2개를 던졌을 때 첫 주사위 눈금과 두번째 주사위 눈금의 차이에 대한 확률밀도함수를 구하시오. 그리고 기대값과 분산을 구하시오.

2) 50명의 학생이 기숙사에 살고 30대 주차가능하다. 학생이 차량을 가지고 있을 확률을 1/2이다. 주차공간이 충분하지 않을 확률을 구하시오.

X ( f (x), p(x)) X

E(X) = xi p(xi ) = xf (x)dx−∞

∫all xi∑

x =xi∑n

E(g(x)) = g(xi )p(xi ) = g(x) f (x)dx−∞

∫all xi∑

g(x) = (X − E(X))2 V (X) = E(X − E(X))2

V (X) = E(X 2 )− E(X)2

X

a,c E(a + cX) = a + cE(x) V (a + cX) = c2V (X)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page4 14

Page 5: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

3) P-F 시험을 연속해서 본다고 하자. 첫 시험에서 pass (fail) 확률은 1/2이다. 시험을 볼수록 능력이 높아져 k번째

시험의 실패 확률은 (k-1)번째 실패 확률의 1/2이다. . PASS하면 시험이 종료된다.

(1) ,

(2) 확률밀도함수를 구하시오.

(3) 시험을 2번 이상 봐야 할 확률을 구하시오.

(4) 시험을 한 번 이상 보았다고 할 때 정확하게 2번 봤을 확률을 구하시오.

4) 이산형 확률변수 X의 확률밀도함수는 이다.

(1) 구하시오.

(2) 일 때 구하시오.

5) (St. Petersburg Paradox) 주머니에 $1이 있고 동전을 던져 앞면이 나타나면 주머니 돈이 2배가 된다. 동전 던지기는 뒷면이 한 번 나타나면 종료되며 주머니의 돈은 상금으로 가져간다. 그러므로 게임참가자가 동전을 던져 뒷면이 첫 번째 나오면 $1, 두번째 나오면 $2, 세 번째는 $4… 받는다. 참가비가 얼마이면 게임에 참여할 것인가? 상금을 확률변수 X라 하자.

(1) E(X) 구하시오.

(2) 상금이 $65이상일 확률을 구하시오.

6) 확률변수 X에 대하여 을 최소화 하는 상수 a를 구하시오.

7) 주사위를 던져 나온 눈금만큼 천원을 받는다. 게임을 여기서 종료할 수 있고 상금을 받는다. 참가자가 원하면 다시 주사위를 던져 나온 눈금만큼 천원 받는다. (물론 첫 주사위 상금은 소멸된다) 상금을 최대화 하기 위한 전략을 구하시오.

P(Fk ) =12P(Fk−1)

P(X = k) k = 1,2,3

P(X = k)

PX (x) =

1/ 2, x = 10.3, x = 21/ 5, x = 30,otherwise

⎨⎪⎪

⎩⎪⎪

E(X),V (X),SD(X)

Y = 2 / X E(Y )

E(X − a)2

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page5 14

Page 6: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

Bivariate - Joint PDF 결합확률밀도함수

개념

•2개 확률변수를 동시에 고려함 - 주유소에서 시간 당 주유하기 위하여 방문하는 차량 대수(이산형 확률변수)와 매출액(연속형 확률변수), 매출 경유량(연속형)과 휘발유량(연속형)

•일반적으로 동일 형태의 확률변수의 결합

정의

확률변수 가 동시에 발생하는 경우

(1) 결합확률밀도함수 joint PDF :

(2) 누적확률분포함수 joint CDF

(3) 확률공리 : (a) for all (b)

주변확률밀도함수 marginal PDF

•이변량 결합확률밀도함수에서 개별 확률변수 확밀도함수를 의미함

•각 확률변수 값에 대하여 다른 확률변수 값의 확률을 더하여 계산

,

,

주변확률밀도함수도 확률의 공리를 만족한다.

조건부 확률밀도함수 conditional PDF

한 확률변수의 값이 주어졌을 때 다른 확률변수의 PDF

(이산형)

(연속형)

조건부 확률밀도함수도 확률의 공리를 만족한다.

(X,Y )

P(X = x,Y = y) = PXY (x, y) = fXY (x, y)

FXY (x, y) = P(X ≤ x,Y ≤ y)

f (x, y) ≥ 0 x, y f (x, y) = 1∫∫

PX (x) = PXY (x, y)y∑ PY (y) = PXY (x, y)

x∑

fX (x) = fXY (x, y)dyy∫ fY (y) = fXY (x, y)dx

x∫

PY |X (y | x) =PXY (x, y)PX (x)

fY |X (y | x) =fXY (x, y)fX (x)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page6 14

Page 7: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

독립 independence

•만약 (조건부PDF=조건부PDF), 확률변수 X, Y는 독립이다.

•두 확률변수 X, Y가 독립이면,

기대값 (이변량)

1)

2)

3) 만약 (서로 독립),

4) 상수 에 대하여 ,

공분산 covariance과 상관계수

공분산

두 확률변수 간 선형관계 정도를 측정 (한 확률변수의 값이 증가하면 다른 확률변수의 값이 직선의 관계 속에서 변하는 정도)

(정의)

•만약 확률변수 는 서로 독립이면, 이다. 그러므로

•그러나 다 공분산이 0이라고 는 서로 독립이 아닐 수 있다.

상관계수 correlation coefficient

공분산 단위의 표준화를 위하여 각 변수의 표준편차로 공분산을 나눈 값으로 을 갖는다.

PY |X (y | x) = PY (y)

fXY (x, y) = fX (x) fY (y)

E(aX ± cY ) = aE(X)+ cE(Y )

V (aX ± cY ) = a2V (X)+ c2V (Y )± 2acCov(X,Y )

X ⊥ Y V (aX ± cY ) = a2V (X)+ c2V (Y )± 2acCov(X,Y )

ci E( ciXii∑ ) = ciE(Xi )

i∑ V ( ciXi

i∑ ) = ci

2V (Xi )i∑ + 2 cicjCov(Xi ,Yj )

i> j∑

)()()())())(((),( YEXEXYEYEYXEXEYXCOV −=−−=

(X,Y ) E(XY ) = E(X)E(Y ) COV (X,Y ) = 0

COV (X,Y ) = 0 (X,Y )

(예제) 이변량 확률변수 의 확률밀도함수는 이다.

(1) 공분산은 0이다.

(2) 주변 확률밀도함수 , 이므로

이므로 는 서로 독립이 아니다.

(3) 그러므로 공분산이 0이라고 서로 독립은 아닐 수 있다.

(X,Y ) p(x, y) = 1/ 3, for (x, y) = (−1,0),(0,1),(1,0)

p(x) = 1/ 3, for x = −1,0,1 p(y = 0) = 2 / 3, p(y = 1) = 1/ 3p(x, y) ≠ p(x)p(y) (X,Y )

ρ = Corr(X,Y ) = COV (X,Y )V (X) V (Y )

−1≤ ρ ≤1

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page7 14

Page 8: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

연습문제

1) 이산형 이변량 확률변수의 결합확률밀도함수이다.

1) P(X=0,Y≤1) 계산하시오.

2) 주변 PMFs of X & Y 구하시오.

3) P(Y=1|X=0) 계산하시오.

4) X와 Y는 독립인가?

5) Y=1이 주어진 경우 X의 조건부 PDF 구하시오.

6) 을 구하시오.

7) Z=(Y-2X)의 확률밀도함수를 구하시오.

8) 일 확률을 구하시오.

2) 박스 안에는 불공정한 코인 ( ) 1개, 공정한 코인 1개가 있다. 박스에서 동전을 하나 선택하여 던졌

을 때 앞면(Head)이 나타나면 X=1, 뒷면(Tail)이면 X=0으로 확률변수 X를 정의한다. 박스 안에 동전을 던져 앞면이 나타나면 Y=1, 뒷면이면 Y=0인 확률변수 Y를 정의한다.

(1) 이변량 결합확률밀도함수를 구하시오

(2) 확률변수 X, Y는 독립인가?

3) 하이마트에서 지난 10개월 동안 (냉장고, 가스렌지) 가전제품을 구매한 고객 데이터를 분석한 결과 다음을 얻었다면 아래 질문에 답하시오.

1) 냉장고와 가스렌지 팔린 개수의 기대값을 구하시오.

2) 공분산과 상관계수를 구하시오.

PX|Y (x |1)

E(X |Y = 1)

P(X = 2 | Z = 0)

P(H ) = 2 / 3

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page8 14

X Y 0 1 2

0 1/6 1/4 1/8

1 1/8 1/6 1/6

냉장고

가스

0 1 2

0 0.08 0.14 0.12

1 0.09 0.17 0.13

2 0.05 0.18 0.04

Page 9: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

기대값과 분산 활용

1) 기대값의 크기는 이윤의 크기

2) 분산의 크기는 위험의 크기

재산의 포트폴리오 시나리오 중 어떤 것을 택하는 것이 가장 좋은가?

예제 데이터 PORTFOLIO.csv

4개 회사 (GE, GM, McDonald, Motorola) 수익률 자료이다. 다음 3개의 포트폴리오 시나리오 중 어느 것을 선택하는 것이 좋은지 결정하시오.

(1) (GE, GM, McDonald, Motorola)=(0.25, 0.25, 0.25, 0.25)

(2) (GE, GM, McDonald, Motorola)=(0.1, 0.2, 0.3, 0.4)

(3) (GE, GM, McDonald, Motorola)=(0.1, 0.5, 0.3, 0.1)

산점도 scatter plot

1) 개념

•두 측정형 (적어도 순서형 범주형) 변수의 함수관계에 시각적 표현

2) 산점도 (scatter plot) 그리기

•두 측정형 변수의 함수관계를 표현한 2차원 그래프 : 데이터 쌍으로 관측치를 활용

•인과관계가 있다면 종속변수에 해당되는 변수를 y-축, 설명변수에 해당되는 변수를 x-축

•직선 함수 관계 정도를 상관계수로 표현한다. - 왜 직선인가? 해석이 용이하다. 기울기

(인터넷 이미지)

(xi , yi )

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page9 14

Page 10: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

Karl Pearson 상관계수

계산식

두 확률변수 라 하자.

(데이터)

상관계수 크기 예제

(인터넷 이미지)

해석

•상관계수는 두 확률변수의 직선 관계 정도에 대한 척도이다. (linearly functioned)

•상관계수는 -1과 1사이 값이며, 1=완벽한(모든 점들이 직선 위에 있음) 양(한 변수 관측값이 증가하면 다른 변수의 관측값이 증가) 상관관계, -1=완벽한 음(한 변수의 관측값이 증가하면 다른 변수 관측값은 감소)

•상관계수 0은 직선의 관계가 없음을 의미함 (예제 플롯 3행의 경우 4차 함수, 마름모, 사각형, 원 등의 함수 관계는 상관계수가 0이다.

•상관계수가 크면 관측값이 직선에 가까움 - 타원의 폭이 좁고 길이가 길수록 상관계수 에 가까워짐

•실험실 자료와 같이 연구자가 자료 수집을 control 할 수 있는 경우는 0.9 (매우 유의), 0.8(유의), 0.7(little 유의) 하다고 한다,

•설문 조사의 리커드 척도와 같이 변수가 가질 수 있는 값이 한정된 경우 (1-5점, 물론 여러 문항을 합쳐 평균을 이용하는 경우에는 다소 문제가 해결되지만) 상관 계수는 매우 낮다. 그러므로 이런 경우는 비모수 상관 계수를 구하는 것을 권한다. Spearman 순위 상관 계수, Kendall's Tau는 비모수 상관 계수 분석 방법이다.

(xi , x j )

ρij =E(Xi − E(Xi ))(Xj − E(Xj ))

E(Xi − E(Xi ))2 E(Xj − E(Xj ))

2=

COV (xi , x j )SD(xi )SD(x j )

rij =(xi − xi )(x j − x j )∑

(xi − xi )2∑ (x j − x j )

2∑

±1

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page10 14

Page 11: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

Pearson 상관계수 추론

1) 상관계수 유의성 검정

귀무가설 : 두 변수는 서로 독립이다. 상관관계가 없다.

대립가설 : 두 변수의 상관관계가 존재한다(유의하다).

검정통계량 :

2) 검정

•상관관계 유의성 검정이 아니라 임의의 상관계수와 동일한지 검정

•활용 : 미국의 경우 부자 키의 상관계수는 0.65이다. 한국의 경우 미국과 부자의 키의 상관계수가 같다고 할

수 있나? 귀무가설 :

•검정통계량 :

상관계수 활용

데이터 💾 Crime.csv

1959년 경찰관련 예산과 1960 경찰관련예산 상관분석 실시하시오.

H0 :ρ = 0

Ha :ρ ≠ 0

r − ρ0 (= 0)(1− r2 ) / (n − 2)

~ t(n − 2)

H0 :ρ = ρ0

H0 :ρ0 = 0.65

TS =

12ln(1+ r1− r

)− 12ln(1+ ρ01− ρ0

)

1 / n − 3~ N(0,1)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page11 14

외부데이터 불러오기

상관계수=0.99, 유의확률<0.001, 매우 유의

경찰관련 예산 59년 예산이 높은 도시는 60년 예산도 높다.

Page 12: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

산점도 활용 - 회귀분석

산점도

•두 확률변수의 함수관계에 대한 시각적 표현

•함수관계 중 가장 활용성이 높은 것은 직선이다 =>

회귀모형

•Y를 종속변수(결과), X를 설명변수(독립변수, 원인)라 한다.

•종속변수 관측값( )은 패턴(직선, 모형)에 의해 설명되는 부분( )과 설명되지 않는 오차( )항 부분

으로 나뉜다.

•오차항은 평균 0이고 표준편차가 인 정규분포를 따른다.

•회귀모형에서 모수는 (절편=𝛼, 기울기=β)이다. 물론 표준편차 도 모른다.

최소자승추정법 OLS ordinary Least Square

•관측 데이터에 가장 적합한(Best fit curve) 직선을 구하고, 이 직선에 점들이 얼마나 가까이 놓여 있는가를 판단하여 직선관계 유의성 여부를 검정

• OLS 추정치

• ( )

회귀계수 β 가설검정 - (설명변수 유의하지 않음)

•귀무가설 (설명변수 X의 유의성 검정 할 때 )

•대립가설

•검정통계량 test statistic ,

회귀계수와 상관계수 관계

•부호가 동일하며 유의성 검정도 t-검정으로 동일하고 유의확률도 같다.

•즉 상관관계(직선 관계)가 유의하면 회귀(직선)모형도 유의하다.

Y =α + βX

Yi =α + βXi + ei

Yi α + βXi ei

σ ei ~ N(0,σ2 )

σ

mina,bQ = ei

2 =i∑ (yi − a − bxi )

2

i∑

−−=

2)(

))((ˆxx

yyxx

i

iiβxx

xy

S

S=β̂

xy βα ˆˆ −=

H0 :β = 0

H0 :β = β0 H0 :β = 0

H0 :β ≠ β0

TS = β̂ − β0s(β̂ )

~ t(n − 2) s(β̂ ) = MSESxx

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page12 14

Page 13: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

분산분석표 ANOVA table

•귀무가설 : 설정한 가 유의하지 않음 <=> (설명변수 유의하지 않음)

•대립가설 : 설정한 가 유의

결정계수 Determination Coefficient

•(계산) => 총변동 중 모형이 설명하는 비율

•결정계수 값의 최대 1이고 최소 0이다. 90% 이상이어야 종속변수를 충분히 설명, 80% 이상이면 보통

•단순(설명변수 1개) 회귀분석에서는 상관계수의 제곱이 결정계수이다.

회귀분석 활용

고정비용과 한계비용 💾 BASEBALL.csv : Wins-승리게임 수, Payroll - 구단지불 총년봉(단위: 백만불)

yi =α + βxi H0 :β = 0

yi =α + βxi

변동 자승합 자유도 평균자승합 기대평균 F-통계량

모형변동 SSR 1 MSR=SSR/1 F=MSR/MSE

~F(1,n-2)오차변동 SSE n-2 MSE=SSE/(n-2)

총변동 SST n-1

E(MSE) =σ 2

σ 2 + β 2 (xi − x )2∑

R2 = SSRSST

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page13 14

read.csv() : CSV 데이터 불러오기

attach() : 향후 이 데이터 사용, ds$ 사용할 필요 없음

plot() : 산점도 그리기. main은 제목

lm() : 회귀모형 분석

summary() : 분석결과 표 출력

cor.test() : 상관분석

Page 14: 확률변수 random variable - wolfpack.hnu.ac.krwolfpack.hnu.ac.kr/2015_Fall/D4BE/IS_확률변수_기대값.pdf · 확률변수_기대값 기대값 (The expected value) 정의 확률변수

통계학 기초

확률변수_기대값

•추정 회귀식 :

•유의확률이 0.0014로 유의수준 5%보다 작으므로 귀무가설( , 설명변수 연봉은 승리게임 수를 설명하

는데 유의하지 않다)니 기각되어 구단 지불연봉은 승리게임 수에 영향을 미친다.

•회귀계수가 0.78로 +이므로 지불 연봉이 많을 구단일수록 승리게임이 많아진다.

•고정비용 : 14.2백만불 - 한 게임을 이기지 못해도 기본 지불되는 고정 연봉

•한계 비용 : 0.78백만불을 투자하면 한 게임을 이길 수 있음. - 즉 한 게임을 이기기 위하여 0.78백만불을 지불해야 한다.

•결정계수 =30.7(%)

•승리게임수를 연봉이 30.7% 밖에 설명하지 못한다. 승리게임 수를 보다 잘 설명하는 다른 추가 설명변수를 찾는 것이 향후 분석에서 필요함.

회귀분석 활용2

시스템 & 기업-특성 위험 💾 RIM.csv RIM(블랙베리 제조사) 회사 수익률, NASDAK 수익률

•추정회귀모형 :

•기울기 해석 : - 종합주가 수익률 1% 증가하면 RIM 수익률은 1% 이상 증가하므로 RIM 수익률은

유동성이 높다. 즉, 다른 기업 주가에 비해 위험도가 높다.

•결정계수 : RIM 수익률에 대한 시장 시스템이 설명하는 비율, 결정계수가 낮으면 해당 기업의 수익률은 시장 시스템이 결정하는 것이 아니라 기업의 특성이 더 중요한 결정요인이다.

Win = 14.2 + 0.778*Pay

H0 :β = 0

R2 = SSRSST

= SSRSSE + SSR

= 715715 +1613

RIM = α̂ + β̂NASDAK

β β >1

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr

/ Page14 14