18
-1- 패턴인식 개론 Ch.5 확률 변수와 확률 분포

패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 1 -

패턴인식 개론

Ch.5 확률 변수와 확률 분포

Page 2: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 2 -

■ 확률변수란 무엇인가?

확률변수

• 주사위 던졌을 때 3이 나올 확률을 P(X=3) = 1/6 또는 사람의 몸무게가 70kg 일 확률밀도를 p(X=70) = 0.032로 표현할 때, 이처럼 시행 결과 하나 하나를 수치로 대응시키는 X 를

'확률변수' 혹은 '랜덤변수(random variables)‘라 정의한다.

• 랜덤변수 X 는 이와 같이 시행 결과 ζ (zeta) 를 실수치 X(ζ) 로 대응시키는 함수로서, 샘플공간의 모든 요소들을 실수(또는 실선)에 매핑을 수행하게 된다.

랜덤변수(random variables)는

주사위 굴리기의 결과와 같이 이산변수(discrete variable)일 경우도 있고,

표본 추출된 몸무게와 같이 연속변수(continuous variable)일 수도 있다.

Page 3: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 3 -

■ 확률 분포란 무엇인가?

확률분포

• 수치로 대응된 확률변수의 개별 값들이 가지는 확률 값의 분포를 “확률분포”라 함.• 확률변수가 취할 수 있는 구체적인 값 하나 하나를 확률공간상의 확률 값으로 할당해 주는 함수를 “확률분포함수”라 함.

예1) 두 개의 동전을 던지는 확률 실험에서 앞면이 나오는 숫자

예2) 두 개의 주사위를 던져서 나오는 점들의 합

Page 4: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 4 -

■ 누적분포함수

확률함수의 종류

확률변수 X의 누적분포함수 ( cumulative distribution function, cdf ) FX (x)는확률변수 X 가 {X ≤ x} 인 확률함수이다.

■ 누적분포함수의 성질

for ][)( xxXPxFX

babFaF

xF

xF

xF

XX

Xx

Xx

X

if )()(

0)(lim

1)(lim

1)(0

Page 5: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 5 -

■ 확률밀도함수와 확률질량함수

확률함수의 종류

확률밀도함수 (probability density function, pdf), fx(x) 는연속확률변수 X 의 누적분포 Fx (x) 의 미분값으로 정의한다.

이산확률변수에서는 확률밀도함수와 동일한 개념으로 이를 특별히 확률질량함수 (probability mass function, pmf)라고 한다.

■ 확률밀도함수의 성질

dX

xdFxf X

X

)()(

X

xFxf X

X

)()(

0][ if ][

]}[{)|( where)|( )|(

)(1

)()(

)(][

0)(

APAP

AxXPAxFAxF

dx

dAxf

dxxf

dxxfxF

dxxfbxaP

xf

XXX

X

x

XX

b

a

X

X

Page 6: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 6 -

■ 확률밀도함수에서 확률의 의미

확률함수의 종류

확률밀도함수는 확률의 밀도를정의하는 것이므로, 실제 확률을 얻기 위해서는 확률밀도함수를 일정구간에서 적분하여야 함.

확률질량함수는 실제확률을나타냄.

Page 7: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 7 -

n 값을 증가시키면 통계적 확률, 즉 근사확률 p(x) 에 접근하게 된다. 그러므로 다음과 같이 되고,

이 식을 x의 기대값(expectation)이라고 한다. 이는 각 값의 가중 산술평균을 확률적용어로 표현한 것인데, 어떤 실험을 무수히 반복했을 때 예상되는 평균 값을 말하며, 연속확률변수인 경우에는 다음과 같이 표현된다.

■ 기대값 : 확률변수의 평균

x

확률함수의 종류

) ( here w

11

x x1

수자료점의가진값을는상대돗수는 xnn

n

n

nxxn

nx

nx

xx

all

x

all

x

n

i

i

x

)(][all

xxpE x

Page 8: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 8 -

확률함수의 종류

)()(

1

where1

)()(1

1

x

22

x

2

1

22

all

x

all

xn

i

i

xpx

n

n

n

nxxxx

ns

상대돗수는

■ 확률변수의 분산/표준편차

이산자료의 확률변수 (일반자료 와 모집단자료)

연속자료의 확률변수

Page 9: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 9 -

■ 벡터 랜덤변수

벡터 랜덤변수

확률 변수를 2개 이상 고려한 경우로 확률변수의 개념을 확장한 것으로 열(column)벡터로 정의된다. 2개의 랜덤변수를 고려한 경우를 이중 랜덤변수라고 한다. 즉, 표본 공간 S에서 정의되는 두 개의 랜덤변수 X, Y 를 고려할 경우에 두 개의 랜덤 벡터는 각각 x, y 라는 값을 가지며 순서쌍 (x, y) 로 표현되는 새로운 표본 공간(이를 결합 표본공간이라고한다)의 xy 평면상의 임의의 점(random point)에 대응될 것이다. 그리고 누적분포함수와확률밀도함수 개념은 "결합 누적분포함수(joint cdf)"와 "결합 확률밀도함수(joint pdf)"로확장된다.

Page 10: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 10 -

■ 단일 랜덤변수의 누적 분포함수의 표현

}{)( },{)( yYPyFxXPxF YX

벡터 랜덤변수

■ X,Y의 이중 벡터 랜덤변수의 누적 분포함수의 표현

■ 랜덤 벡터 가 주어질 경우

결합 누적분포함수 (Joint Cumulative Density Function)

결합 확률밀도함수 (Joint Probability Density Function)

)(},{ },,{),(, BAPyYxXPyYxXPyxF YX

Page 11: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 11 -

랜덤벡터의 통계적 특징

랜덤 벡터의 통계적 특징은 결합 누적분포함수(joint cdf) 혹은 결합 확률밀도함수(joint pdf)를 이용하여 정의할 수 있다. 또한 랜덤 벡터를 스칼라 확률변수에서 정의한 것과 같은 방식으로 표현할 수 있다.

평균 벡터

공분산 행렬 : 랜덤 벡터에서 차원의 각 특징간의 관계를 나타낸다.

공분산 행렬의 성질

Page 12: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 12 -

공분산 행렬과 상관계수

공분산 항은 다음과 같이 표현 될 수 있다.

. , , 2 한다상관계수라를여기서이고 ikkiikikiii cc

Page 13: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 13 -

공분산 행렬의 예

다음과 같이 3차원 분포의 표본이 주어진 경우, 공분산 행렬과 모든 변수 쌍에 대한 분산플롯을 완성하시오.

Page 14: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 14 -

■ 단변량 가우시안(Gaussian) 확률밀도함수

가우시안 분포

2

2

22

1exp

22

1)4,0;(

xxf

2

2

3

2

2

1exp

32

1)9,2;(

xxf

2

2

52

1exp

52

1)25,0;(

xxf

Page 15: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 15 -

가우시안 분포

■ 다변량 가우시안 확률밀도함수

2

1

25.00

05.021

2

1exp

8)2(

1

40

02,

2

1;

2

1

212

2

1

x

xxx

x

xf

9

5

25.05.0

5.0295

2

1exp

2)2(

1

82

21,

9

5;

2

1

212

2

1

x

xxx

x

xf

Page 16: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 16 -

중심극한정리

중심극한정리(central Limit Theorem) : 평균, μ, 와 분산, σ 2,를 갖는 경우 평균의 표본분포는 표본의 크기(N )가 증가함에 따라, 평균, μ, 과 분산, σ 2/N 을 갖는 정규분포로 접근한다.

정규분포의 자료로부터 500번의 실험을 수행한 경우

• N=1 : 분포로부터 하나의 표본을 추출하고 그의평균을 기록 ( 히스토그램은 일정한 밀도를 보임)

• N=4 : 분포로부터 4개의 표본을 추출하고 그의평균을 기록 (히스토그램은 가우시안 분포를 보이기 시작함)

• N=7 그리고 N=10 경우도 마찬가지임.

• N이 증가함에 따라서 히스토그램의 모양이 점점더 정상분포를 닮아 간다.

■ 가우시안 분포가 자주 사용되는 이유

* 1차원의 특징 벡터일 경우에는 두 개의 파라미터, 평균과 표준편차 (μ,σ) 만으로도 정상분포를 특징 짖기에 충분함.

* 중심극한정리(Central Limit Theorem)

Page 17: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 17 -

■ 완전 공분산 가우시안 형태

2

212

12

2

1

c

c

가우시안 분포

■ 대각 공분산 가우시안 형태

■ 구형 공분산 가우시안 형태

2

212

12

2

1

c

c

2

2

2

1

0

0

2

2

0

0

Page 18: 패턴인식개론 - Jun Jijun.hansung.ac.kr/PR/05 Random_variable.pdf · 중심극한정리 중심극한정리(central Limit Theorem) : 평균, μ, 와분산, σ2,를갖는경우평균의표본

- 18 -

■ MATLAB 실습

가우시안 분포

>> N=10000;

>> mu = [730 1090]; sigma_1=[8000 0; 0 8000];

>> X1= randn(N,2) *sqrtm(sigma_1) + repmat(mu,N,1);

>> gaussview(X1, mu, sigma_1,’amplitude X1’);

>> sigma_2=[8000 0; 0 18500];

>> X1= randn(N,2) *sqrtm(sigma_2) + repmat(mu,N,1);

>> gaussview(X1, mu, sigma_2,’amplitude X1’);

>> sigma_3=[8000 8400; 8400 18500];

>> X1= randn(N,2) *sqrtm(sigma_3) + repmat(mu,N,1);

>> gaussview(X1, mu, sigma_3,’amplitude X1’);