Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
- 1 -
패턴인식 개론
Ch.5 확률 변수와 확률 분포
- 2 -
■ 확률변수란 무엇인가?
확률변수
• 주사위 던졌을 때 3이 나올 확률을 P(X=3) = 1/6 또는 사람의 몸무게가 70kg 일 확률밀도를 p(X=70) = 0.032로 표현할 때, 이처럼 시행 결과 하나 하나를 수치로 대응시키는 X 를
'확률변수' 혹은 '랜덤변수(random variables)‘라 정의한다.
• 랜덤변수 X 는 이와 같이 시행 결과 ζ (zeta) 를 실수치 X(ζ) 로 대응시키는 함수로서, 샘플공간의 모든 요소들을 실수(또는 실선)에 매핑을 수행하게 된다.
랜덤변수(random variables)는
주사위 굴리기의 결과와 같이 이산변수(discrete variable)일 경우도 있고,
표본 추출된 몸무게와 같이 연속변수(continuous variable)일 수도 있다.
- 3 -
■ 확률 분포란 무엇인가?
확률분포
• 수치로 대응된 확률변수의 개별 값들이 가지는 확률 값의 분포를 “확률분포”라 함.• 확률변수가 취할 수 있는 구체적인 값 하나 하나를 확률공간상의 확률 값으로 할당해 주는 함수를 “확률분포함수”라 함.
예1) 두 개의 동전을 던지는 확률 실험에서 앞면이 나오는 숫자
예2) 두 개의 주사위를 던져서 나오는 점들의 합
- 4 -
■ 누적분포함수
확률함수의 종류
확률변수 X의 누적분포함수 ( cumulative distribution function, cdf ) FX (x)는확률변수 X 가 {X ≤ x} 인 확률함수이다.
■ 누적분포함수의 성질
for ][)( xxXPxFX
babFaF
xF
xF
xF
XX
Xx
Xx
X
if )()(
0)(lim
1)(lim
1)(0
- 5 -
■ 확률밀도함수와 확률질량함수
확률함수의 종류
확률밀도함수 (probability density function, pdf), fx(x) 는연속확률변수 X 의 누적분포 Fx (x) 의 미분값으로 정의한다.
이산확률변수에서는 확률밀도함수와 동일한 개념으로 이를 특별히 확률질량함수 (probability mass function, pmf)라고 한다.
■ 확률밀도함수의 성질
dX
xdFxf X
X
)()(
X
xFxf X
X
)()(
0][ if ][
]}[{)|( where)|( )|(
)(1
)()(
)(][
0)(
APAP
AxXPAxFAxF
dx
dAxf
dxxf
dxxfxF
dxxfbxaP
xf
XXX
X
x
XX
b
a
X
X
- 6 -
■ 확률밀도함수에서 확률의 의미
확률함수의 종류
확률밀도함수는 확률의 밀도를정의하는 것이므로, 실제 확률을 얻기 위해서는 확률밀도함수를 일정구간에서 적분하여야 함.
확률질량함수는 실제확률을나타냄.
- 7 -
n 값을 증가시키면 통계적 확률, 즉 근사확률 p(x) 에 접근하게 된다. 그러므로 다음과 같이 되고,
이 식을 x의 기대값(expectation)이라고 한다. 이는 각 값의 가중 산술평균을 확률적용어로 표현한 것인데, 어떤 실험을 무수히 반복했을 때 예상되는 평균 값을 말하며, 연속확률변수인 경우에는 다음과 같이 표현된다.
■ 기대값 : 확률변수의 평균
x
확률함수의 종류
) ( here w
11
x x1
수자료점의가진값을는상대돗수는 xnn
n
n
nxxn
nx
nx
xx
all
x
all
x
n
i
i
x
)(][all
xxpE x
- 8 -
확률함수의 종류
)()(
1
where1
)()(1
1
x
22
x
2
1
22
all
x
all
xn
i
i
xpx
n
n
n
nxxxx
ns
상대돗수는
■ 확률변수의 분산/표준편차
이산자료의 확률변수 (일반자료 와 모집단자료)
연속자료의 확률변수
- 9 -
■ 벡터 랜덤변수
벡터 랜덤변수
확률 변수를 2개 이상 고려한 경우로 확률변수의 개념을 확장한 것으로 열(column)벡터로 정의된다. 2개의 랜덤변수를 고려한 경우를 이중 랜덤변수라고 한다. 즉, 표본 공간 S에서 정의되는 두 개의 랜덤변수 X, Y 를 고려할 경우에 두 개의 랜덤 벡터는 각각 x, y 라는 값을 가지며 순서쌍 (x, y) 로 표현되는 새로운 표본 공간(이를 결합 표본공간이라고한다)의 xy 평면상의 임의의 점(random point)에 대응될 것이다. 그리고 누적분포함수와확률밀도함수 개념은 "결합 누적분포함수(joint cdf)"와 "결합 확률밀도함수(joint pdf)"로확장된다.
- 10 -
■ 단일 랜덤변수의 누적 분포함수의 표현
}{)( },{)( yYPyFxXPxF YX
벡터 랜덤변수
■ X,Y의 이중 벡터 랜덤변수의 누적 분포함수의 표현
■ 랜덤 벡터 가 주어질 경우
결합 누적분포함수 (Joint Cumulative Density Function)
결합 확률밀도함수 (Joint Probability Density Function)
)(},{ },,{),(, BAPyYxXPyYxXPyxF YX
- 11 -
랜덤벡터의 통계적 특징
랜덤 벡터의 통계적 특징은 결합 누적분포함수(joint cdf) 혹은 결합 확률밀도함수(joint pdf)를 이용하여 정의할 수 있다. 또한 랜덤 벡터를 스칼라 확률변수에서 정의한 것과 같은 방식으로 표현할 수 있다.
평균 벡터
공분산 행렬 : 랜덤 벡터에서 차원의 각 특징간의 관계를 나타낸다.
공분산 행렬의 성질
- 12 -
공분산 행렬과 상관계수
공분산 항은 다음과 같이 표현 될 수 있다.
. , , 2 한다상관계수라를여기서이고 ikkiikikiii cc
- 13 -
공분산 행렬의 예
다음과 같이 3차원 분포의 표본이 주어진 경우, 공분산 행렬과 모든 변수 쌍에 대한 분산플롯을 완성하시오.
- 14 -
■ 단변량 가우시안(Gaussian) 확률밀도함수
가우시안 분포
2
2
22
1exp
22
1)4,0;(
xxf
2
2
3
2
2
1exp
32
1)9,2;(
xxf
2
2
52
1exp
52
1)25,0;(
xxf
- 15 -
가우시안 분포
■ 다변량 가우시안 확률밀도함수
2
1
25.00
05.021
2
1exp
8)2(
1
40
02,
2
1;
2
1
212
2
1
x
xxx
x
xf
9
5
25.05.0
5.0295
2
1exp
2)2(
1
82
21,
9
5;
2
1
212
2
1
x
xxx
x
xf
- 16 -
중심극한정리
중심극한정리(central Limit Theorem) : 평균, μ, 와 분산, σ 2,를 갖는 경우 평균의 표본분포는 표본의 크기(N )가 증가함에 따라, 평균, μ, 과 분산, σ 2/N 을 갖는 정규분포로 접근한다.
정규분포의 자료로부터 500번의 실험을 수행한 경우
• N=1 : 분포로부터 하나의 표본을 추출하고 그의평균을 기록 ( 히스토그램은 일정한 밀도를 보임)
• N=4 : 분포로부터 4개의 표본을 추출하고 그의평균을 기록 (히스토그램은 가우시안 분포를 보이기 시작함)
• N=7 그리고 N=10 경우도 마찬가지임.
• N이 증가함에 따라서 히스토그램의 모양이 점점더 정상분포를 닮아 간다.
■ 가우시안 분포가 자주 사용되는 이유
* 1차원의 특징 벡터일 경우에는 두 개의 파라미터, 평균과 표준편차 (μ,σ) 만으로도 정상분포를 특징 짖기에 충분함.
* 중심극한정리(Central Limit Theorem)
- 17 -
■ 완전 공분산 가우시안 형태
2
212
12
2
1
c
c
가우시안 분포
■ 대각 공분산 가우시안 형태
■ 구형 공분산 가우시안 형태
2
212
12
2
1
c
c
2
2
2
1
0
0
2
2
0
0
- 18 -
■ MATLAB 실습
가우시안 분포
>> N=10000;
>> mu = [730 1090]; sigma_1=[8000 0; 0 8000];
>> X1= randn(N,2) *sqrtm(sigma_1) + repmat(mu,N,1);
>> gaussview(X1, mu, sigma_1,’amplitude X1’);
>> sigma_2=[8000 0; 0 18500];
>> X1= randn(N,2) *sqrtm(sigma_2) + repmat(mu,N,1);
>> gaussview(X1, mu, sigma_2,’amplitude X1’);
>> sigma_3=[8000 8400; 8400 18500];
>> X1= randn(N,2) *sqrtm(sigma_3) + repmat(mu,N,1);
>> gaussview(X1, mu, sigma_3,’amplitude X1’);