Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
4-1
- 동일한 조건하의 측정이라 하여도 대체로 편차를 가지고 있음
- 편차에 기여하는 원인
측정장치 : 분해능, 반복성
측정과정 및 측정기술 : 반복성
피측정값 : 시간에 따른 편차, 공간에 따른 편차
Chosun University
제4장 확률과 통계 (Probability and Statistics)4.1 서론
4-2
- 표본자료 : 고정된 작업조건 하에서 변수의 반복측정을 통하여 얻어진 자료의 집합
- 피측정치(measurand) : 측정된 변수
- 진평균치
o : 최적 추정치
o : 확률수준 P % 에서 추정치의 신뢰구간 또는 불확실도
Chosun University
4.2 통계적 측정이론
xxu
%)(' Puxx x
4-3
확률 도 함수(Probability Density Functions)
- 피측정치 무작위 변수 (random variable)
- 이산적인 값 이산 무작위 변위
- 무작위 변수의 집중경향(central tendency)
: 다른 값들이 한 중앙값 주위에 산포하는 경향
o 확률 도 : 측정된 변수가 특정한 값이나 값의 구간을 취하는 빈도
o 히스토그램 (histogram) : 측정치가 로 정의되는 구간내의 값을 취하는 횟수, 도시
- 구간의 수 K의 추정치
- 적어도 한 구간에서는
o 빈도분포 : (그림 4.2 예제 4.1)
Chosun University
xxxxx
Nnf j
j
1187.1 4.0 NK5jn
jn
4-4 Chosun University
4-5
확률 도 함수 P(x)는 빈도분포로부터 와 의 극한을 취하여 구한다
: 측정된 변수와 발생 확률간의 관계를 규정
: 개별 측정에서 측정된 변수가 어떤 특정한 값을 가질 확률을 정의하며 변수의 집중경향을 보여줌 (표4.2참조)
평균값 또는 집중경향
- 연속 무작위 변수 : x
- 불연속적인 자료
Chosun University
0xN
, 0( ) lim
2x
j
N
np x
N x
dxxxpx )('
N
iiN
xN
x1
' 1lim
T
Tdttx
Tx
0
' )(1lim
4-6 Chosun University
4-7
분산
- 불연속 자료
- 표준편차 : : 분산의 제곱근
Chosun University
22 '
0
22 '
1lim [ ( ) ]
( ) ( )
T
Tx t x dt
T
x x p x dx
2 ' 2
1
1lim ( )N
iN ix x
N
4-8
정규 또한 Gaussian 분포 (Normal or Gaussian Distribution)
- 확률 도함수
의 진평균 의 분산
o 의 최대값은
o 최대확률을 가진값 : 진평균
Chosun University
'xx )(xp
' 2
1 2 2
1 1 ( )( ) exp(2 ) 2
x xp x
x:2xx :'
4.3 무한통계
4-9
확률예측
:무작위 변수 가 구간 내의 값을 취할 확률 는아래의 면적으로 주어짐
Let
정규오차함수 (normal error function)
o 면적 : 측정치가 그 구간내의 값을 취할 확률 (예제 4.2/4.3)
Chosun University
)(xP)(xp
xx 'x
'1
1
'
, xxzxx
'
'
2 21 1
1
' '
' '1 1
2 21 1 1 2 1 2 0
( )
, ( %)
1 1( ) 2(2 ) (2 )
x x
x x
i i
z z
z
P x x x x x p x dx
dx d x x z x x z P
P z z e d e d
4-10 Chosun University
4-11
유한통계 : 유한한 크기의 표본을 이용하여 진평균과 진분산을 추정함
표본 평균값 : 진평균 의 최적추정치
표본분산 : 측정의 정확도를 나타내는 척도
의 편차
: 표본표준편차
분산의 자유도 : 자료이산의 척도
Chosun University
4.4 유한통계
)10( N
'x
1
1 N
ii
x xN
22
1
11
N
x ii
S x xN
2
xx SS
1N
ii xxx ::
4-12 Chosun University
4-13
(표 4.4참조)
- t 추정자 : 변수를 대신하며 유한한 자료 집합에 사용되는 새로운가중함수로부터 구함
- 구간 는 임의의 측정치가 주어진 확률 P%로 구간내의 값을 가질정 구간
평균의 표준편차 (Standard Deviation of the Means)
: N회 측정을 M회 반복 평균값의 집합
o 평균의 표준편차 : 유한자료의 집합으로부터 추정
o 진평균의 추정치 : 유한자료의 집합으로부터
(예제 4.4)
Chosun University
, ( %)i v p xx x t S P
, ,v pt Z
,v p xt S
21NSS x
x
%)(,' PStxx xpv
4-14 Chosun University
4-15
연합통계(Pooled Statistics) : 편파적(bias) 오차 무시된다고 가정
: N회 반복으로 구성된 M회 복제 측정을 통하여 이루어진 자료집합,
o X의 연합평균
o X의 연합 표준편차
자유도
o X의 평균의 연합 표준편차
Chosun University
2 2
1 1 1
1 11
M N M
x ij j xjj i j
S x x SM N M
1 1
1 M M
ijj i
x xMN
1 NMv
1 2x
x
SS
MN
ijx
4-16
o 만약 복제들 사이의 측정횟수가 서로 다르다면
- 가중평균으로 정의된 연합평균
- 연합 표준편차
- 평균의 연합 표준편차 자유도
Chosun University
1 2
1
xx M
jj
SS
N
1
1
M
j jj
M
jJ
N xx
N
1 2
2 2 21 2
1 2
......
Mx x M xx
M
v S v S v SS
v v v
M
j
M
jjj Nvv
1 11)(
4-17
: 만약 각각 N개의 자료 점을 갖는 여러 개의 자료 집합의 표본 표준편차를작도하여 보면 확률 도 함수 를 만들 수 있음
: 로부터 을 예측하는 정 도를 추정할 수 있음
- 정규분포에 대해
자유도 (그림 4.7참조)
표본분산의 정 구간
: 의미수준 (level of significance)
Chosun University
4.5 카이-스퀘어 분포(Chi-Squared Distribution)
2( )p
2 2 21 2 2( ) 1P
22
2xvS
2 2 2 2 22 1 2[ ] 1x xP vS vS
1 Nv
2xS 2
4-18 Chosun University
4-19
Ex) 로 를 추정하는 95%의 정 구간
이 구간의 경계가 2.5%와 97.5%의 의미 수준임을 주목
o 분포는 무작위 우연에 의한 차이를 추정 (예제4.5)
Chosun University
22xS
2 2 2 2 20.025 0.975x xvS vS %95
2
4-20
부합도 검사 (Goodness-of-Fit Test): 일련의 측정치들이 가정된 분포함수를 얼마나 잘 따르겠는가?
- 카이 스퀘어 검정 : 자료 집합의 측정된 변산(variation)과 가정한 분포함수가 예측한 변산의 불일치를 나타내는 척도를 제공
o 검사절차1) N개의 측정으로 구성한 자료 집합으로 K개의 구간을 가진 히스토그램을
작도2) 번째 구간에 측정치가 놓이는 발생횟수 를 구함3) 분산의 자유도 을 계산, 여기서 m :부여된 제한조건의 개수4) 를 이용하여 분포함수로부터 기대되는 예상 발생횟수 를 추정
( 산정 계산)
jn
Chosun University
p'jn N P
)...2,1( kj
' 2
2'
( )j jj
j
n n
n
'jn
v K m j
v
4-21
: 가정분포함수에 잘 부합 (good fitness)
: 부합이 의심스러움 (bad fitness)
(예제4.7)
① 5% 미만 : 잘부합
② : 애매모호한 결과
③ : 가정된 분포함수를 버림
2
Chosun University
2
2
2( ) 95%P
2( ) 1P
25% ( ) 95%P
4-22
대수 다항식을 이용한 최소자승법 (LSM)
분점 에서 함수값 , 근사함수
편차
최소자승법(Least Square Method) : 편차의 제곱의 합이 최소가 되게 함
1,2,....i n
Chosun University
( 1,.... )iX i n ( )if x ( )P X
( ) ( ),i i if x P x
2 2
1 1[ ( ) ( )]
n n
i i ii i
f x P x
4-23
직선회귀 (Line Regression)
- 1차 근사함수
- S가 최소가 되게 하는 를 구하면
- 이를 정리하면
0 1( )P x a a x
Chosun University
2 20 1
1 1[ ( ) ]
m m
i i ii i
S f x a a x
0 1,a a
0 110
0 111
2[ ( ) ] ( 1) 0
2[ ( ) ] ( ) 0
m
i ii
m
i i ii
S f x a a xaS f x a a x xa
0 11 1 1
20 1
1 1 1
1 ( )
( )
m m m
i ii i im m m
i i i ii i i
a a x f x
a x a x x f x
4-24
- 행렬로 표현하면
- 예제)
0 0.1 0.2 0.3 0.4
2.5 5.68 9.00 12.2 15.0
02
1
1 ( )( )
i i
i i i i
x f xax x x f xa
Chosun University
ix
( )if x
4-25
5
11i
ix
Chosun University
52
10.3i
ix
5
11 5
i
5
1( ) 44.38i
if x
5
1( ) 12.03i i
ix f x
0
1
5 1 44.381 0.3 12.03
aa
0
1
2.5731.54
aa
( ) 2.57 32.54P x x
4-26 Chosun University
4-27
회귀분석 : 종속변수와 독립변수 사이에 평균이 개념에서 성립하는 함수관계를 정립함
- 회귀분석은 피측정치인 종속측정변수의 변화가 각 고정된 독립변수에 대하여 정규분포를 따른다고 가정
최소제곱회귀분석
- 단일변수에 대한 회귀 분석함수 가정
여기서 독립변수갯수
- 에서 평가된 다항식의 값
다항식의 편차
: 최소값을 갖기위해
Chosun University
0 1 2 ...c
mmy a a x a x a x
,1nm
20 1
1[ ( ... )]
Nm
i mi
y a a x a x
:cii yy ),(: jici yxy
:n
2
1( )
N
i cii
D y y
4-28
o
m+1개 연립 방정식 계수결정
Chosun University
0 10 1
20 1
10 0
20 1
1
... 0
0 [ ( ... )]
.
.
0 [ ( ... )]
mm
Nm
i mi
Nm
i mim m
D D DdD da da daa a a
D y a a x a xa a
D y a a x a xa a
maa .....0
4-29
- 각 자료점과 근사식 사이의 차이로부터 표준편차
N-표본, m-다항식차수
: 근사식의 표준오차
: 다항식이 자료집합의 거동을 어떤 정 도를 기술하는가를 나타내는
척도
: 허용치까지 감소시키면서 종속독립변수 사이의 물리적 의미를
유지하는 가장 낮은 차수의 근사식
Chosun University
yxS
2
1( )
N
i cii
yx
y yS
v
)1( mNv
4-30
- 정 구간과 근사 곡선의 표현
1) 제어 가능한 독립변수에서
2) 독립 및 종속 변수가 동시에 변할때
(예제 4.8)
Chosun University
, ( %)c v p yxy t S P
1 2
2
,2
1
1 ( ) ( %)( )
c v p yx N
ii
x xy t S PN x x
4-31
선형 다항식
상관계수
여기서
완전상관
믿을만한 관계식
(예제4.9, 4.10)
Chosun University
22
1
11
N
y ii
S y yN
2
21 yx
y
Sr
S
19.0 r1r
4-32
다중선형회귀분석- 두 개 이상의 변수를 갖는 함수의 실험값을 보간하는데 유용
- 2차원의 경우 회귀분석 “선”은 ”평면”으로 됨
잔차의 제곱합
미지계수에 대한 미분
편미분이 0 이 될 때의 값
y가 과 의 선형함수일 때 다중선형회귀분석의
그래프적인 묘사
-
-
-
4-33
Ex) 다음 데이터는 방정식 를 이용해서 계산된 값들이다.
다중 선형회귀분석을 이용해서 이 데이터를 보간하라.
Gaussian Elimination
정규방정식을 구하는데 필요한 계산
4-34
격리자(outliner) : 정규 분산에서 벗어난 자료, 히스토그램으로 탐지
1) 삼편차 검정(three sigma) : 10개 남짓 크기의 자료 집합에 적합
99.8%의 범위 밖의 자료점은 격리자료로 취급
2) 수정 삼편차 검정
자료가 N개 일때 일때 격리자료
(예제4.11)
Chosun University
4.7 격리자료의 탐지(Data Outliner Detection)
xv Stx 8.99,
1.0)(5.0 0 zPN
x
i
Sxxz
0
4-35
o 신뢰구간 :
o 정 구간 : 에서 범위
o 정 값 d :
Chosun University
4.8 필요한 측정의 횟수 (No. of Measurements Required)
2195, NSt xv
2195, NStCI x
v
2195,'
NStxx x
v
2195, NSt xv
2,95 ,95
1 22v x v xt S t SCId NN d
%)95(
%)95(
4-36
o N1의 예비측정 :
측정횟수
o 부가적인 측정횟수
(예제 4.12, 4.13)
Chosun University
1
21,95 1N
T
t SN
d
KnownS 1
%)95(