Upload
ganit
View
62
Download
4
Embed Size (px)
DESCRIPTION
地球観測衛星による 植生指標データからの 長期年間変動のモデリング -ML 法、 MAP 法を用いて -. 高知大学理学部 情報科学教室 吉岡和浩・本田理恵 JPGU 2008. はじめに. リモートセンシングによって地球環境データが長期間にわたって蓄積され、また、データの整備 ( 校正)が進んできた。 e.g, NOAA GIMMS (NDVI 1981 - 2006 の 25 年分) 他方、機械学習や統計学習の手法を利用して大量データから知識発見を行う“データマイニング”の研究が諸分野で発展している。 - PowerPoint PPT Presentation
Citation preview
地球観測衛星による植生指標データからの長期年間変動のモデリング-ML 法、 MAP 法を用いて -
高知大学理学部 情報科学教室
吉岡和浩・本田理恵JPGU 2008
はじめに
リモートセンシングによって地球環境データが長期間にわたって蓄積され、また、データの整備 ( 校正)が進んできた。 e.g, NOAA GIMMS (NDVI 1981 - 2006 の 25
年分) 他方、機械学習や統計学習の手法を利用して大量デー
タから知識発見を行う“データマイニング”の研究が諸分野で発展している。
リモートセンシングデータからも、データマイニング的アプローチにより有用な変動パターンの発見が可能になることが期待できる。
2
The GIMMS (Global Inventory Modeling and Mapping Studies)
地球観測衛星 NOAA 7, 9, 11, 14, 16 , 17号搭載の AVHRR から構築された NDVI(植生指標)のデータセット 1981-2006年( 25年分 ! )
Viewing geometry, 火山性エアロゾル , その他の影響要因の校正がなされている
3
Year2000NDVI
Color NDVI 植物 活動黄色 小 小
緑 大 大
0
1000
2000
3000
4000
5000
6000
7000
8000
0 500 1000 1500 2000 2500 3000 3500 4000 4500
Example of MODIS EVI Data
問題点 EVI, NDVI など、植物活動指標は、大気、地表 ( 雪
など)、センサの状態などの影響により、ノイズや欠落を多く含み、そのまま扱うのが難しい
過去の検討例
Zhang et al. 2003 恣意的な分割、欠落値補間による最小2乗法フィッティング ML, MAP 法による統計的モデリング( Honda 2006)
→ 一年単位のデータにしか対応していなかった。
c
c
cc
c c
cc
c
T
EVI
jtba
jij
ci
cii
de
ctf
tttf
tttftF
ijj
1)|(
)|(
)|()|(
22
11
This may cause the bias of the soluiton.
本研究の目的
植生指標“多年”データのモデリングをデータマイニング的アプローチで検討する ノイズ・欠落への高い耐性確保
→ 統計モデリングのアプローチ スケーラビリティ確保
→大量データへの適用性 自動化
→恣意的なデータ操作を排除 高利用性確保
モデル関数へのフィッテング問題とすることで、 2次情報の抽出など利用性を高める→ green up 時期の推定など
6
モデル関数7
2,1,,2,1|,,,},2,1,,2,1|{
2,1,,2,1,)*exp(1
)|(
),|(
),|()|(
12
1
jnkdcbajnk
jnkdtba
ctf
tbttttf
ttttbtftF
kjkjkjkjkjkj
kjikjkj
kjkji
kikkji
kikkjii
θθθ
,θ
θ
θθ
Piecewise ロジスティック関数( Zhang et al (2003), Honda(2006) )
区分境界 は、得られたモデルの交点から自然に決める
kik ttttb
本研究で用いたパラメータ推定法
Piecewise ロジスティック関数モデルに基づいて、より統計的に厳密なパラメータ推定法を用いる Maximum Likelifood (ML) approach
モデルの周りに、観測値がある確率密度分布で存在することを仮定して、尤度を最大化するパラメータを決める
ノイズ分布をモデルに含めることができる
Maximum a Posterior (MAP) approach ノイズ分布に加え、パラメータの分布がモデル自身に含ま
れる データが欠落しているとき , MAP は、パラメータの確率
密度分布を頼りにする ノイズに加え、欠落への耐性が期待できる。
Maximum a Posterior (MAP)
観測値がモデルの周りにガウス分布を すると仮定する。
モデルパラメータの確率密度分布を仮定する。
事後確率を最大化するような、パラメータを求める
)|( DP )()|(log)( PDPS )(maxarg
S
),()(1
ii
n
i
NP
事前確率 prior probability
事後確率Posterior Probability
,),|(()|(1
) i
m
i
tFNDP
)|( tF
)(,),(),( 21 mtytytyD
observation
model
Example of fitting result
Prediction error Take one time point from each time series
and guess that value from the model built from the rest of the data.
Prediction Accuracy measure
Mean predictor
predictormean theof
rms
rmsrms e
ee
MAP Zhang et al (2003)
0.135 0.209*rmse
,),,(||
1)(
),(
Datasetji
mp tjiyDataset
ty
* Fitting error (not a prdiction error)
実験12
多年分の人工データに各方策を適用し、方策ごとの計算時間、精度の違いをみる。
各年数で 50 ケース試行 初期値の影響を軽減するため、1ケース当り 20回の試行を行い、最も尤
度または事後確率が高いものを解とする。
項目 設定手法(または数値)
アルゴリズム ML , MAP
区分化 固定 ,自動決定
年数 1,3,5,8,13,18,23
実験結果1 - 失敗件数 -13
年範囲固定ML
年範囲固定MAP
年範囲自動決定
MAP
年範囲自動決定
ML
1年 0 0 0 0
3年 0 0 0 0
5年 2 0 0 0
8年 0 0 0 0
13年 1 0 0 0
18 年 2 0 0 0
23年 2 0 0 0
実験結果の評価方法14
n
iii tFty
nerms
1
2)(1 は、対象データ
は推定結果
誤差は以下の式で算出
50 ケースを通じての、反復回数・実行時間・誤差の平均値・標準偏差を算出
)( ity
)( itF
実験結果2 - 誤差 -15
0
100
200
300
400
500
600
0 5 10 15 20 25年数
誤差
ML(年範囲固)定
MAP(年範囲)固定
0
100
200
300
400
500
600
0 5 10 15 20 25年数
誤差
ML(年範囲自)動決定
MAP(年範囲)自動決定
ML(年範囲固)定
MAP(年範囲)固定
実験結果 3-反復回数 -16
0
10000
20000
30000
40000
50000
60000
0 5 10 15 20 25年数
反復回
数(回
)
ML(年範囲固)定
MAP(年範囲固)定
ML(年範囲自)動決定
MAP(年範囲自)動決定
で増加)(nO
実験結果 4- 実行時間 -17
0102030405060708090
100
0 5 10 15 20 25
年数
実行
時間
(秒)
ML( )年範囲固定
MAP(年範囲固)定
ML(年範囲自動)決定
MAP(年範囲自動)決定
で増加)( 2nO
対策18
0
1000
2000
3000
4000
5000
6000
7000
8000
0 500 1000 1500 2000 2500 3000 3500 4000 4500
VI
日数
モデリング範囲を固定し、スライド 範囲を5年とし、2年のオーバーラップを持たせる → データの始点、終点付近の精度の維持の為
実験結果5 - 実行時間 -19
0102030405060708090
100
0 5 10 15 20 25
年数
実行
時間
(秒)
ML( )年範囲固定
MAP(年範囲固)定
ML(年範囲自動)決定
MAP(年範囲自動)決定
ML(推定範囲スラ)イド
MAP(推定範囲ス)ライド
)(nO
Application
Zhang et al (2003)
Accurate determination of Phenological transition dates
結果 本研究の手法は、ノイズ・欠落に耐性をもち、スケーラブルで、自
動化可能、という、データマイニングに好ましい性質を備える可能性を確認した。 ML, MAP 法
→ ノイズ、欠落への耐性確保 年境界自動決定
→ 人為的作業を排除しつつ、複数年になっても 1年の時と同様の制度が確保できる
推定範囲を区分化しスライド 計算時間 から に削減→スケーラビリティ確保
MAP の ML に対する優位性は明確には確認できず 今後は、 GIMMS, MODIS-EVI など、現実の長期間、広範囲のデー
タでの検証を行っていく
21
)( 2nO )(nO