47
從從從從從從從從從從 LOD 從從 從從從 Biodiversity Research Center Academia Sinica

20141018 OD meetup #3 LOD Ecology

  • Upload
    -

  • View
    388

  • Download
    3

Embed Size (px)

DESCRIPTION

20141018 OD meetup #3 LOD Ecology @ IIS, Academia sinica

Citation preview

Page 1: 20141018 OD meetup #3 LOD Ecology

從生態資料整合經驗看 LOD 建置

麥舘碩Biodiversity Research Center

Academia Sinica

Page 2: 20141018 OD meetup #3 LOD Ecology

2

我的背景• 資訊 ( 學士 ) => 自然資源管理 ( 碩士 )• 農委會林業試驗所 2010/03 ~ 2011/07 (LOD Ecology)• 中研院生多中心 2011/09 ~

Page 3: 20141018 OD meetup #3 LOD Ecology

3

生態學 ?

• 研究生物與非生物環境交互作用的學問

• 子領域非常多• 跨尺度 , 多面向

Steward T.A. Pickett, Jurek Kolasa and Clive G. Jones Ecological Understanding (Second Edition)

Page 4: 20141018 OD meetup #3 LOD Ecology

4

為何需要資料整合的一些問題• 如何得知氣候變遷對森林碳吸存的影響 ?

• 直接以 eddy covariance 等方式計算特定森林 patch 的碳通量 (CO2 flux)• 由細胞 , 組織 , 器官 , 個體的生化反應上推 (upscaling) 到整個生態系• 能否了解不同尺度下的機制 (mechanism) 與過程 (process)?• ……

• 難以掌握的因子• 均質與否的問題 – 歐美常是整片平坦的針葉純林 , 台灣沒這樣的環境• 氣候可能與生態系物種組成與行為互相影響 ( 棲地被壓縮 / 外來種問題 )• 進而與特定現象 (e.g. 雲霧帶 ) 與干擾發生頻率 (e.g. 森林火災 ) 互相影響• 影響森林結構 , 土壤結構而影響整個物質與能量循環• ……

• 一切都互相關連 , 進而影響• 人類經濟活動• 災害與疾病• ……

Page 5: 20141018 OD meetup #3 LOD Ecology

5

This image is Andrew Mitchell's work. He's at UrbisJHD in Australia and is in their Knowledge & Information Management organization.

大尺度的研究可能緩不濟急能力 / 資源有限 ( 缺錢 , 缺人 )

能否取得較小尺度且分散的研究資料並整合上推 ?

目標除了理解現狀也要能預測未來

在探索的階段如何有效率地從資料產出資訊 ?

Page 6: 20141018 OD meetup #3 LOD Ecology

6

來源 1A 牌資料庫

來源 2B 牌資料庫

來源 3XLS / ODS Files 來源 4

CSV / TAB

來源 5DOC / ODT / PDF

Files

來源 6GIS SHP File

來源 7Text in images |||

產出資

訊 /知識

轉檔內容對齊

除錯

I will sue you!!

來源 2XML Files

世界本是如此絕望

Page 7: 20141018 OD meetup #3 LOD Ecology

7

Data Sharing – Issues

• 不准用• 找不到• 拿不到• 打不開• 不會用• 看不懂• 不合用• 不夠用

• 學術倫理 (?)

Open Data 1 star

Metadata

Open Data 3 stars

天龍八不

Page 8: 20141018 OD meetup #3 LOD Ecology

8

LOD – Linked Open Data

• Open• 就是 Open 的魔力

• Linked Data• 所有東西都要能被明確指涉 , 指涉用的名稱有特定的形式 (use URIs)• 這個形式是依據開放而且普及的 HTTP protocol (HTTP URIs)• HTTP URIs 除了用來指涉特定東西 , 做為一個網址 , 上面也要用開放標準放些有用的內容 ( 如 RDF)

• 內容要包括能連接到其他符合以上原則的東西或內容

Page 9: 20141018 OD meetup #3 LOD Ecology

9

Data Sharing – LOD

• 不准用• 找不到• 拿不到• 打不開• 不會用• 看不懂• 不合用• 不夠用

• 學術倫理 (?)

更容易找到並取用相連的資料提供理解用的脈絡完全一致的存取與使用方式探索更多的可能

Page 10: 20141018 OD meetup #3 LOD Ecology

10

LOD – 衍生問題•誰跟誰連 ?• 連結的兩頭是什麼 ?• 連結代表什麼關係 ?• 為什麼整體是這樣而不是那樣 ?

•無法回答以上問題的話要怎麼放心使用找到的資料 ?

Page 11: 20141018 OD meetup #3 LOD Ecology

11

LOD – 其實不是衍生問題而是回歸本質• 解決了資料發現 , 收集 , 轉檔等困難後 , 研究者得以專注於

domain knowledge 與 data間的關係 , 解決 domain 的問題

Page 12: 20141018 OD meetup #3 LOD Ecology

12

Domain Knowledge

• 特定領域下 / 特定的時空範圍中使用的特定語言與共識•若能被具體地被記錄 /描繪出來 , 內涵就能被檢驗 , 修正 , 信任

• Data standards• Controlled Vocabularies• (Domain) Ontologies

• 被實體化並以 URI 指涉的概念可以連結為任何一種 pattern•實體 / 連結 / 整體 pattern 是否得到 domain knowledge 的支持?•換句話說 , 依此 pattern 組織的 data 是否足以回答 domain 中的問題?• 不行的話 , 是 pattern 出問題 , 還是組織者的 knowledge 有缺陷?

Page 13: 20141018 OD meetup #3 LOD Ecology

13

生態學 ?

• 研究生物與非生物環境交互作用的學問

• 子領域非常多• 跨尺度 , 多面向

•怎麼找到連結點 ?Steward T.A. Pickett, Jurek Kolasa and Clive G. Jones Ecological Understanding (Second Edition)

Page 14: 20141018 OD meetup #3 LOD Ecology

14

找出共同的元素 – 生物

其實有的生命形式如 lichens很難界定出個體 , 至今未有定論 , 先不提 Steward T.A. Pickett, Jurek Kolasa and Clive G. Jones

Ecological Understanding (Second Edition)

已找不到原圖源

Page 15: 20141018 OD meetup #3 LOD Ecology

15

找出共同的元素 – 非生物

地點

時間

其它 ?

借用自 Dongpo Deng 2012

Page 16: 20141018 OD meetup #3 LOD Ecology

16

從資料的產生方式著手

Page 17: 20141018 OD meetup #3 LOD Ecology

17

生物族群

2013年

個體數 300隻

生物族群

2014年

個體數 500隻

生物族群

個體數 300隻

merged

個體數 500隻

生物族群

2013的觀察

對象

時間2013年

300隻

生物族群

2014的觀察

對象時間

2014年

500隻

生物族群

2013的觀察

對象時間 2013年

300隻2014

的觀察對象

時間2014年

500隻

個體數

個體數

個體數

個體數

merged

Page 18: 20141018 OD meetup #3 LOD Ecology

18

腦袋不好使找巨人借個肩膀

• Linked Open Vocabularies (當年還沒有 )

• Swoogle (其實找不太到東西而且做投影片的幾天都連不上 )

• 等等等

Page 19: 20141018 OD meetup #3 LOD Ecology

19

Extensible Observation Ontology (OBOE)

Common patternDomain knowledge

Madin et. al. 2007. An ontology for describing and synthesizing ecological observation data

Page 20: 20141018 OD meetup #3 LOD Ecology

20Madin et. al. 2007. An ontology for describing and synthesizing ecological observation data

Page 21: 20141018 OD meetup #3 LOD Ecology

自己也來試試看 mapping raw data to ontologies

21

Forest

Tree

Obs.

Mes.

Obs.Place B DBH

Mes.

Name

DBHSpecies

7.0sp1

5.6sp2

6.8sp2

CO2 Flux

Wildfiredisturbance

NEE

areaburned

TreeEntity

Mes.

C_Flux Time

Place A

Obs.

Obs.

Page 22: 20141018 OD meetup #3 LOD Ecology

22

Semantic Sensor Network Ontology (SSN)

Compton et. al. 2012. The SSN ontology of the W3C semantic sensor network incubator group

Page 23: 20141018 OD meetup #3 LOD Ecology

Design Patterns (部分 )Measurement

CharacteristicProperty

Observation

Observed EntityFeature of Interest

Observation

ValueObservation Value

Sensor

Sensor OutputStimulus

featureOfInterest only

ofEntity 1:1 ofCharacteristic 1:1

isProxyFor only

detects only isProducedBy some

hasValue some

hasValue 1:1

hasPropertysome,only

observedPropertyonly

hasMeasurement0:n

observedByonly

OBOEBOTHSSN

23

Page 24: 20141018 OD meetup #3 LOD Ecology

感覺頭好壯壯了 ready to go!!請繫好安全帶

24

Page 25: 20141018 OD meetup #3 LOD Ecology

25

第一步:準備 raw data與 ontologies(RDBMS, CSVs, EML metadata…, etc.)

第二步:將資料轉換為 RDF格式(D2RQ, 手動 )

第三步:將資料載入 RDF倉儲系統並進行 reasoning(Jena, OpenSESAME, OWLIM, Virtuoso…,etc.)

第四步:發布與連結資料(Virtuoso, Pubby, Silk, LIME…,etc)

Page 26: 20141018 OD meetup #3 LOD Ecology

LOD Ecology 與相連的其他資料集

26

感謝夏禹九 , 林朝欽 , 陸聲山 , 王豫煌四博士的指導與其他同事的支援

Page 27: 20141018 OD meetup #3 LOD Ecology

在 datahub(當年還叫做 CKAN)註冊metadata

27

Page 28: 20141018 OD meetup #3 LOD Ecology

282011-09The diagram is maintained by Richard Cyganiak (Insight Centre for Data Analytics at NUI Galway) and Anja Jentzsch (HPI)

CC BY-SA

Page 29: 20141018 OD meetup #3 LOD Ecology

292014年底的版本已有近 600 個資料集

The diagram is maintained by Richard Cyganiak (Insight Centre for Data Analytics at NUI Galway) and Anja Jentzsch (HPI)CC BY-SA

Page 30: 20141018 OD meetup #3 LOD Ecology

瀏覽資料 , follow your nose探索相關資料集最直接的方式

30

Page 31: 20141018 OD meetup #3 LOD Ecology

Content Negotiation給機器看的東西

31

Page 32: 20141018 OD meetup #3 LOD Ecology

以 SPARQL做為查詢語言SELECT DISTINCT * { ?s1 :p ?o1. ?s1 :q ?o2. ?o2 :r ?o3. ?s2 :s ?s1.}

C

J A

B

G

E

I

D

F H

:p

:q:r:q

K

:s

:r

:s

:p

:t

:t

A

B

G

E

I

:p

:q:r

:s

C

A

B I

:p

:qK

:s

:r

(1)

(2)

Query Possible results

32

Page 33: 20141018 OD meetup #3 LOD Ecology

查詢可能受某次林火影響的物種

33

Page 34: 20141018 OD meetup #3 LOD Ecology

Federated geosparql query在地圖上找尋事件 or 物種分布

34

Page 35: 20141018 OD meetup #3 LOD Ecology

Data discoveryquery the web of data

35

Page 36: 20141018 OD meetup #3 LOD Ecology

Data discoveryquery the web of data

36

Page 37: 20141018 OD meetup #3 LOD Ecology

事情其實不總是這麼理想…• 隨便亂 owl:sameAs 會出大包

– 搞不清楚 owl:sameAs兩端語意是不是完全相同時– 搞不清楚 owl:sameAs隱含了什麼意義時– 更多搞不清楚請看下列文章

• When owl:sameAs isn’t the Same: An Analysis of Identity Links on the Semantic Web(http://www.w3.org/2009/12/rdf-ws/papers/ws21)

• Reasoner 會放大 knowledge 與 logic 上出的包37

Page 38: 20141018 OD meetup #3 LOD Ecology

生物族群

2013年

個體數 300隻

生物族群

2014年

個體數 500隻

生物族群

個體數 300隻

merged(=owl:sameAs + reasoned)

個體數 500隻

生物族群

2013的觀察

對象

時間2013年

300隻

生物族群

2014的觀察

對象時間

2014年

500隻

生物族群

2013的觀察

對象時間 2013年

300隻2014

的觀察對象

時間2014年

500隻

個體數

個體數

個體數

個體數

merged

回顧一下這個

38

Page 39: 20141018 OD meetup #3 LOD Ecology

包一:兩生綱跟一種藻類植物的屬

39

我們都叫 Amphibia

http://www.tierbildergalerie.com/bild-frosch-zeichnung-6609.htm

已找不到原圖源

Page 40: 20141018 OD meetup #3 LOD Ecology

包二:同 rank 同學名卻截然不同的東西

40

有一種大蚊 ( 不是蚊子 )跟一種樹都叫做Ormosia formosana !!

Page 41: 20141018 OD meetup #3 LOD Ecology

有問題的量是包三包海…

41

http://d1thoq83xk1qlh.cloudfront.net/imagepool/48/47/484770/PLIB_484770_B10A26894A184E0BAD1ADC9B88FB2E40.jpg

Page 42: 20141018 OD meetup #3 LOD Ecology

盲點• 物種是很明確的概念 (X)• 每個物種都有其獨一無二的學名 (X)• 每個學名應該都只會代表一個物種 (X)

42

Page 43: 20141018 OD meetup #3 LOD Ecology

修正知識上的錯誤並引進更多巨人的肩膀並砍掉重練

43

Darwin-SW: Darwin Core-based terms for expressing biodiversity data as RDFby Steven J. Baskauf and Cambell O. Webb

標本

物種

採集點 原本的 knowledge ( 心虛 )

Page 44: 20141018 OD meetup #3 LOD Ecology

44

新的目標 ???

Image by Cam Webb

Page 45: 20141018 OD meetup #3 LOD Ecology

回到開頭的一些問題• 如何得知氣候變遷對森林碳吸存的影響 ?

– 直接以 eddy covariance 等方式計算特定森林 patch 的碳通量 (CO2 flux)– 由細胞 , 組織 , 器官 , 個體的生化反應上推 (upscaling) 到整個生態系

• 難以掌握的因子– 均質與否的問題 – 國外常是整片平坦的針葉純林 , 台灣沒這樣的環境– 微氣候可能與生態系物種組成與行為互相影響– 進而與特定現象 (e.g. 雲霧帶 ) 與干擾發生頻率 (e.g. 森林火災 ) 互相影響– 影響森林結構 , 土壤結構而影響整個物質與能量循環

• 一切都互相關連 , 進而影響– 人類經濟活動– 災害與疾病– ……

有解了嗎沒有

45

Page 46: 20141018 OD meetup #3 LOD Ecology

Data Sharing – LOD

• 不准用• 找不到• 拿不到• 打不開• 不會用• 看不懂• 不合用• 不夠用

• 學術倫理 (?)

其實就還是不夠用

但有感到一絲希望

46

Page 47: 20141018 OD meetup #3 LOD Ecology

47

http://tw.clipartlogo.com/image/eco-green-watering-icon_114599.html

http://www.w3.org/2009/Talks/0204-ted-tbl/

http://school.discoveryeducation.com/clipart/clip/raincld.html

大家一起

來灌溉吧