35
TRÍCH CHỌN SỰ KIỆN Y SINH HỌC DỰA TRÊN ĐỒ THỊ Trình bày: Nhóm khai phá dữ liệu Y sinh học

Trích chọn sự kiện y sinh học dựa trên đồ thị

  • Upload
    callia

  • View
    70

  • Download
    0

Embed Size (px)

DESCRIPTION

Trích chọn sự kiện y sinh học dựa trên đồ thị. Trình bày : Nhóm khai phá dữ liệu Y sinh học. Nội dung. Giới thiệu Trích chọn sự kiện Y sinh học Biểu diễn đồ thị phụ thuộc Phương pháp cắt tỉa đồ thị phụ thuộc ( JULIELab Team) Đánh giá. Giới thiệu thành viên. Tài liệu tham khảo. - PowerPoint PPT Presentation

Citation preview

Page 1: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

TRÍCH CHỌN SỰ KIỆN Y SINH HỌC DỰA TRÊN ĐỒ THỊ

Trình bày: Nhóm khai phá dữ liệu Y sinh học

Page 2: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

2

Nội dungGiới thiệuTrích chọn sự kiện Y sinh họcBiểu diễn đồ thị phụ thuộcPhương pháp cắt tỉa đồ thị phụ

thuộc (JULIELab Team)Đánh giá

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Page 3: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

3

Giới thiệu thành viên

STT Tên thành viên Nhiệm vụ Đánh giá Ghi chú1 Phí Văn Thủy Đọc tài liệu

(1)Hoàn thành

- Nhóm trưởng- Trình bày

2 Phạm Thanh Bình Đọc tài liệu (2)

Hoàn thành

- Trình bày

3 Nguyễn Xuân Hùng

Đọc tài liệu (3)

Hoàn thành

4 Phạm Thị Hồng Đọc tài liệu (4)

Hoàn thành

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Page 4: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

4

Tài liệu tham khảo(1) [BFWH09]. Ekaterina Buyko, Erik Faessler, Joachim Wermter,

Udo Hahn (2009). Event Extraction from Trimmed Dependency Graphs, BioNLP 2009 Workshop (Shared Task on Event Extraction): 19-27

(2) [KWTY11]. Jin-Dong Kim, Yue Wang, Toshihisa Takagi and Akinori Yonezawa (2011) Overview of Genia Event Task in BioNLP Shared Task 2011, BioNLP Shared Task 2011 Workshop: 7-15

(3) [BHGAPS09]. Jari Björne, Juho Heimonen, Filip Ginter, Antti Airola, Tapio Pahikkala, Tapio Salakoski (2009). Extracting Complex Biological Events with Rich Graph-Based Feature Sets, BioNLP 2009 Workshop (Shared Task on Event Extraction): 10-18

(4) [PSOKA12]. Sampo Pyysalo, Pontus Stenetorp, Tomoko Ohta, Jin-Dong Kim and Sophia Ananiadou (2012), New Resources and Perspectives for Biomedical Event Extraction, BioNLP 2012 Workshop:100-108

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Page 5: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

5

Giới thiệu Các nghiên cứu gần đây trong trích

chọn thông tin miền y sinh học tập trung vào trích chọn sự kiện ngữ nghĩa liên quan đến gen hoặc protein◦ sự kiện liên kết (bind) hoặc phiên mã, dị

hóa…

Hầu hết các hiểu biết về sự kiện y sinh học chỉ có dạng văn bản phi cấu trúc

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Page 6: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

6

Giới thiệu Sự kiện y sinh học đc mô tả trong văn

bản nhận dạng kiểu, trigger – dấu hiệu sự kiện, và 1 hoặc nhiều tham số của sự kiện đó.

BioNLP 2009 & Taskso concerns the recognition of bio-molecular

events (bio-events) that appear in biomedical literature.

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Page 8: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

8

Trích chọn sự kiện Y sinh học

Trích chọn sự kiện Y sinh học dựa trên đồ thị

The term biomedical event extraction is used to refer to the task of extracting descriptions of actions and relations involving one or more entities from the biomedical literature1

The biological event extraction refers to the task of detection of event templates using basic tools from biological and biomedical text2

1: Search-based Structured Prediction applied to Biomedical Event Extraction, Andreas Vlachos and Mark Craven2: J. D. Kim, T. Ohta, S. Pyysalo, Y. Kano, and J. Tsujii. Overview of BioNLP09 Shared Task on event extraction. In Proceedings of the workshop on BioNLP: Shared Task, pages 1-9, 2009.

Page 9: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

9

BioNLP 2009 Tasks

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Task 0

•Protein recognition (Given)

Task 1

•Core event extraction (mandatory)•event trigger detection•event typing•primary argument recognition

Task 2

•Event enrichment (optional)

Task 3

•Negation and speculation recognition (optional)

To draw concentration on event extraction

“phosphorylation of TRAF2”

(Type:Phosphorylation, Theme:TRAF2)

Page 10: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

10

Event type

Trích chọn sự kiện Y sinh học dựa trên đồ thị

(The BioNLP'09 Shared Task on Event Extraction )

Page 11: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

11

Event type

Trích chọn sự kiện Y sinh học dựa trên đồ thị

(The BioNLP'09 Shared Task on Event Extraction )

Page 12: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

12

BioNLP 2009 Task 1

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Evalution results of Task 1 – BioNLP Shared Task 2009 (reall / precision / F-score)

5/24 team: F-score >= 40%

Page 13: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

13

Một số hướng tiếp cận Tương tác giữa 2 protein (PPIs)• Pattern-based: Blaschke et al. (1999),

Hakenberg et al. (2005), Huang et al. (2004)

• Rule-based: Yakushiji et al. (2001), Saric et al. (2004), Fundel et al. (2007)

• Machine learning-based: Katrenko & Adriaans (2006), Sætre et al. (2007), Airola et al. (2008).

Trích chọn sự kiện Y sinh học dựa trên đồ thị

Page 14: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

14

Biểu diễn đồ thị phụ thuộc Đồ thị cung cấp sự mô hình hóa cho

dữ liệu y sinh học

Page 15: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

15

Biểu diễn đồ thị phụ thuộc Sự biểu diễn phụ thuộc của 1 câu được hình

thành bởi các từ trong câu và quan hệ 2 ngôi giữa chúng

Quan hệ phụ thuộc 1 chiều:• relation (governor, dependent) đồ thị phụ thuộc

Page 16: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

16

Dependency graph A dependency graph is a pair of sets G =

(V,E), where V is a set of nodes that correspond to the tokens in a sentence, and E is a set of directed edges, for which the edge labels are types of dependency relations between the tokens, and the edge direction is from governor to dependent node[3].

Page 17: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

17

Trích chọn sự kiện Y sinh học

Nhận dạng event trigger Hợp nhất event trigger Gán kiểu sự kiện Xác định tham số Gán kiểu tham số Sắp xếp tham số

Sự phức tạp của Task 1: không chỉ protein được cho phép là tham số mà nó cũng là sự kiện.

Page 18: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

18

Nhận dạng event trigger

Xác định các biểu diễn tương đương của cùng kiểu sự kiện • “A is expressed” và “the expression of

A”expression(A)

“Event trigger ambiguity”

Page 19: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

19

Hợp nhất event trigger Lựa chọn đúng tên sự kiện từ tập

event trigger tương đương

Page 20: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

20

Gán kiểu sự kiện Phân loại ngữ nghĩa cho 1 tên sự kiện

đc hợp nhất và gán với 1 kiểu sự kiện

Binding

Page 21: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

21

Xác định tham số Tìm tất cả những phần tử cần tham

gia trong sự kiện, vd: các tham số của quan hệ

Cần chú ý các thực thể tương đương và lựa chọn tham số

Page 22: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

22

Gán kiểu tham số Gán đúng loại ngữ nghĩa (lớp thực

thể) cho mỗi phần tử đc xác định trong 1 sự kiện (có thể xem như đối tượng của lớp đó)

Page 23: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

23

Sắp xếp tham số Gán mỗi vai trò chức năng của phần

tử đc xác định trong sự kiện, thường là Agent (và Patient/Theme) (tác nhân/đối tượng)

Page 24: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

24

Phương pháp cắt tỉa đồ thị phụ thuộc (JULIELab Team)

Page 25: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

25

Phương pháp cắt tỉa đồ thị phụ thuộc 3 luồng chính:

• Phát hiện tập event trigger• Cắt tỉa đồ thị phụ thuộc

lược bỏ phần không liên quan làm giàu ngữ nghĩa tập từ vựng liên quan

Xác định tham số cho sự kiện dưới sự giám sát Trong cách tiếp cận của họ, hợp nhất event trigger đã

bao gồm gán kiểu sự kiện

Page 26: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

26

Nhận dạng event trigger Tìm kiếm tập trigger có khả năng là

một sự kiện: dictionary-based• GENIA event corpus (Kim et al., 2008a)• Automatic lemmatized (for extracted

event trigger)1

• Gán kiểu sự kiện Hợp nhất event trigger: kết hợp các

bộ từ điển

1: http://lexsrv3.nlm.nih.gov/SPECIALIST/index.html,

Page 27: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

27

Hợp nhất event trigger Độ quan trọng của 1 event trigger ti

cho 1 kiểu sự kiện T

: tần suất của even trigger ti của kiểu sự kiện đc lưa chọn T trong kho huấn luyện / tổng số event trigger của kiểu sự kiện được lưa chọn T trong kho huấn luyện đó. Tần suất đc đo dựa vào các event

trigger gốc

Page 28: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

28

Cắt tỉa đồ thị phụ thuộc Mục đích: • Loại bỏ đi ngữ nghĩa không liên quan• Làm giàu ngữ nghĩa các nút có liên quan

Lược bỏ cú pháp• các trợ động từ và động từ khuyết thiếu

Page 29: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

29

Cắt tỉa đồ thị phụ thuộc Động từ thường kết nối với trợ động

từ bởi quan hệ phụ thuộc VC (verb chain)• dạng cây phụ thuộc và quy ước gán nhãn (2006 &

2007 CoNLL shared task) …

Page 30: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

30

Xác định tham số và sắp thứ tự 3 mức:

Page 31: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

31

Xác định tham số và sắp thứ tự• Tiếp cận học máy• Feature-based

3 loại đặc trưng• Lexical feature• Chunking feature• Dependecy parse featurebộ phân loại ME (Maximum Entropy)

(MALLET)http://mallet.cs.umass.edu/index.php/Main_Page

Page 32: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

32

Đánh giá Baseline: trích chọn cho mỗi cặp của

1 trigger giả định và 1 tham số giả định đường đi ngắn nhất giữa chúng

So sánh với phương pháp đề xuất• the shared task development and test set

Page 33: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

33

Shared task development data

Baseline JULIELab Team

Page 34: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Trích chọn sự kiện Y sinh học dựa trên đồ thị

34

Shared task test data

Baseline JULIELab Team

Page 35: Trích chọn sự kiện  y  sinh học dựa trên đồ thị

Thank you!