23
Một số chủ đề KH-CN của KTLab giai đoạn 2012-2014 1 KTLab Hà Quang Thụy Phòng Thí nghiệm Công nghệ Tri thức - KTLab Trường ĐHCN, Đại học Quốc gia Hà Nội, Hà Nội, 06-10-2012

Một số chủ đề KH-CN của KTLab giai đoạn 2012-2014

  • Upload
    jerry

  • View
    58

  • Download
    0

Embed Size (px)

DESCRIPTION

Một số chủ đề KH-CN của KTLab giai đoạn 2012-2014. Hà Quang Thụy Phòng Thí nghiệm Công nghệ Tri thức - KTLab Trường ĐHCN, Đại học Quốc gia Hà Nội , Hà Nội , 06-10-2012. KTLab. Nội dung. Tóm tắt đa văn bản Phát hiện vai trò & dự báo bùng nổ sự kiện trên mạng xã hội - PowerPoint PPT Presentation

Citation preview

Page 1: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

M t s ch đ KH-CN c a KTLab ộ ố ủ ề ủgiai đo n 2012-2014ạ

1

KTLab

Hà Quang ThụyPhòng Thí nghiệm Công nghệ Tri thức - KTLabTrường ĐHCN, Đại học Quốc gia Hà Nội,Hà Nội, 06-10-2012

Page 2: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Nội dung

April 21, 2023

2

- Tóm tắt đa văn bản- Phát hiện vai trò & dự báo bùng nổ sự kiện trên

mạng xã hội- Khai phá dữ liệu văn bản Y Sinh học- Khai phá dữ liệu quá trình- Tích hợp dữ liệu và khai phá dữ liệu song song- Một số hướng đề tài SVNCKH

Page 3: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

1. Tóm tắt đa văn bản

April 21, 2023

3

- Giới thiệu chung Phối hợp thực hiện đề tài cấp Bộ B2012-01-24 (2012-2013) Đơn vị chủ trì: Trường ĐHBKHN. Chủ nhiệm đề tài: PGS. TS. Lê Thanh Hương

- Một số nội dung cần thực hiện Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012 Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn bản 09/2012 Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản trong cụm

văn bản 9/2012 Thiết kế và cài đặt chương trình tóm tắt đa văn bản tiếng Việt 9/2013 Xây dựng tập dữ liệu thử nghiệm phục vụ bài toán tóm tắt đa văn bản 9/2013

Page 4: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Tóm tắt đa văn bản (tiếp)

April 21, 2023

4

- Tình hình thực hiện Nghiên cứu phương pháp xác định từ khóa và trọng số 06/2012:

Chưa hoàn thành báo cáo (Sử dụng mô hình chủ đề ẩn cho miền lĩnh vực tóm tắt văn bản: các bước lựa chọn từ khoa),

Nghiên cứu loại bỏ chồng chéo trong các văn bản trong cụm văn bản 09/2012: Chưa hoàn thành báo cáo (Khai thác kết quả nghiên cứu về kế thừa văn bản)

Nghiên cứu phương pháp sắp xếp độ quan trọng giữa các văn bản trong cụm văn bản 9/2012: Chưa hoàn thành báo cáo (Mô hình chủ đề ẩn)

- Bài báo ghi nhận kết quả thực hiện đề tài [QTTT12] Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh

Nguyen (2012). Refining the Judgement Threshold to Improve Recognizing Textual Entailment Using Similarity, ICCCI 2012, Part II, LNAI 7654, pp. 335–344, 2012.

[TLQ12] Thi-Ngan Pham, Le-Minh Nguyen, Quang-Thuy Ha (2012). Named Entity Recognition for Vietnamese documents using semi-supervised learning method of CRFs with Generalized Expectation Criteria, IALP 2012, Ha Noi, Vietnam, November 13-15, 2012 (in press).

Page 5: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

2. Phát hiện vai trò và dự báo bùng nổ

April 21, 2023

5

- Giới thiệu chung Phối hợp thực hiện đề tài cấp Bộ CA 2012-2013 Chủ trì đề tài: ThS Nguyễn Lương Hoàng Hoa

- Một số yêu cầu chính Dự báo bùng nổ sự kiện toàn cục Dự báo bùng nổ sự kiện cục bộ: một cộng đồng, một cá nhân

- Một số nội dung chính Nghiên cứu đặc trưng của Facebook, Twitter, blogsphore Phương pháp thu thập dữ liệu và tiền xử lý dữ liệu Phương pháp phát hiện vai trò Phương pháp dự bào bùng nổ sự kiện Phương pháp kết hợp các mạng xã hội Thiết kế và xây dựng chương trình cho Facebook, Twitter, blogsphore Kết hợp kết quả từ các mạng xã hội

- Một số giải pháp phát hiện vai trò và bùng nổ Đã giới thiệu (báo cáo 29/9/2012)

Page 6: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Thu thập dữ liệu mạng xã hội

April 21, 2023

6

- Các hình thức thu thập dữ liệu Chiêu mộ người tham gia theo ngữ cảnh ngoại tuyến, Chiêu mộ người tham gia theo ngữ cảnh trực tuyến, Thu thập tự động (crawling) dữ liệu.

[BOMRS12] Matko Boanjak, Eduardo Oliveira, José Martins, Eduarda Mendes Rodrigues, Luís Sarmento (2012). TwitterEcho: a distributed focused crawler to support open research with twitter data, WWW (Companion Volume) 2012: 1233-1240

[LZTCSS09] L. Lopes, J. Zamite, B. Tavares, F. Couto, F. Silva, and M. Silva (2009). Automated social network epidemic data collector, INForum - Simposio de Informatica, September, 2009.

[PP10] A. Pak and P. Paroubek (2010). Twitter as a corpus for sentiment analysis and opinion mining,. The 7th conference on International Language Resources and Evaluation (LREC), May 2010.

[Russ11] Matthew A. Russell (2011). Mining the social web, O'Reilly, 2011. [Wang10] Alex Hai Wang (2010). Don't Follow Me - Spam Detection in Twitter,

SECRYPT 2010: 142-151 [ZSCS10] João Zamite, Fabrício A. B. da Silva, Francisco M. Couto, Mário J.

Silva (2010). MEDCollector: Multisource Epidemic Data Collector, ITBAM 2010: 16-30.

Page 7: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Thu thập dữ liệu từ Facebook

April 21, 2023

7

- Tìm hiểu chung Thu thập thông tin thành viên và đồ thị các mối liên kết bạn bè:

chỉ cho phép truy xuất thông tin thành viên từ chính những thành viên đó hoặc bạn bè có liên kết.

https://developers.facebook.com/docs/reference/api/: Graph API

- Thu thập tự động, trực tuyến Thu thập thông tin thành viên và đồ thị các mối liên kết bạn

bè Đăng nhập vào tài khoản Facebook Vào địa chỉ https://developers.facebook.com/tools/explorer/ để

lấy Access token tương ứng

- Nhóm thực hiện Anh Trần Mai Vũ và một số anh chị em

[WGG12] Robert E. Wilson, Samuel D. Gosling, and Lindsay T. Graham (2012). A Review of Facebook Research in the Social Sciences, Perspectives on Psychological Science 7(3) 203– 220.

Page 8: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Thu thập dữ liệu từ Twitter

April 21, 2023

8

- Phương pháp chính Tham khảo Microblogs của TREC Thông qua giao diện chương trình ứng dụng Search API, Rest API (Version 1.1) và Streaming API.

- Nhóm thực hiện Anh Vũ Tiến Thành và một số anh chị em Lưu ý khai phá dữ liệu dòng (hình vẽ)

Page 9: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

3. Khai phá dữ liệu văn bản y sinh học

April 21, 2023

9

- Giới thiệu chung Phối hợp thực hiện với GS. Nigel Collier (NII) Đã và đang triển khai Nhóm thực hiện: Xuân Hiếu, Trần Mai Vũ, Lê Hoàng Quỳnh

và các anh chị em khác

- Một số nội dung chính Xây dựng ontology cho miền ứng dụng Trích chọn thực thể và đặc trưng, Trích chọn quan hệ tương tác Một số nội dung chi tiếu (Báo cáo của nhóm Trần Mai Vũ,

Lê Hoàng Quỳnh)

Page 10: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

I.4. Khai phá dữ liệu quá trình

April 21, 2023

10

- Giới thiệu chung Đề tài: “Improving Business Process and Complex Event Sequence Analytics

using Process Mining Techniques” 2013-2014 Phối hợp thực hiện với GS. Bart Baesens The Department of Management Informatics, part of the Faculty of Business

and Economics at KU Leuven (Bỉ)

- Khái niệm khai phá quá trình Process Mining: chiết xuất thông tin có giá trị, liên quan đến quá trình từ các

bản ghi sự kiện, bổ sung tới các tiếp cận hiện có để quản lý quá trình kinh doanh “Process mining, i.e., extracting valuable, process-related information from event logs, complements existing approaches to Business Process Management (BPM)”

[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011.

[Http] http://www.processmining.org/publications/phd

Page 11: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Khai phá dữ liệu quá trình

April 21, 2023

11

- Khai phá quá trình Là một chuyên ngành mới cung cấp bộ công cụ toàn diện để

cung cấp sự hiểu biết quá trình kinh doanh trong thực tiễn và cải tiến qúa trình.

Được xây dựng dựa trên Điều khiển quá trình theo mô hình và Khai phá dữ liệu

Phát triển của Quản lý quy trình kinh doanh và Thông minh kinh doanh

Page 12: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Khai phá dữ liệu quá trình

April 21, 2023

12

[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011.

[Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities. ACM Trans. Management Inf. Syst. 3(2): 7 (2012)

Page 13: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Nội dung trong đề tài

April 21, 2023

13

Biosciences for Food / Nutrition

Environment and Natural Resources (Climate Change)

Public / Rural Health

Technology Development

HEIs/RIs Institutional Strengthening and Reform

IS Support Services:- ICT- Statistics & Analysis- Social Sciences- Network Development

Sustainable and Equitable Socio-Economic Development

and Poverty Alleviation

Page 14: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

5. Khai phá dữ liệu song song

April 21, 2023

14

- Giới thiệu chung Process Mining Phối hợp thực hiện với GS. Joshua Zhexue Huang, Shenzhen

Institutes of Advanced Technology, Chinese Academy of Sciences (Trung Quốc)

- Một số nội dung chính Bộ công cụ AlphaMiner Thuật toán khai phá dữ liệu song song rừng ngẫu nhiên Multi-Layer Network for Influence Propagation over Microblog

Page 15: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

6. Nhóm đề tài SVNCKH

April 21, 2023

15

- Giới thiệu chung Tương ứng với các đề tài nghiên cứu như phần I Thành phần: K54 (chủ chốt) và K55 (thừa kế)

- Danh sách chủ đề Tóm tắt đa văn bản mạng xã hội Khai phá dữ liệu Y Sinh học Phát hiện và dự báo sự kiện trong mạng xã hội Xếp hạng đối tượng trong mạng xã hội Xác định vai trò trong mạng xã hội Khai phá quan điểm trong mạng xã hội Dự báo bùng nổ sự kiện trong mạng xã hội Tích hợp sơ đồ dữ liệu Khai phá dữ liệu song song

Page 16: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Nhóm chủ đề tiếp tục

April 21, 2023

16

- Tóm tắt đa văn bản Tóm tắt đa văn bản mạng xã hội Phương pháp dự trên diễn ngôn Đánh giá tóm tắt văn bản dựa trên kế thừa văn bản

Page 17: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

SVNCKH: KPDL Y Sinh học

April 21, 2023

17

- Những người thực hiện Hai nhóm SVNCKH K54: Phí Văn Thủy, Phạm Thanh Bình, Phạm Thị Hồng,

Nguyễn Xuân Hùng, )1 SV K54 16&23 K55: Ngô Ngọc Huy Hướng dẫn (dự kiến): Phan Xuân Hiếu, Trần Mai Vũ, Lê

Hoàng Quỳnh

- Khai phá dữ liệu y sinh học Khảo sát và nâng cấp các công trình SVNCKH từ K49 - K52

2008: Lê Diệu Thu (K49) và Trần Thị Ngân (K50). Xây dựng Ontology nhằm hỗ trợ tìm kiếm ngữ nghĩa trong lĩnh vực y tế (giải nhì)

2010: Nguyễn Tiến Thanh (K51), Vũ Xuân Sơn (K52), Lê Thu Hà (K52). Một mô hình xây dựng tự động Ontology dựa vào Wikipedia tiếng Việt trên miền ứng dụng các trường đại học Việt Nam (giải Nhì).

2011: Chu Thị Thủy (K52), Đào Minh Tùng (K52), Hà Thị Oanh (K53), Trần Phi Dũng (K53). Mô hình trích chọn quan hệ tương tác protein và gen dựa trên kỹ thuật boostrapping và học máy SVM (giải Nhì)

Page 18: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Xác định vai trò trong mạng xã hội

April 21, 2023

18

- Những người thực hiện K54: Bùi Đình Luyến, Trần Thị Sim K55: Phạm Ngọc Xuyên Hướng dẫn (dự kiến): Hà Quang Thụy, Lê Đức Trọng

[ALTY12] Nitin Agarwal, Huan Liu, Lei Tang, Philip S. Yu: Modeling blogger influence in a community. Social Netw. Analys. Mining 2(2): 139-162 (2012

[CWE07] Andrew McCallum, Xuerui Wang, Andrés Corrada-Emmanuel: Topic and Role Discovery in Social Networks with Experiments on Enron and Academic Email. J. Artif. Intell. Res. (JAIR) 30: 249-272 (2007)

[CWY09] Wei Chen, Yajun Wang, Siyu Yang: Efficient influence maximization in social networks. KDD 2009: 199-208

[RS12] Manuel Gomez-Rodriguez, Bernhard Schölkopf: Influence Maximization in Continuous Time Diffusion Networks CoRR abs/1205.1682: (2012)

[TS12] Vanesa Junquero-Trabado, David Dominguez-Sal (2012). Building a role search engine for social media. WWW (Companion Volume) 2012: 1051- 1060.

[WHJTZ1] Chi Wang, Jiawei Han, Yuntao Jia, Jie Tang, Duo Zhang, Yintao Yu, Jingyi Guo (2010). Mining advisor-advisee relationships from research publication networks, KDD 2010: 203-212

Page 19: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Khai phá quan điểm trên Twitter

April 21, 2023

19

- Những người thực hiện K54: Vũ Trọng Hóa, Đào Quốc Vương K55:Hoàng Huy Hoàng Hướng dẫn (dự kiến): Hà Quang Thụy, Vũ Tiến Thành

[AXVRP11] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passonneau (2011). Sentiment Analysis of Twitter Data, Workshop on Language in Social Media LSM 2011:30-38.

[BD11] Samuel Brody, Nicholas Diakopoulos: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs. EMNLP 2011: 562-570.

[TBP11] Mike Thelwall, Kevan Buckley, Georgios Paltoglou: Sentiment in Twitter events. JASIST 62(2): 406-418 (2011)

[NWCPZ12] Le Nguyen, Pang Wu, William Chan, Wei Peng and Joy Zhang (2012). Predicting Collective Sentiment Dynamics from Time-series Social Media, Workshop on Issues of Sentiment Discovery and Opinion Mining (WISDOM) at The 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2012), Beijing, China, August 12-16, 2012

Page 20: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Xếp hạng đối tượng trên mạng xã hội

April 21, 2023

20

- Những người thực hiện K54:Nguyễn Thị Tươi, Nguyễn Thị Thảo, Lương Viết Thái K55: Dương Thị Ánh Tuyết Hướng dẫn (dự kiến): Phan Xuân Hiếu, Nguyễn Thanh Sơn

[GK12] Gupta A., and Kumaraguru P (2012). Credibility ranking of tweets during high impact events, the 1st Workshop on Privacy and Security in Online Social Media (PSOSM '12), Article No. 2, 2012.

[NTC10] Rinkesh Nagmoti, Ankur Teredesai, Martine De Cock: Ranking Approaches for Microblog Search, Web Intelligence 2010: 153-157

[RBK12] Srijith Ravikumar, Raju Balakrishnan, Subbarao Kambhampati: Ranking Tweets Considering Trust and Relevance, CoRR abs/1204.0156: (2012)

[SLB12] Xin Shuai, Xiaozhong Liu, Johan Bollen: Improving news ranking by community tweets. WWW (Companion Volume) 2012: 1227-1232

Page 21: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Dự báo bùng nổ sự kiện

April 21, 2023

21

- Những người thực hiện K54:Tiêu Thị Phương, Ngô Quang Hiểu K55: Nguyễn Anh Vũ Hướng dẫn (dự kiến):Phan Xuân Hiếu, Trần Xuân Tứ

GZRSW12]. Sabrina Gaito, Matteo Zignani, Gian Paolo Rossi, Alessandra Sala, Xiao Wang, Haitao Zheng, Ben Y. Zhao: On the Bursty Evolution of Online Social Networks CoRR abs/1203.6744: (2012)

[ZSJSL12] Wayne Xin Zhao, Baihan Shu, Jing Jiang, Yang Song, Hongfei Yan and Xiaoming Li (2012). Identifying Event-related Bursts via Social Media Activities, EMNLP-CoNLL'12:1466-1477, 2012

[YK12] Sheng Yu, Subhash Kak (2012). A Survey of Prediction Using Social Media CoRR abs/1203.1647: (2012)

Page 22: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

Khai phá dữ liệu quá trình

April 21, 2023

22

- Những người thực hiện K54: Phạm Văn Thánh, Đào Thị Ngân K55: Nguyễn Thế Hùng Hướng dẫn (dự kiến): Hà Quang Thụy, Trần Mai Vũ, Phạm Thị

Ngân

[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance and Enhancement of Business Processes, Springer, 2011.

[Aalst12] Wil M. P. van der Aalst: Process Mining: Overview and Opportunities, ACM Trans. Management Inf. Syst. 3(2): 7 (2012)

[MBA12] Fabrizio Maria Maggi, R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst (2012). Efficient Discovery of Understandable Declarative Process Models from Event Logs, CAiSE 2012: 270-285.

[Aalst12a] Wil M. P. van der Aalst (2012). Process mining, Commun. ACM 55(8): 76-83 (2012)

[MWAB02] Laura Maruster, A. J. M. M. Weijters, Wil M. P. van der Aalst, Antal van den Bosch (2002). Process Mining: Discovering Direct Successors in Process Logs, Discovery Science 2002: 364-373

[ADGRVW09] Wil M. P. van der Aalst, Boudewijn F. van Dongen, Christian W. Günther, Anne Rozinat, Eric Verbeek, Ton Weijters (2009). ProM: The Process Mining Toolkit, BPM (Demos) 2009

[Http] http://www.processmining.org: cộng đồng khai phá dữ liệu quá trình; [Http] http://www.processmining.org/publications/phd: các luận án Tiến sỹ KPDLQT

Page 23: Một số  chủ đề KH-CN của KTLab  giai  đoạn  2012-2014

TRÂN TR NG CÁM NỌ Ơ

23

KT-SISLAB