40
1 Ch Ch ươ ươ ng 7: ng 7: Khai Khai phá dphá dliu liu công công nghnghc c ơ ơ ssddliu liu Hc k1 – 2011-2012 Khoa Khoa Khoa Khoa Hc & KThut Máy Tính Hc & KThut Máy Tính Tr Tr ư ư ng Đại Hc Bách Khoa Tp. HChí Minh ng Đại Hc Bách Khoa Tp. HChí Minh Cao Cao Hc Hc Ngành Ngành Khoa Khoa Hc Hc Máy Máy Tính Tính Giáo Giáo trình trình đ đ in in ttBiên Biên son son bi bi : TS. : TS. ThThNgc Ngc Châu Châu ( ( [email protected] [email protected] ) )

Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

Embed Size (px)

Citation preview

Page 1: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

1

1

ChChươương 7: ng 7: KhaiKhai phá dữ phá dữ liệuliệu vàvàcôngcông nghệnghệ ccơơ sởsở dữdữ liệuliệu

Học kỳ 1 – 2011-2012

Khoa Khoa KhoaKhoa Học & Kỹ Thuật Máy TínhHọc & Kỹ Thuật Máy TínhTrTrưường Đại Học Bách Khoa Tp. Hồ Chí Minhờng Đại Học Bách Khoa Tp. Hồ Chí Minh

CaoCao HọcHọc NgànhNgành KhoaKhoa HọcHọc MáyMáy TínhTính

GiáoGiáo trìnhtrình đđiệniện tửtử

BiênBiên soạnsoạn bởibởi: TS. : TS. VõVõ ThịThị NgọcNgọc ChâuChâu

(([email protected]@cse.hcmut.edu.vn))

Page 2: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

2

2

Tài liệu tham khảo[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001.[3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008.[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006.[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009.[6] Daniel T. Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006.[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005. [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, “Successes and new directions in data mining”, IGI Global, 2008.[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + BusinessMedia, LLC 2005, 2010.

Page 3: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

3

3

Nội dungChương 1: Tổng quan về khai phá dữ liệuChương 2: Các vấn đề tiền xử lý dữ liệuChương 3: Hồi qui dữ liệuChương 4: Phân loại dữ liệuChương 5: Gom cụm dữ liệuChương 6: Luật kết hợpChương 7: Khai phá dữ liệu và công nghệ cơsở dữ liệuChương 8: Ứng dụng khai phá dữ liệuChương 9: Các đề tài nghiên cứu trong khai phádữ liệuChương 10: Ôn tập

Page 4: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

4

4

Chương 7: Khai phá dữ liệu vàcông nghệ cơ sở dữ liệu

7.1. Tổng quan về công nghệ cơ sở dữ liệu

7.2. Khả năng hỗ trợ khai phá dữ liệu của công nghệ cơ sở dữ liệu

7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu

7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu

7.5. Tóm tắt

Page 5: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

5

5

7.0. Tình huống 1

Người đang sử dụng thẻ ID = 1234 thật sự là chủ nhân của thẻ hay là một tên trộm?

Page 6: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

6

6

7.0. Tình huống 2

Tid Refund Marital Status

Taxable Income Evade

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

Ông A (Tid = 100) có khả năng trốn thuế???

Page 7: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

7

7

7.0. Tình huống 3Ngày mai cổ phiếu STB sẽ tăng???

Page 8: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

8

8

7.0. Tình huống 4

Không (97%)…3.02.0472008

………………

Không (45%)…4.55.5822007

Có (90%)…7.59.5242006

Có (80%)…6.07.0902005

Không…3.55.582004

14

3

2

1

MãSV

……………

Có…5.55.02004

Không…2.54.02004

Có…8.06.52004

Có…8.59.02004

TốtNghiệp…MônHọc2MônHọc1Khóa

Làm sao xác định đượckhả năng tốt nghiệp củamột sinh viên hiện tại?

Page 9: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

9

9

7.0. Tình huống …

We are data rich, but information poor.

“Necessity is the mother of invention”. - Plato

Page 10: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

10

10

7.1. Tổng quan về công nghệ cơ sởdữ liệuĐặc điểm dữ liệu thu thập được choquá trình khai phá dữ liệu (tóm tắt từChương 1)

Bắt nguồn từ yêu cầu ứng dụng thực tiễn

Dữ liệu thật/dữ liệu nhân tạo từ mô phỏng

Cấu trúc từ đơn giản đến phức tạp

Lượng dữ liệu lớn, biến động nhiều

Lưu trữ lâu dài/lưu trữ tạm thời

Quản lý và tận dụng hiệu quả

Page 11: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

11

11

7.1. Tổng quan về công nghệ cơ sởdữ liệuĐặc điểm kết quả thu được từ quá trình khaiphá dữ liệu (tóm tắt từ Chương 1)

Bắt nguồn từ yêu cầu ứng dụng thực tiễn

Có tính mô tả hay dự đoán tùy thuộc vào quátrình khai phá cụ thể

Cấu trúc từ đơn giản đến phức tạp

Lượng kết quả lớn, biến động nhiềuNhiều tác vụ, nhiều giải thuật, nhiều lựa chọn giá trịthông số

Lưu trữ lâu dài/lưu trữ tạm thời

Quản lý và tận dụng hiệu quả

Page 12: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

12

12

7.1. Tổng quan về công nghệ cơ sởdữ liệu

Mô hình hóa (modeling)

Model: “a representationrepresentation of something, either as a physical object which is usually smaller than the real object, or as a simple descriptiondescription of the object which might be used in calculationsused in calculations”

Mô hình hóa dữ liệu cho quá trình khai phá

Mô hình hóa kết quả từ quá trình khai phá

Page 13: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

13

13

7.1. Tổng quan về công nghệ cơ sởdữ liệu

Simple Data without Queries

Simple Data with Queries

Complex Data without Queries

Complex Data with Queries

I II

IIIPattern-matching(Similarity-based)

Data Query Language(Precision-based)

Numbers and Characters

Video, Audio, Image, Text, 3D Graphical Data, etc.

IV

Page 14: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

14

14

7.1. Tổng quan về công nghệ cơ sởdữ liệu

File Systems Relational DB Systems

Object Relational DB SystemsObject (Oriented) DB Systems

Simple Data

Complex Data

Simple Queries Complex Queries

Source: M. Stonebraker, P. Brown with D. Moore, Object-Relational DBMS’s – Tracking the Next Great Wave, Morgan Kaufmann, 1999.

Page 15: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

15

15

7.1. Tổng quan về công nghệ cơ sởdữ liệu

Mô hình hóa ý niệm dữ liệu cho quá trình khai phá

YesNoNoConceptual Schema Design Procedure

Yes with sample populationsNoNoValidation technique

5NF relations1NF relations1NF relationsRelational mapping algorithm

Predicate logic and linguistic

Object oriented paradigmNoTheoretical Foundation

NoClass methodNoObject behaviors

RicherOCL expressionsFewerConstraints

Relationship typeRelationship typeRelationship typeRelationships

IdentifierOID (implicit)Key attributeObject identity

-AttributeAttributeObject attribute

--Weak entity typeSet of dependent objects

Object typeClassEntity typeSet of objects of interest

NIAM/ORMUMLERMConceptual Data Model

Page 16: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

16

16

7.1. Tổng quan về công nghệ cơ sởdữ liệu

Mô hình hóa luận lý dữ liệu cho quá trình khai phá

Methods callingLogical pointer REF (system-generated)

OID (system-generated)Fully encapsulated object with atomic/non-atomic attributes

Object

SQL:3, SQL:99, SQL:2003, OQL

Foreign key (attribute values)/logical pointer REF (system-generated)

Primary key (attribute values) / OID (ROWID, REFC) (system-generated)

Relation/un-encapsulated object with atomic/non-atomic attributes

Object Relational

Nested relational algebra with nest/unnest operations

Foreign key (attribute values)

Primary key (attribute values)

Nested relation with nested relation attributes

Nested Relational

Relational algebra, tuple relational calculus, SQL:89, SQL:92

Foreign key (attribute values)

Primary key (attribute values)

Relation with atomic attributes

Relational

LanguageReferential ConstraintIdentityKey ConstructData Model

Page 17: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

17

17

7.1. Tổng quan về công nghệ cơ sởdữ liệuMô hình hóa dữ liệu cho quá trình khai phá

Data warehouse“A data warehouse is a subjectsubject--orientedoriented, integratedintegrated, nonvolatilenonvolatile, and timetime--variantvariant collection of data in support of management’s decisions.”

UML conceptual model

Star (relational)/multidimensional model

Figure 2.5. The structure of the data warehouse.

Source: W.H. Inmon. Building the data warehouse, 3rd Edition, John Wiley & Sons, Inc., 2001.

Page 18: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

18

18

7.1. Tổng quan về công nghệ cơ sởdữ liệu

Figure 1. Decision support system architecture, which consists of three principal components: a datawarehouse server, analysis and data mining tools, and data warehouse back-end tools.Source: S. Chaudhuri, U. Dayal, V. Ganti, Database Technology for Decision Support Systems, Computer, IEEE, 2001, pp. 48-55.

Page 19: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

19

19

7.1. Tổng quan về công nghệ cơ sởdữ liệuMô hình hóa luận lý kết quả từ quá trình khai phá

MotivationsLarge collection of discovered knowledge

A diversity of discovered knowledge

Pattern (discovered knowledge) is nicely managed by a so-called pattern management system just like data by a well-defined/developed/used DBMS.

A logical model for patterns defined in [108-2003]Architectural issues

Representation constructs: Pattern type, Pattern, Class

Implicit constraints: Pattern-Pattern type, Pattern-Class, Class-Pattern-Pattern type

Relationships between patterns

Specialization, composition, refinement [108]. S. Rizzi, E. Bertino, B. Catania, M. Golfarelli, M. Halkidi, M. Terrovitis, P. Vassiliadis, M. Vazirginannis, E. Vrachnos. Towards a logical model for patterns. In Proceedings of the ER 2003, LNCS 2813, pp. 77-90, 2003.

Page 20: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

20

20

Reference architecture

for a pattern base

management system

using the logical model

Source: S. Rizzi, E. Bertino, B. Catania, M. Golfarelli, M. Halkidi, M. Terrovitis, P. Vassiliadis, M. Vazirginannis, E. Vrachnos. Towards a logical model for patterns. In Proceedings of the ER 2003, LNCS 2813, pp. 77-90, 2003.

Page 21: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

21

21

Related Works - [108-2003] [73-2008]

[108-2003] (architectural issues + representational constructs + pattern relationships)

[4-2004] (framework)

[97-2006] (review)

[3-2006] (language and system development – PhD thesis)

[87-2007] (Interoperability issues + support for application programs + driver development)

[73-2008] (summary)

Page 22: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

22

22

Related Works - [108-2003] [105-2007]

[108-2003] (architectural issues + representational constructs + pattern relationships)

[12-2004, 2007] (formal definition, pattern warehouse, query types, predicates and operators)

[105-2007] (more operators on pattern warehouse + indexing techniques – PhD thesis)

Page 23: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

23

23

Related Works - [108-2003] [101-2009]

[108-2003]

[99-2007] (model extension with superclass, ontology for knowledge evaluation of association rules and queries)

[100-2008] (pattern comparison methods for clustering)

[101-2009] (pattern comparison for crisp/fuzzy clustering, open source prototype development (PatternMiner) – PhD thesis)

[98-2005] (Database approach: relational, object relational, and XML-based databases)

Page 24: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

24

24

Related works4. B. Catania, A. Maddalena, M. Mazza, E. Bertino, S. Rizzi. A framework for data mining pattern management. In Proceedings of PKDD 2004, LNAI 3202, pp. 87-98, 2004.97. B. Catania, A. Maddalena. Pattern Management: Practice and Challenges. In Processing and Managing Complex Data for Decision Support, J. Darmont, O. Boussaid (eds.), Idea Group Publishing, 2006.73. B. Catania. Towards effective solutions for pattern management. International Journal of Computer Science and Applications, Vol 5(3), 2008, 36-45.98. E. Kotsifakos, I. Ntoutsi, Y. Theodoridis. Database support for data mining patterns. In Proceedings of the 10th Panhellenic Conference on Informatics (PCI’05), Advances in Informatics – Springer-Verlag LNCS 3746, 2005.99. E.E. Kotsifakos, G. Marketos, Y. Theodoridis. A framework for integrating ontologies and pattern-bases. Data Mining with Ontologies: Implementations, Findings, and Frameworks, H.O. Nigro, S. G. Cisaro, D. Xodo (eds.), Chapter 12, IDEA Group, 2007.100. E.E. Kotsifakos, I. Ntoutsi, Y. Vrahoritis, Y. Theodoridis. PATTERN-MINER: Integrated management and mining over data mining models (Demo). In Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’08), 2008.101. E.E. Kotsifakos. Pattern representation and management techniques – The PBMS concept. PhD Thesis, Department of Informatics, University of Piraeus, 2009.3. A. Maddalena. A unified framework for heterogeneous pattern management. PhD thesis in Computer Science, University of Genova, April 2006.87. A. Maddalena, B. Catania. Towards an interoperable solution for pattern management. In Proceedings of VLDB’07, 2007.106. R. Meo, G. Psaila. An XML-based database for knowledge discovery. In Proceedings of the EDBT 2006 Workshops, LNCS 4254, pp. 814-828, 2006.108. S. Rizzi, E. Bertino, B. Catania, M. Golfarelli, M. Halkidi, M. Terrovitis, P. Vassiliadis, M. Vazirginannis, E. Vrachnos. Towards a logical model for patterns. In Proceedings of the ER 2003, LNCS 2813, pp. 77-90, 2003.105. M. Terrovitis. Modelling and operational issues for pattern base management systems. PhD Thesis, Computer Science Division, School of Electrical and Computer Engineering, National Technical University of Athens, 2007.12. M. Terrovitis, P. Vassiliadis, S. Skiadopoulos, E. Bertino, B. Catania, A. Maddalena, S. Rizzi. Modeling and language support for the management of pattern-bases. Data & Knowledge Engineering 62 (2007) 368-397.

Page 25: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

25

25

7.2. Khả năng hỗ trợ khai phá dữ liệu của công nghệ cơ sở dữ liệu

Vấn đề quản lýĐúng dữ liệu

Đúng người dùng

Đúng lúc

Vấn đề lưu trữLâu dài

Tạm thời

Vấn đề thao tácHiệu quả

-Dữ liệu cho quá trình khai phá

-Kết quả từ quá trình khai phá

Page 26: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

26

26

7.2. Khả năng hỗ trợ khai phá dữ liệu của công nghệ cơ sở dữ liệu

Từ yêuyêu cầucầu tri tri thứcthức trongtrong dữdữ liệuliệu thuthu thậpthậpđưđượcợc ngàyngày naynay đến yêuyêu cầucầu dànhdành chocho quáquátrìnhtrình khaikhai pháphá dữdữ liệuliệu

Từ yêuyêu cầucầu củacủa quáquá trìnhtrình khaikhai pháphá dữdữ liệuliệu đếnyêuyêu cầucầu dànhdành chocho côngcông nghệnghệ ccơơ sởsở dữdữ liệuliệu

conventional DBMS, in-memory DBMS, column-oriented DBMS, IR + DBMS, semantic technologies + DBMS, service-oriented DBMS, …

Page 27: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

27

27

7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu

A data mining query languageselect the data to be mineddata to be mined and pre-process these data,

specify the kind of patternskind of patterns to be mined,

specify the needed backgroundbackground knowledgeknowledge (as item hierarchies when mining generalized association rules),

define the constraints on the desired patternsconstraints on the desired patterns,

post-process extractedextracted patternspatterns.

Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.

Page 28: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

28

28

7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu

Proposals for association rule miningMSQL (Imielinski and Virmani, 1999) at the Rutgers University

MINE RULE (Meo et al., 1998) at the University ofTorino and the Politecnico di Milano

DMQL (Han et al., 1996) at the Simon Fraser University

OLE DB for DM by Microsoft Corporation (Netz et al., 2000)

Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.

Page 29: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

29

29

7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu

MSQL (Imielinski and Virmani, 1999) at the RutgersUniversity

Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.

Inductive queries to mine rules

Post-processing queries over a materialized collection of rules

Page 30: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

30

30

7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu

MINE RULE (Meo et al., 1998) at the University ofTorino and the Politecnico di Milano

Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.

Page 31: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

31

31

7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệuDMQL (Han et al., 1996) at the Simon Fraser University

Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.

Page 32: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

32

32

7.3. Các ngôn ngữ truy vấn dành cho khai phá dữ liệu

OLE DB for DM by Microsoft Corporation (Netz et al., 2000)

Source: J-F. Boulicaut, C. Masson, Data Mining Query Languages, Chapter 1 in: The Data Mining and Knowledge Discovery Handbook, O. Maimon and L. Rokach (Eds.), Springer, 2005, pp. 715-727.

Page 33: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

33

33

7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệuThe SQL Multimedia and Applications Packages Standard (SQL/MM)

An initiative developed and published by the International Organization for Standardization (ISO)

Includes:Part 1: FrameworkPart 2: Full-Text

Part 3: SpatialPart 5: Still ImagePart 6: Data Mining

Part 6 specifies an SQL interface to data mining applications and services through accessing data from SQL/MM-compliant relational databases.

A standardized interface to data mining algorithms that can be layered atop any objectrelational database system and even deployed as middle-ware when required

A collection of user-defined types provided for the key data mining functions, namely,Association Rule DiscoveryAssociation Rule Discovery, ClusteringClustering, ClassificationClassification and RegressionRegression

Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder, N.Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.

Page 34: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

34

34

7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu

The SQL Multimedia and Applications Packages Standard (SQL/MM) – Part 6

User-defined types related to dataDM_LogicalDataSpec

an abstraction for a set of data mining fields identified by their names

DM_MiningDataa description of data contained in tables, which represents the metadata required to access the data during training,test or application runs.

DM_ApplicationDataused to submit a single record of data for model application.

Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder,N. Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.

Page 35: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

35

35

7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu

The SQL Multimedia and Applications Packages Standard (SQL/MM) – Part 6

User-defined types related to the mining phases

Training phase (CRISP-DM modelling)DM_<Technique>Settings, DM_<Technique>BldTask, DM_<Technique>Model

Testing phase (CRISP-DM evaluation)DM_<Technique>TestTask, DM_<Technique>Model, DM_<Technique>TestResult

Application phase (CRISP-DM deployment)DM_<Technique>ApplTask, DM_<Technique>Model,DM_<Technique>Result, DM_ApplicationData

Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder,N. Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.

Page 36: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

36

36

7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu

Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder, N. Rooney,Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.

Page 37: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

37

37

7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệu

Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder,N. Rooney, Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.

The application retrieves the model with the statement:and calls the following to compute the predicted class:

Page 38: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

38

38

7.4. Hỗ trợ của các DBMS ngày nay dành cho khai phá dữ liệuA number of vendor specific mining extensions to SQL

MicrosoftMicrosoft’s OLE DB for Data Mining (OLE-DB 2000): an approach which is specially designed for data mining needs—it combines SQL with a low level API (a set of COM interfaces) to achieve interoperability with other client and server technologies.

MS Naïve Bayes, MS Decision Trees, MS Time Series, MS Clustering, MS Sequence Clustering, MS Association Rules, MS Neural Network

IBMIBM’s DB2 Intelligent Miner products contain a set of DB2 database extenders (DB2-IM 2004): incorporate data mining functionality into standard database SQL language in a relatively standard way.

Functionality is based on IBM’s “Intelligent Miner” data mining product, now part of the IBM DB2 Data Warehouse Edition V9.1.Intelligent Miner fully implements SQL/MM data mining as well as most of PMML

OracleOracle Data Mining (Oracle 2004): a set of functions available in Oracle’s database and accessible though PL/SQL (programming language available to database programmers) and through a Java interface.

Decision Tree, Generalized Linear Models, Minimum Description Length, Naïve Bayes, Support Vector Machines, Apriori, k-Means, Non-Negative Matrix Factorization, One Class Support Vector Machine, Orthogonal Partitioning Clustering

Source: S. S. Anand, M. Grobelnik, F. Herrmann, D. Wettschereck, M. Hornick, C. Lingenfelder, N. Rooney,Knowledge discovery standards, Artif Intell Rev (2007) 27:21-56.

Page 39: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

39

39

7.5. Tóm tắtData mining: “extracting or mining knowledge from large amounts of data”

Need for effective and efficient data management

Need for effective and efficient knowledge management

Database technologies: conceptual >> logical >> physical issues

Data mining query languages: MSQL, MINE RULE, DMQL, OLE DB for DM

Data mining seems to be less nonless non--trivialtrivial to users.

Current support for data mining from DBMSsFrom SQL standards: SQL/MM Part 6 for data mining functions: Association Rule DiscoveryAssociation Rule Discovery, ClusteringClustering, ClassificationClassification and RegressionRegression

From Commercial DBMSs: Microsoft’s OLE DB for DM, IBM’s Intelligent Miner, Oracle Data Mining

From Open source DBMSs: easily associated with open source data mining libraries

Page 40: Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ liệuscholar.vimaru.edu.vn/sites/default/files/thinhnv/files/dm... · Chương 10: Ôn tập. 4 4 Chương 7: Khai

40

40

Hỏi & Đáp …Hỏi & Đáp …