25
Decision Trees— What Are They? Introduction ............................ ......................................... .1 Using Decision Trees with Other Modeling Approaches ......................5 Why Are Decision Trees So Useful? .............................8 Level of Measurement ............................ ......................................... 11 Introduction Decision trees are a simple, but powerful form of multiple variable analysis. They provide unique capabilities to supplement, complement, and substitute for traditional statistical forms of analysis (such as multiple linear regression) a variety of data mining tools and techniques (such as neural networks) recently developed multidimensional forms of reporting and analysis found in the field of business intelligence 2 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner Decision trees are produced by algorithms that identify various ways of splitting a data set into branch-like segments. These segments form an inverted decision tree that originates with a root node at the top of the tree. The object of analysis is reflected in this root node as a simple, one-dimensional display in the decision tree interface. The name of the field of data that is the object of analysis is usually displayed, along with Trang 1 Quyết định Trees Họ là gì? Giới thiệu ..................................... .... ..................................... 1 Sử dụng cây quyết định với phương pháp tiếp cận mô hình hóa khác ...................... 5 Cây Quyết định Vì vậy, hữu ích? ................................. .. 8 Mức đo lường ..................................... .......... ...................... 11 Giới thiệu Cây quyết định là một hình thức đơn giản, nhưng mạnh mẽ của phân tích biến nhiều. Họ cung cấp khả năng duy nhất để bổ sung, bổ sung, thay thế cho • hình thức truyền thống thống kê phân tích (như hồi quy tuyến tính nhiều) • một loạt các công cụ khai thác dữ liệu và kỹ thuật (chẳng hạn như các mạng thần kinh) • gần đây phát triển các hình thức đa chiều của báo cáo và phân tích tìm thấy trong lĩnh vực kinh doanh thông minh Trang 2 2 Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner Cây quyết định được sản xuất bởi các thuật toán xác định các cách khác nhau của tách một dữ liệu

Cay Quyet Dinh

Embed Size (px)

Citation preview

Page 1: Cay Quyet Dinh

Decision Trees— What Are They? Introduction ......................................................................1 Using Decision Trees with Other Modeling Approaches ......................5 Why Are Decision Trees So Useful? .............................8 Level of Measurement .....................................................................11 Introduction Decision trees are a simple, but powerful form of multiple variable analysis. They provide unique capabilities to supplement, complement, and substitute for • traditional statistical forms of analysis (such as multiple linear regression) • a variety of data mining tools and techniques (such as neural networks) • recently developed multidimensional forms of reporting and analysis found in the field of business intelligence

2 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner Decision trees are produced by algorithms that identify various ways of splitting a data set into branch-like segments. These segments form an inverted decision tree that originates with a root node at the top of the tree. The object of analysis is reflected in this root node as a simple, one-dimensional display in the decision tree interface. The name of the field of data that is the object of analysis is usually displayed, along with the spread or distribution of the values that are contained in that field. A sample decision tree is illustrated in Figure 1.1, which shows that the decision tree can reflect both a continuous and categorical object of analysis. The display of this node reflects all the data set records, fields, and field values that are found in the object of analysis. The discovery of the decision rule to form the branches or segments underneath the root node is based on a method that extracts the relationship between the object of analysis (that serves as the target field in the data) and one or more fields that serve as input fields to create the branches or segments. The values in the input field are used to estimate the likely value in the target field. The target field is also called an outcome, response, or dependent field or variable. The general form of this modeling approach is illustrated in Figure 1.1. Once the relationship is extracted, then one or more decision rules can be derived that describe the

Trang 1Quyết định Trees

Họ là gì?

Giới thiệu ......................................... ..................................... 1

Sử dụng cây quyết định với phương pháp tiếp cận mô hình hóa khác ...................... 5

Cây Quyết định Vì vậy, hữu ích? ................................. .. 8

Mức đo lường ............................................... ...................... 11

Giới thiệu

Cây quyết định là một hình thức đơn giản, nhưng mạnh mẽ của phân tích biến nhiều. Họ

cung cấp khả năng duy nhất để bổ sung, bổ sung, thay thế cho

• hình thức truyền thống thống kê phân tích (như hồi quy tuyến tính nhiều)

• một loạt các công cụ khai thác dữ liệu và kỹ thuật (chẳng hạn như các mạng thần kinh)

• gần đây phát triển các hình thức đa chiều của báo cáo và phân tích tìm thấy trong

lĩnh vực kinh doanh thông minh

Trang 22

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

Cây quyết định được sản xuất bởi các thuật toán xác định các cách khác nhau của tách một dữ liệu

đặt vào các phân đoạn giống như ngành. Các phân đoạn này tạo thành một cây quyết định, ngược chiều,

nguồn gốc với một nút gốc ở phía trên của cây. Các đối tượng phân tích được phản ánh trong này

nhổ tận gốc các nút như là một màn hình hiển thị đơn giản, một chiều, trong giao diện cây quyết định. Tên của

các lĩnh vực dữ liệu là đối tượng của phân tích thường được hiển thị, cùng với sự lây lan hay

phân phối của các giá trị được chứa trong lĩnh vực đó. Một cây quyết định mẫu

minh họa trong hình 1.1, trong đó cho thấy rằng các cây quyết

Page 2: Cay Quyet Dinh

relationships between inputs and targets. Rules can be selected and used to display the decision tree, which provides a means to visually examine and describe the tree-like network of relationships that characterize the input and target values. Decision rules can predict the values of new or unseen observations that contain values for the inputs, but might not contain values for the targets. Chapter 1: Decision Trees—What Are They? 3 Figure 1.1: Illustration of the Decision Tree Each rule assigns a record or observation from the data set to a node in a branch or segment based on the value of one of the fields or columns in the data set.1 Fields or columns that are used to create the rule are called inputs. Splitting rules are applied one after another, resulting in a hierarchy of branches within branches that produces the characteristic inverted decision tree form. The nested hierarchy of branches is called a 1 The SAS Enterprise Miner decision tree contains a variety of algorithms to handle missing values, including a unique algorithm to assign partial records to different segments when the value in the field that is being used to determine the segment is missing. 4 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner decision tree, and each segment or branch is called a node. A node with all its descendent segments forms an additional segment or a branch of that node. The bottom nodes of the decision tree are called leaves (or terminal nodes). For each leaf, the decision rule provides a unique path for data to enter the class that is defined as the leaf. All nodes, including the bottom leaf nodes, have mutually exclusive assignment rules; as a result, records or observations from the parent data set can be found in one node only. Once the decision rules have been determined, it is possible to use the rules to predict new node values based on new or unseen data. In predictive modeling, the decision rule yields the predicted value. Figure 1.2: Illustration of Decision Tree Nomenclature Chapter 1: Decision Trees—What Are They? 5 Although decision trees have been in development and use

định có thể phản ánh cả hai liên tục

và phân loại đối tượng phân tích. Màn hình hiển thị của nút này phản ánh tất cả các bộ dữ liệu

hồ sơ, lĩnh vực, và giá trị trường được tìm thấy trong các đối tượng phân tích. Việc phát hiện ra

quy tắc quyết định thành lập chi nhánh hoặc các phân đoạn bên dưới nút gốc được dựa trên một

phương pháp chiết xuất từ các mối quan hệ giữa các đối tượng phân tích (mà phục vụ như là

mục tiêu trong lĩnh vực dữ liệu) và một hoặc nhiều lĩnh vực phục vụ như các lĩnh vực đầu vào để tạo ra các

ngành hoặc các phân đoạn. Các giá trị trong lĩnh vực đầu vào được sử dụng để ước tính giá trị có khả năng trong

lĩnh vực mục tiêu. Các lĩnh vực mục tiêu còn được gọi là một kết quả, phản ứng, hoặc lĩnh vực phụ thuộc hoặc

biến.

Hình thức chung của phương pháp tiếp cận mô hình này được minh họa trong hình 1.1. Một khi các

mối quan hệ được chiết xuất, sau đó một hoặc nhiều nguyên tắc quyết định có thể được bắt nguồn mô tả

mối quan hệ giữa đầu vào và các mục tiêu. Nội quy có thể được lựa chọn và được sử dụng để hiển thị

cây quyết định, mà cung cấp một phương tiện để kiểm tra và mô tả giống như cây

mạng lưới các mối quan hệ đặc trưng đầu vào và giá trị mục tiêu. Nguyên tắc quyết định

dự đoán giá trị của các quan sát mới hoặc vô hình có giá trị cho các yếu tố đầu vào, nhưng

có thể không chứa các giá trị cho các mục tiêu.

Trang 3Chương 1: Quyết định Trees-Họ là?

3

Hình 1.1: Tác giả của Quyết định Tree

Mỗi quy tắc giao hồ sơ hoặc quan sát từ các bộ dữ liệu với một nút trong một chi nhánh hoặc

phân đoạn dựa trên giá trị của một trong các lĩnh vực hoặc cột

Page 3: Cay Quyet Dinh

for over 50 years (one of the earliest uses of decision trees was in the study of television broadcasting by Belson in 1956), many new forms of decision trees are evolving that promise to provide exciting new capabilities in the areas of data mining and machine learning in the years to come. For example, one new form of the decision tree involves the creation of random forests. Random forests are multi-tree committees that use randomly drawn samples of data and inputs and reweighting techniques to develop multiple trees that, when combined, provide for stronger prediction and better diagnostics on the structure of the decision tree. Besides modeling, decision trees can be used to explore and clarify data for dimensional cubes that can be found in business analytics and business intelligence. Using Decision Trees with Other Modeling Approaches Decision trees play well with other modeling approaches, such as regression, and can be used to select inputs or to create dummy variables representing interaction effects for regression equations. For example, Neville (1998) explains how to use decision trees to create stratified regression models by selecting different slices of the data population for in-depth regression modeling. The essential idea in stratified regression is to recognize that the relationships in the data are not readily fitted for a constant, linear regression equation. As illustrated in Figure 1.3, a boundary in the data could suggest a partitioning so that different regression models of different forms can be more readily fitted in the strata that are formed by establishing this boundary. As Neville (1998) states, decision trees are well suited in identifying regression strata. 6 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner Figure 1.3: Illustration of the Partitioning of Data Suggesting Stratified Regression Modeling Decision trees are also useful for collapsing a set of categorical values into ranges that are aligned with the values of a selected target variable or value. This is sometimes called optimal collapsing of values. A typical way of collapsing categorical values together would be to join adjacent categories together. In this way 10 separate categories can be reduced to 5. In some cases, as illustrated in Figure 1.4, this results in a significant reduction in information. Here categories 1 and 2 are

trong tập hợp dữ liệu.

1

Các lĩnh vực hoặc

cột được sử dụng để tạo ra các quy tắc được gọi là đầu vào. Quy tắc chia tách được áp dụng một

khác, kết quả trong một hệ thống các chi nhánh trong phạm vi ngành sản xuất

đặc trưng cây đảo ngược quyết định hình thức. Hệ thống phân cấp lồng nhau của các ngành được gọi là một

1

SAS Enterprise Miner quyết định cây có chứa một loạt các thuật toán để xử lý các giá trị bị mất, bao gồm cả

một thuật toán duy nhất để giao hồ sơ một phần phân đoạn khác nhau khi các giá trị trong lĩnh vực đang được

được sử dụng để xác định phân khúc bị mất tích.

Trang 44

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

cây quyết định, và mỗi phân khúc, ngành được gọi là một nút. Một nút với tất cả hậu duệ của nó

phân đoạn tạo thành một phân đoạn bổ sung hoặc chi nhánh của nút đó. Phía dưới các nút của

cây quyết định được gọi là lá (hoặc các nút thiết bị đầu cuối). Đối với mỗi lá, các quy tắc quyết định

cung cấp một con đường duy nhất cho dữ liệu để nhập vào lớp học mà được định nghĩa là lá. Tất cả các nút,

bao gồm các nút lá phía dưới, có những quy định phân loại trừ lẫn nhau, kết quả là,

hồ sơ hoặc quan sát từ các thiết lập dữ liệu cha mẹ có thể được tìm thấy trong một nút duy nhất. Một khi các

nguyên tắc quyết định đã được xác định, nó có thể sử dụng các quy tắc để dự đoán nút mới

giá trị dựa trên các dữ liệu mới hoặc vô hình. Trong mô hình dự báo, quy tắc quyết định sản lượng

dự đoán giá trị.

Page 4: Cay Quyet Dinh

associated with extremely low and extremely high levels of the target value. In this example, the collapsed categories 3 and 4, 5 and 6, 7 and 8, and 9 and 10 work better in this type of deterministic collapsing framework; however, the anomalous outcome produced by collapsing categories 1 and 2 together should serve as a strong caution against adopting any such scheme on a regular basis. Decision trees produce superior results. The dotted lines show how collapsing the categories with respect to the levels of the target yields different and better results. If we impose a monotonic restriction on the collapsing of categories—as we do when we request tree growth on the basis of ordinal predictors—then we see that category 1 becomes a group of its own. Categories 2, 3, and 4 join together and point to a relatively Chapter 1: Decision Trees—What Are They? 7 high level in the target. Categories 5, 6, and 7 join together to predict the lowest level of the target. And categories 8, 9, and 10 form the final group. If a completely unordered grouping of the categorical codes is requested—as would be the case if the input was defined as “nominal”—then the 3 bins as shown in the bottom of Figure 1.4 might be produced. Here the categories 1, 5, 6, 7, 9, and 10 group together as associated with the highest level of the target. The medium target levels produce a grouping of categories 3, 4, and 8. The lone high target level that is associated with category 2 falls out as a category of its own. Figure 1.4: Illustration of Forming Nodes by Binning Input-Target Relationships 8 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner Since a decision tree allows you to combine categories that have similar values with respect to the level of some target value there is less information loss in collapsing categories together. This leads to improved prediction and classification results. As shown in the figure, it is possible to intuitively appreciate that these collapsed categories can be used as branches in a tree. So, knowing the branch—for example, branch 3 (labeled BIN 3), we are better able to guess or predict the level of the target. In the case of branch 2 we can see that the target level lies in the mid-range, whereas in the last branch—here collapsed categories 1, 5, 6, 7, 9, 10—the target is relatively low. Why Are Decision Trees So Useful?

Hình 1.2: Tác giả của Quyết định danh mục Tree

Trang 5Chương 1: Quyết định Trees-Họ là?

5

Mặc dù cây quyết định đã được phát triển và sử dụng trong hơn 50 năm (một trong những

đầu tiên sử dụng cây quyết định trong nghiên cứu của sóng truyền hình Belson

1956), nhiều hình thức mới của cây quyết định phát triển lời hứa đó để cung cấp thú vị

khả năng mới trong các lĩnh vực khai thác dữ liệu và máy tính học tập trong những năm tới.

Ví dụ, một hình thức mới của cây quyết định liên quan đến việc tạo ra các rừng ngẫu nhiên.

Rừng ngẫu nhiên có nhiều cây ủy ban sử dụng ngẫu nhiên các mẫu vẽ của dữ liệu và

đầu vào và kỹ thuật reweighting để phát triển cây đó, khi kết hợp,

cung cấp cho dự đoán mạnh mẽ hơn và chẩn đoán tốt hơn về cấu trúc của cây quyết định.

Bên cạnh đó mô hình, cây quyết định có thể được sử dụng để khám phá và làm rõ các dữ liệu cho chiều

hình khối có thể được tìm thấy trong phân tích kinh doanh và kinh doanh thông minh.

Sử dụng cây quyết định với các phương pháp tiếp cận mô hình hóa khác

Cây quyết định chơi với các phương pháp mô hình hóa khác, chẳng hạn như hồi quy, và có thể

được sử dụng để chọn đầu vào hoặc tạo ra các biến giả đại diện cho hiệu ứng tương tác cho

hồi quy phương trình. Ví dụ, Neville (1998) giải thích làm thế nào để sử dụng cây quyết định

tạo ra các mô hình hồi quy phân tầng bằng cách chọn các lát khác nhau của dữ liệu dân số

chuyên sâu mô hình hồi quy.

Ý tưởng cơ bản trong hồi quy phân tầng là để nhận ra rằng mối quan hệ trong dữ liệu

không dễ dàng trang bị cho một phương trình hồi quy tuyến tính,

Page 5: Cay Quyet Dinh

Decision trees are a form of multiple variable (or multiple effect) analyses. All forms of multiple variable analyses allow us to predict, explain, describe, or classify an outcome (or target). An example of a multiple variable analysis is a probability of sale or the likelihood to respond to a marketing campaign as a result of the combined effects of multiple input variables, factors, or dimensions. This multiple variable analysis capability of decision trees enables you to go beyond simple one-cause, one-effect relationships and to discover and describe things in the context of multiple influences. Multiple variable analysis is particularly important in current problem-solving because almost all critical outcomes that determine success are based on multiple factors. Further, it is becoming increasingly clear that while it is easy to set up one-cause, one-effect relationships in the form of tables or graphs, this approach can lead to costly and misleading outcomes. According to research in cognitive psychology (Miller 1956; Kahneman, Slovic, and Tversky 1982) the ability to conceptually grasp and manipulate multiple chunks of knowledge is limited by the physical and cognitive processing limitations of the short-term memory portion of the brain. This places a premium on the utilization of dimensional manipulation and presentation techniques that are capable of preserving and reflecting high-dimensionality relationships in a readily comprehensible form so that the relationships can be more easily consumed and applied by humans. There are many multiple variable techniques available. The appeal of decision trees lies in their relative power, ease of use, robustness with a variety of data and levels of measurement, and ease of interpretability. Decision trees are developed and presented incrementally; thus, the combined set of multiple influences (which are necessary to fully explain the relationship of interest) is a collection of one-cause, one-effect relationships Chapter 1: Decision Trees—What Are They? 9 presented in the recursive form of a decision tree. This means that decision trees deal with human short-term memory limitations quite effectively and are easier to understand than more complex, multiple variable techniques. Decision trees turn raw data into an increased knowledge and awareness of business, engineering, and scientific issues, and they enable you to deploy that knowledge in a simple, but powerful set of human-readable rules.

liên tục. Như minh họa trong hình

1.3, một ranh giới trong các dữ liệu có thể đề nghị một phân vùng để hồi quy khác nhau

mô hình các hình thức khác nhau có thể được dễ dàng hơn được trang bị trong các tầng lớp nhân dân được hình thành bởi

thiết lập này ranh giới. Khi Neville (1998) tiểu bang, cây quyết định phù hợp trong

xác định các tầng lớp nhân dân hồi quy.

Trang 66

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

Hình 1.3: Tác giả của các phân vùng dữ liệu Đề xuất phân tầng

Hồi quy mô hình hóa

Cây quyết định cũng hữu ích cho sự sụp đổ một tập hợp các giá trị phân loại vào phạm vi được

phù hợp với các giá trị của một biến mục tiêu được lựa chọn hoặc giá trị. Điều này đôi khi được gọi là

tối ưu sụp đổ của các giá trị. Một cách điển hình của sự sụp đổ giá trị phân loại lại với nhau

sẽ được tham gia các loại liền kề với nhau. Trong cách này 10 loại riêng biệt có thể là

giảm xuống còn 5. Trong một số trường hợp, như minh họa trong hình 1.4, kết quả này trong một ý nghĩa

giảm thông tin. Thể loại 1 và 2 được kết hợp với rất thấp và

cực kỳ cao cấp của các giá trị mục tiêu. Trong ví dụ này, bị sụp đổ loại 3 và

4, 5 và 6, 7 và 8, và 9 và 10 làm việc tốt hơn trong loại hình này xác định bị sụp đổ

khuôn khổ, tuy nhiên, kết quả bất thường được sản xuất bởi sự sụp đổ các thể loại 1 và 2

với nhau sẽ phục vụ như là một cảnh cáo mạnh mẽ chống lại việc áp dụng bất kỳ chương trình như vậy thường xuyên

cơ sở.

Cây quyết định sản xuất kết quả cao. Các dòng yêu thương cho thấy làm thế nào sụp đổ

Page 6: Cay Quyet Dinh

Decision trees attempt to find a strong relationship between input values and target values in a group of observations that form a data set. When a set of input values is identified as having a strong relationship to a target value, then all of these values are grouped in a bin that becomes a branch on the decision tree. These groupings are determined by the observed form of the relationship between the bin values and the target. For example, suppose that the target average value differs sharply in the three bins that are formed by the input. As shown in Figure 1.4, binning involves taking each input, determining how the values in the input are related to the target, and, based on the input-target relationship, depositing inputs with similar values into bins that are formed by the relationship. To visualize this process using the data in Figure 1.4, you see that BIN 1 contains values 1, 5, 6, 7, 9, and 10; BIN 2 contains values 3, 4, and 8; and BIN 3 contains value 2. The sort-selection mechanism can combine values in bins whether or not they are adjacent to one another (e.g., 3, 4, and 8 are in BIN 2, whereas 7 is in BIN 1). When only adjacent values are allowed to combine to form the branches of a decision tree, then the underlying form of measurement is assumed to monotonically increase as the numeric code of the input increases. When non-adjacent values are allowed to combine, then the underlying form of measurement is non-monotonic. A wide variety of different forms of measurement, including linear, nonlinear, and cyclic, can be modeled using decision trees. A strong input-target relationship is formed when knowledge of the value of an input improves the ability to predict the value of the target. A strong relationship helps you understand the characteristics of the target. It is normal for this type of relationship to be useful in predicting the values of targets. For example, in most animal populations, knowing the height or weight improves the ability to predict the gender. In the following display, there are 28 observations in the data set. There are 20 males and 8 females. 10 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner Gender Weight Height Ht_Cent. BMIndex BodyType Female 179 4’10 147 162 slim Female 160 5’ 4 163 161 slim Male 191 5’ 8 173 182 average Male 132 5’1 155 143 slim Female 167 5’1 180 174 average

loại đối với các cấp độ của mục tiêu mang lại kết quả khác nhau và tốt hơn. Nếu chúng ta

áp đặt một hạn chế đơn điệu về sự sụp đổ của loại như chúng ta làm khi chúng ta

tăng trưởng yêu cầu cây trên cơ sở thứ tự các yếu tố dự đoán, sau đó chúng ta thấy rằng loại 1

trở thành một nhóm riêng của mình. Loại 2, 3, và 4 tham gia với nhau và chỉ tương đối

Trang 7Chương 1: Quyết định Trees-Họ là?

7

mức cao trong mục tiêu. Loại 5, 6, và 7 tham gia với nhau để dự đoán mức thấp nhất của

mục tiêu. Và loại 8, 9, 10 và hình thức nhóm cuối cùng.

Nếu hoàn toàn không có thứ tự nhóm các mã phân loại được yêu cầu như sẽ là

trường hợp nếu đầu vào được định nghĩa là "danh nghĩa", sau đó 3 thùng như được hiển thị ở dưới cùng của

Hình 1.4 có thể được sản xuất. Các loại 1, 5, 6, 7, 9, 10 và nhóm với nhau như

liên kết với mức cao nhất của mục tiêu. Các mức mục tiêu vừa sản xuất một

nhóm các loại 3, 4, và 8. Duy nhất mục tiêu cấp độ cao được kết hợp với

loại 2 rơi ra như là một thể loại riêng của mình.

Hình 1.4: Tác giả của Nodes Hình thành bởi các mối quan hệ mục tiêu di chuyển chuột vào

Trang 88

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

Kể từ khi một cây quyết định cho phép bạn kết hợp các loại có giá trị tương tự với

tôn trọng đến mức độ của một số giá trị mục tiêu là giảm ít thông tin trong sự sụp đổ

loại với nhau. Điều này dẫn đến dự đoán được cải thiện và kết

Page 7: Cay Quyet Dinh

Female 128 5’2 157 142 slim Female 150 5’2 157 154 slim Male 150 5’2 157 154 slim Female 215 5’2 157 184 heavy Female 89 5’3 160 119 slim Female 167 5’3 160 163 slim Male 180 5’4 163 171 average Male 206 5’4 163 183 average Male 239 5’5 165 199 heavy Male 161 5’6 168 164 average Male 188 5’6 168 178 average Male 284 5’6 168 218 heavy Female 117 5’7 170 141 slim Male 163 5’7 170 167 average Male 194 5’7 170 182 average Male 201 5’7 170 185 heavy Male 254 5’8 173 209 heavy Male 201 5’9 175 188 heavy Male 206 5’9 175 190 heavy Male 216 5’9 175 195 heavy Male 206 6’0 183 194 heavy Male 220 6’1 185 202 heavy Female 182 6’2 188 185 heavy In this display, the overall average height is 5’6 and the overall average weight is 183. Among males, the average height is 5’7, while among females, the average height is 5’3 (males weigh 200 on average, versus 155 for females). Knowing the gender puts us in a better position to predict the height and weight of the individuals, and knowing the relationship between gender and height and weight puts us in a better position to understand the characteristics of the target. Based on the relationship between height and weight and gender, you can infer that females are both smaller and lighter than males. As a result, you can see how this sort of knowledge that is based on gender can be used to determine the height and weight of unseen humans. From the display, you can construct a branch with three leaves to illustrate how decision trees are formed by grouping input values based on their relationship to the target. Chapter 1: Decision Trees—What Are They? 11 Figure 1.5: Illustration of Decision Tree Partitioning of Physical Measurements Level of Measurement The example as shown here illustrates an important characteristic of decision trees: both quantitative and qualitative data can be accommodated in

quả phân loại. Như

thể hiện trong hình, nó là có thể đánh giá cao trực giác rằng những loại sụp đổ

có thể được sử dụng như chi nhánh trong cây. Vì vậy, biết chi nhánh ví dụ, chi nhánh 3

(Có nhãn BIN 3), chúng tôi là tốt hơn có thể đoán hoặc dự đoán mức độ của mục tiêu. Trong trường hợp

Chi nhánh 2 chúng ta có thể thấy rằng mức độ mục tiêu nằm trong khoảng giữa, trong khi ở cuối cùng

ngành ở đây sụp đổ các thể loại 1, 5, 6, 7, 9, 10 mục tiêu là tương đối thấp.

Cây Quyết định Vì vậy, hữu ích?

Cây quyết định là một hình thức biến nhiều (hoặc nhiều hiệu ứng) phân tích. Tất cả các loại

phân tích nhiều biến cho phép chúng ta dự đoán, giải thích, mô tả, phân loại một kết quả

(Mục tiêu). Một ví dụ của một phân tích nhiều biến là một xác suất bán hàng hoặc

khả năng để đáp ứng một chiến dịch tiếp thị như là một kết quả của tác động kết hợp

nhiều đầu vào biến, yếu tố, hoặc kích thước. Khả năng phân tích nhiều biến này

cây quyết định cho phép bạn đi xa hơn một nguyên nhân đơn giản, mối quan hệ và một hiệu ứng

phát hiện và mô tả sự vật trong bối cảnh ảnh hưởng nhiều. Nhiều biến

phân tích đặc biệt quan trọng trong hiện tại giải quyết vấn đề bởi vì hầu như tất cả các quan trọng

kết quả mà quyết định sự thành công dựa trên nhiều yếu tố. Hơn nữa, nó đang trở thành

ngày càng rõ ràng rằng trong khi nó là dễ dàng để thiết lập một nguyên nhân, một hiệu quả mối quan hệ trong

dưới hình thức các bảng hoặc đồ thị, phương pháp tiếp cận này có thể dẫn đến kết quả tốn kém và gây hiểu nhầm.

Theo nghiên cứu tâm lý học nhận thức (Miller 1956, Kahneman, Slovic, và

Tversky 1982) khả năng để nắm bắt được khái niệm và thao tác khối nhiều

Page 8: Cay Quyet Dinh

decision tree construction. Quantitative data, like height and weight, refers to quantities that can be manipulated with arithmetic operations such as addition, subtraction, and multiplication. Qualitative data, such as gender, cannot be used in arithmetic operations, but can be presented in tables or decision trees. In the previous example, the target field is weight and is presented as an average. Height, BMIndex, or BodyType could have been used as inputs to form the decision tree. Some data, such as shoe size, behaves like both qualitative and quantitative data. For example, you might not be able to do meaningful arithmetic with shoe size, even though the sequence of numbers in shoe sizes is in an observable order. For example, with shoe size, size 10 is larger than size 9, but it is not twice as large as size 5. Figure 1.6 displays a decision tree developed with a categorical target variable. This figure shows the general, tree-like characteristics of a decision tree and illustrates how decision trees display multiple relationships—one branch at a time. In subsequent figures, decision trees are shown with continuous or numeric fields as targets. This shows how decision trees are easily developed using targets and inputs that are both qualitative (categorical data) and quantitative (continuous, numeric data). Low weightAverage: 138 lbMedium weightAverage: 183 lbHeavy weightAverage: 227 lbRoot NodeAverage Weight: 183 lb12 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner Figure 1.6: Illustration of a Decision Tree with a Categorical Target The decision tree in Figure 1.6 displays the results of a mail-in customer survey conducted by HomeStuff, a national home goods retailer. In the survey, customers had the option to enter a cash drawing. Those who entered the drawing were classified as a HomeStuff best customer. Best customers are coded with 1 in the decision tree. The top-level node of the decision tree shows that, of the 8399 respondents to the survey, 57% were classified as best customers, while 43% were classified as other (coded with 0). Figure 1.6 shows the general characteristics of a decision

kiến thức được giới hạn bởi những hạn chế xử lý vật lý và nhận thức ngắn

phần hạn bộ nhớ của não. Điều này đặt một phí bảo hiểm về việc sử dụng

chiều kỹ thuật thao tác và trình bày là có khả năng bảo quản và

phản ánh mối quan hệ đa chiều cao trong một hình thức dễ hiểu để

mối quan hệ có thể được tiêu thụ dễ dàng hơn và áp dụng bởi con người.

Có nhiều kỹ thuật nhiều biến sẵn. Sự hấp dẫn của cây quyết định nằm

trong quyền lực tương đối của họ, dễ sử dụng, mạnh mẽ với một loạt các dữ liệu và mức độ

đo lường, và dễ interpretability. Cây quyết định được phát triển và trình bày

từng bước, do đó, bộ kết hợp của các ảnh hưởng nhiều (đó là cần thiết đầy đủ

giải thích các mối quan hệ quan tâm) là một bộ sưu tập của một nguyên nhân, một hiệu quả mối quan hệ

Trang 9Chương 1: Quyết định Trees-Họ là?

9

trình bày trong các hình thức đệ quy một cây quyết định. Điều này có nghĩa là cây quyết định giải quyết

với giới hạn bộ nhớ ngắn hạn của con người khá hiệu quả và dễ dàng hơn để hiểu

hơn phức tạp hơn, nhiều kỹ thuật biến. Cây quyết định chuyển dữ liệu thô thành một

tăng kiến thức và nhận thức của doanh nghiệp, kỹ thuật, và các vấn đề khoa học, và

họ cho phép bạn triển khai kiến thức đó trong một tập hợp đơn giản, nhưng mạnh mẽ của con người

có thể đọc được các quy tắc.

Cây quyết định cố gắng để tìm thấy một mối quan hệ mạnh mẽ giữa các giá trị đầu vào và giá trị mục tiêu

trong một nhóm quan sát hình thành nên một tập hợp dữ liệu. Khi một tập hợp các giá trị đầu vào được xác định là

Page 9: Cay Quyet Dinh

tree, such as partitioning the results of a 1–0 (categorical) target across various input fields in the customer survey data set. Under the top-level node, the field GENDER further characterizes the best – other (1–0) response. Females (coded with F) are more likely to be best customers than males (coded with M). Fifty-nine percent of females are best customers versus fifty-four percent of males. A wide variety of splitting techniques has been developed over time to gauge whether this difference is statistically significant and whether the results are accurate and reproducible. In Figure 1.6, the difference between males and females is statistically significant. Whether a difference of 5% is significant from a business point of view is a question that is best answered by the business analyst. Chapter 1: Decision Trees—What Are They? 13 The splitting techniques that are used to split the 1–0 responses in the data set are used to identify alternative inputs (for example, income or purchase history) for gender. These techniques are based on numerical and statistical techniques that show an improvement over a simple, uninformed guess at the value of a target (in this example, best–other), as well as the reproducibility of this improvement with a new set of data. Knowing the gender enables us to guess that females are 5% more likely to be a best customer than males. You could set up a separate, independent hold out or validation data set and (having determined that the gender effect is useful or interesting) you might see whether the strength and direction of the effect is reflected in the hold out or validation data set. The separate, independent data set will show the results if the decision tree is applied to a new data set, which indicates the generality of the results. Another way to assess the generality of the results is to look at data distributions that have been studied and developed by statisticians who know the properties of the data and who have developed guidelines based on the properties of the data and data distributions. The results could be compared to these data distributions and, based on the comparisons, you could determine the strength and reproducibility of the results. These approaches are discussed at greater length in Chapter 3, “The Mechanics of Decision Tree Construction.” Under the female node in the decision tree in Figure 1.6, female customers can be further categorized into best–other categories based on the total lifetime visits that they have made to HomeStuff stores: those who have made fewer than 3.5 visits are less likely to be

có một mối quan hệ mạnh mẽ với một giá trị mục tiêu, sau đó tất cả các giá trị này được nhóm lại trong thùng rác

trở thành một chi nhánh trên cây quyết định. Những nhóm này được xác định bởi

quan sát thấy hình thức của mối quan hệ giữa các giá trị bin và mục tiêu. Ví dụ,

giả sử rằng giá trị trung bình mục tiêu khác mạnh trong ba thùng rác được hình thành bởi

đầu vào. Như thể hiện trong hình 1.4, di chuyển chuột liên quan đến việc tham gia mỗi đầu vào, xác định làm thế nào

các giá trị trong đầu vào liên quan đến mục tiêu, và, dựa trên mối quan hệ đầu vào-mục tiêu,

ký quỹ đầu vào với giá trị tương tự vào các thùng rác được hình thành bởi mối quan hệ.

Để hình dung quá trình này bằng cách sử dụng các dữ liệu trong hình 1.4, bạn sẽ thấy rằng BIN 1 chứa các giá trị

1, 5, 6, 7, 9, và 10; BIN 2 chứa giá trị 3, 4, và 8, và BIN 3 chứa giá trị là 2. Các

sắp xếp, lựa chọn cơ chế có thể kết hợp các giá trị vào các thùng rác dù có hoặc không tiếp giáp với

nhau (ví dụ, 3, 4, và 8 trong BIN 2, trong khi 7 trong BIN 1). Khi chỉ liền kề

giá trị được kết hợp để tạo thành các chi nhánh của một cây quyết định, sau đó

cơ bản hình thức đo lường được giả định đơn điệu tăng khi các số

mã tăng đầu vào. Khi giá trị không liền kề được phép kết hợp, sau đó

cơ bản hình thức đo lường là không đơn điệu. Một loạt các hình thức khác nhau của

đo lường, bao gồm tuyến tính, phi tuyến, và theo chu kỳ, có thể được mô hình hóa bằng cách sử dụng quyết định

cây.

Một mối quan hệ đầu vào-mục tiêu mạnh mẽ được hình thành khi kiến thức về giá trị của một đầu vào

cải thiện khả năng dự đoán giá trị của mục tiêu. Một mối quan hệ mạnh mẽ giúp bạn

hiểu các đặc tính của mục tiêu. Nó là bình thường đối với loại

Page 10: Cay Quyet Dinh

best customers compared to those who have made more than 4.5 visits: 29% versus 100%. (In the survey, a shopping visit of less than 20 minutes was characterized as a half visit.) On the right side of the figure, the decision tree is asymmetric; a new field—Net sales—has entered the analysis. This suggests that Net sales is a stronger or more relevant predictor of customer status than Total lifetime visits, which was used to analyze females. It was this kind of asymmetry that spurred the initial development of decision trees in the statistical community: these kinds of results demonstrate the importance of the combined (or interactive) effect of two indicators in displaying the drivers of an outcome. In the case of males, when Net sales exceed $281.50, then the likelihood of being a best customer increases from 45% to 77%. As shown in the asymmetry of the decision tree, female behavior and male behavior have different nuances. To explain or predict female behavior, you have to look at the interaction of gender (in this case, female) with Total lifetime visits. For males, Net sales is an important characteristic to look at. 14 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner In Figure 1.6, of all the k-way or n-way branches that could have been formed in this decision tree, the 2-way branch is identified as best. This indicates that a 2-way branch produces the strongest effect. The strength of the effect is measured through a criterion that is based on strength of separation, statistical significance, or reproducibility, with respect to a validation process. These measures, as applied to the determination of branch formation and splitting criterion identification, are discussed further in Chapter 3. Decision trees can accommodate categorical (gender), ordinal (number of visits), and continuous (net sales) types of fields as inputs or classifiers for the purpose of forming the decision tree. Input classifiers can be created by binning quantitative data types (ordinal and continuous) into categories that might be used in the creation of branches—or splits—in the decision tree. The bins that form total lifetime visits have been placed into three branches: • < 3.5 … less than 3.5 • [3.5 – 4.5) … between 3.5 to strictly less than 4.5 • >= 4.5 … greater than or equal to 4.5 Various nomenclatures are used to indicate which values fall in a given range. Meyers (2000) proposes an alternative, which is shown below:

hình này của mối quan hệ là

hữu ích trong việc dự đoán giá trị của mục tiêu. Ví dụ, trong hầu hết các quần thể động vật,

biết chiều cao hay trọng lượng cải thiện khả năng dự đoán giới tính. Trong những điều sau đây

hiển thị, có 28 quan sát trong tập dữ liệu. Có 20 nam và 8 nữ.

Trang 1010

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

Chiều cao Ht_Cent Trọng lượng giới. BMIndex BodyType

Nữ 179 4'10 147 162 mỏng

Nữ 160 5 '4 163 161 mỏng

Nam 191 5 8 173 182 trung bình

Nam 132 5'1 155 143 mỏng

Nữ 167 5'1 180 174 trung bình

Nữ 128 5'2 157 142 mỏng

Nữ 150 5'2 157 154 mỏng

Nam 150 5'2 157 154 mỏng

Nữ 215 5'2 157 184 nặng

Nữ 89 5'3 160 119 mỏng

Nữ 167 5'3 160 163 mỏng

Nam 180 5'4 163 171 trung bình

Nam 206 5'4 163 183 trung bình

Nam 239 5'5 165 199 nặng

Nam 161 5'6 168 164 trung bình

Nam 188 5'6 168 178 trung bình

Nam 284 5'6 168 218 nặng

Nữ 117 5'7 170 141 mỏng

Nam 163 5'7 170 167 trung bình

Nam 194 5'7 170 182 trung bình

Page 11: Cay Quyet Dinh

• < 3.5 … less than 3.5 • [3.5 – 4.5[ … between 3.5 to strictly less than 4.5 • >= 4.5 … greater than or equal to 4.5 The key difference from the convention used in the SAS decision tree is in the second range of values, where the designator “[” is used to indicate the interval that includes the lower number and includes up to any number that is strictly less than the upper number in the range. A variety of techniques exist to cast bins into branches: 2-way (binary branches), n-way (where n equals the number of bins or categories), or k-way (where k represents an attempt to create an optimal number of branches and is some number greater than or equal to 2 and less than or equal to n). Chapter 1: Decision Trees—What Are They? 15 Figure 1.7: Illustration of a Decision Tree—Continuous (Numeric) Target Figure 1.7 shows a decision tree that is created with a continuous response variable as the target. In this case, the target field is Net sales. This is the same field that was used as a classifier (for males) in the categorical response decision tree shown in Figure 1.6. Overall, as shown in Figure 1.7, the average net sale amount is approximately $250. Figure 1.7 shows how this amount can be characterized by performing successive splits of net sales according to the income level of the survey responders and, within their income level, according to the field Number of Juvenile category purchases. In addition to characterizing net sales spending groups, this decision tree can be used as a predictive tool. For example, in Figure 1.7, high income, high juvenile category purchases typically outspend the average purchaser by an average of $378, versus the norm of $250. If someone were to ask what a relatively low income purchaser who buys a relatively low number of juvenile category items would spend, then the best guess would be about $200. This result is based on the decision rule, taken from the decision tree, as follows: IF Number of Juvenile category purchases < 1.5 AND INCOME_LEVEL $50,000 - $74,9, $40,000 - $49,9, $30,000 - $39,9, UNDER $30,000 THEN Average Net Sales = $200.14 16 Decision Trees for Business Intelligence and Data Mining: Using SAS Enterprise Miner

Nam 201 5'7 170 185 nặng

Nam 254 5'8 173 209 nặng

Nam 201 5'9 175 188 nặng

Nam 206 5'9 175 190 nặng

Nam 216 5'9 175 195 nặng

Nam 206 6'0 183 194 nặng

Nam 220 6'1 185 202 nặng

Nữ 182 6'2 188 185 nặng

Trong màn hình này, chiều cao trung bình tổng thể là 5'6 và trọng lượng trung bình là 183.

Trong số nam giới, chiều cao trung bình là 5'7, trong khi ở nữ giới, chiều cao trung bình là 5'3

(Con đực nặng tới 200 trên trung bình, so với 155 đối với nữ).

Biết giới tính đặt ở một vị trí tốt hơn để dự đoán chiều cao và trọng lượng của

cá nhân, và biết mối quan hệ giữa giới tính và chiều cao và trọng lượng đặt chúng ta

ở một vị trí tốt hơn để hiểu các đặc tính của mục tiêu. Căn cứ vào

mối quan hệ giữa chiều cao và cân nặng và giới tính, bạn có thể suy ra rằng phụ nữ là cả hai

nhỏ hơn và nhẹ hơn so với nam giới. Kết quả là, bạn có thể xem làm thế nào loại này của kiến thức

dựa trên giới tính có thể được sử dụng để xác định chiều cao và trọng lượng của con người không nhìn thấy.

Từ màn hình hiển thị, bạn có thể xây dựng một chi nhánh với ba lá để minh họa làm thế nào quyết định

cây được hình thành bởi nhóm các giá trị đầu vào dựa trên mối quan hệ của họ với mục tiêu.

Trang 11Chương 1: Quyết định Trees-Họ là?

11

Hình 1.5: Tác giả của Quyết định phân vùng Tree đo vật lý

Mức độ đo lường

Ví dụ như ở đây minh họa một đặc tính quan trọng của cây quyết

Page 12: Cay Quyet Dinh

Decision trees can contain both categorical and numeric (continuous) information in the nodes of the tree. Similarly, the characteristics that define the branches of the decision tree can be both categorical or numeric (in this latter case, the numeric values are collapsed into bins—sometimes called buckets or collapsed groupings of categories—to enable them to form the branches of the decision tree). Figure 1.8 shows how the Fisher-Anderson iris data can yield three different types of branches when classifying the target SETOSA versus OTHER (Fisher 1936); in this case, 2-, 3-, and 5-leaf branches. There are 50 SETOSA records in the data set. With the binary partition, these records are classified perfectly by the rule petal width <= 6 mm. The 3-way and 5-way branch partitions are not as effective as the 2-way partition and are shown only for illustration. More examples are provided in Chapter 2, “Descriptive, Predictive, and Explanatory Analyses,” including examples that show how 3-way and n-way partitions are better than 2-way partitions. Figure 1.8: Illustration of Fisher-Anderson Iris Data and Decision Tree Options (a) Two Branch Solution(b) Three Branch Solution(c) Five Branch Solution

định: cả hai

dữ liệu định tính và định lượng có thể được cung cấp chỗ ở trong xây dựng cây quyết định.

Dữ liệu định lượng, như chiều cao và trọng lượng, đề cập đến số lượng có thể được thao tác

với các phép tính số học như cộng, trừ, và nhân. Chất lượng

dữ liệu, chẳng hạn như giới tính, không có thể được sử dụng trong các phép tính số học, nhưng có thể được trình bày trong

bảng hoặc cây quyết định. Trong ví dụ trước, lĩnh vực mục tiêu là trọng lượng và

trình bày như là trung bình. Chiều cao, BMIndex, hoặc BodyType có thể đã được sử dụng như là đầu vào

để tạo thành các cây quyết định.

Một số dữ liệu, chẳng hạn như kích cỡ giày, hoạt động như các dữ liệu định tính và định lượng. Đối với

Ví dụ, bạn có thể không có thể làm phép tính số học có ý nghĩa với kích thước giày, mặc dù

trình tự các số trong các kích cỡ giày trong một trật tự quan sát. Ví dụ, với giày

kích thước, kích thước 10 là lớn hơn so với kích thước 9, nhưng nó không phải là hai lần như lớn như kích thước 5.

Hình 1.6 sẽ hiển thị một cây quyết định phát triển với một biến mục tiêu phân loại. Điều này

con số cho thấy, nói chung giống như cây đặc điểm của một cây quyết định và minh họa cách

cây quyết định hiển thị các mối quan hệ nhiều-một chi nhánh tại một thời điểm. Trong con số tiếp theo,

cây quyết định được hiển thị với các lĩnh vực liên tục hoặc số như là mục tiêu. Điều này cho thấy làm thế nào

cây quyết định có thể dễ dàng phát triển bằng cách sử dụng mục tiêu và đầu vào mà cả chất lượng

(Phân loại dữ liệu) và số lượng (liên tục, dữ liệu số).

Thấp trọng lượng

Trung bình: £ 138

Trung bình trọng lượng

Trung bình: £ 183

Page 13: Cay Quyet Dinh

Nặng cân

Trung bình: £ 227

Gốc Node

Trọng lượng trung bình: £ 183

Trang 1212

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

Hình 1.6: Tác giả của Quyết định một cây với một mục tiêu Categorical

Cây quyết định trong hình 1.6 hiển thị các kết quả của một thư trong cuộc khảo sát khách hàng

thực hiện bởi HomeStuff, một nhà bán lẻ hàng hóa quốc gia. Trong cuộc khảo sát, khách hàng có

tùy chọn để nhập vào một bản vẽ bằng tiền mặt. Những người bước vào các bản vẽ đã được phân loại như là một

HomeStuff khách hàng tốt nhất. Tốt nhất các khách hàng được mã hóa với 1 trong cây quyết định.

Nút cấp cao nhất của cây quyết định cho thấy rằng, trong số 8.399 người trả lời khảo sát,

57% được phân loại là tốt nhất các khách hàng, trong khi 43% được phân loại khác (mã

với 0).

Hình 1.6 cho thấy các đặc điểm chung của một cây quyết định, chẳng hạn như phân vùng

kết quả của một mục tiêu (phân loại) 1-0 trên khắp các lĩnh vực đầu vào khác nhau trong cuộc điều tra khách hàng

dữ liệu thiết lập. Theo các nút cấp cao nhất, GIỚI lĩnh vực hơn nữa đặc điểm tốt nhất

(1-0) phản ứng. Nữ (mã hoá với F) nhiều khả năng là khách hàng tốt nhất hơn

nam giới (mã hoá với M). Năm mươi chín phần trăm của phụ nữ là những khách hàng tốt nhất so với 54

phần trăm của con đực. Một loạt các kỹ thuật tách đã được phát triển qua thời gian để

đánh giá xem sự khác biệt này có ý nghĩa thống kê và xem kết

Page 14: Cay Quyet Dinh

quả

chính xác và tái sản xuất. Trong hình 1.6, sự khác biệt giữa nam và nữ

có ý nghĩa thống kê. Cho dù một sự khác biệt 5% là đáng kể từ một điểm kinh doanh của

xem là một câu hỏi được trả lời tốt nhất bởi các nhà phân tích kinh doanh.

Page 13Chương 1: Quyết định Trees-Họ là?

13

Các kỹ thuật tách được sử dụng để phân chia các phản ứng 1-0 trong bộ dữ liệu được sử dụng để

xác định các yếu tố đầu vào thay thế (cho ví dụ, thu nhập hoặc mua lịch sử) cho giới tính. Những

kỹ thuật này được dựa trên các kỹ thuật số và thống kê cho thấy một sự cải tiến

hơn một đoán đơn giản, không hiểu rõ giá trị của một mục tiêu (trong ví dụ này, tốt nhất khác), như

cũng như khả năng tái này cải thiện với một bộ mới của dữ liệu.

Biết giới tính cho phép chúng tôi đoán rằng phụ nữ là 5% khả năng là tốt nhất

khách hàng hơn nam giới. Bạn có thể thiết lập một tổ chức riêng biệt độc lập hoặc xác nhận dữ liệu

thiết lập và (đã xác định rằng ảnh hưởng giới tính rất hữu ích hoặc thú vị), bạn có thể thấy

cho dù sức mạnh và hướng của hiệu lực được phản ánh trong giữ hoặc xác nhận

dữ liệu thiết lập. Riêng biệt độc lập, tập hợp dữ liệu sẽ hiển thị các kết quả nếu cây quyết định

áp dụng cho một tập hợp dữ liệu mới, trong đó cho biết tổng quát các kết quả. Một cách khác để

đánh giá tổng quát kết quả là nhìn vào các bản phân phối dữ liệu đã được nghiên cứu

và phát triển bởi các nhà thống kê người biết các thuộc tính của dữ liệu và những người có

phát triển các hướng dẫn dựa trên các thuộc tính của dữ liệu và phân phối dữ liệu. Các

Page 15: Cay Quyet Dinh

kết quả có thể được so sánh các bản phân phối dữ liệu và, dựa trên sự so sánh,

có thể xác định sức mạnh và khả năng tái kết quả. Những phương pháp tiếp cận được

thảo luận tại chiều dài lớn hơn trong Chương 3, "Cơ khí Xây dựng cây quyết định."

Dưới nút nữ trong cây quyết định trong hình 1.6, các khách hàng nữ có thể được tiếp tục

phân loại thành các loại khác tốt nhất dựa trên các đời tổng thăm rằng họ có

cửa hàng HomeStuff: những người đã thực hiện ít hơn 3,5 lượt là ít có khả năng

khách hàng tốt nhất so với những người đã thực hiện hơn 4,5 lượt: 29% so với

100%. (Trong cuộc khảo sát, thăm mua sắm ít hơn 20 phút đã được mô tả như là một nửa

đến thăm.)

Ở bên phải của hình, cây quyết định là không đối xứng, Doanh thu thuần bán một lĩnh vực mới -

đã bước vào phân tích. Điều này cho thấy doanh thu thuần là mạnh hơn hoặc có liên quan hơn

dự đoán về tình trạng khách hàng hơn so với các đời Tổng số thăm, được sử dụng để phân tích

con cái. Nó là loại không đối xứng mà thúc đẩy sự phát triển ban đầu của quyết định

cây trong cộng đồng thống kê: các loại kết quả chứng minh tầm quan trọng của

(hoặc tương tác) kết hợp hiệu quả của hai chỉ số hiển thị các trình điều khiển của một

kết quả. Trong trường hợp của nam giới, khi doanh thu thuần vượt quá $ 281,50, sau đó khả năng

là một khách hàng tốt nhất tăng từ 45% đến 77%.

Như thể hiện trong không đối xứng của các cây quyết định, hành vi và hành vi nam nữ có

khác nhau sắc thái. Để giải thích hay dự đoán hành vi của phụ nữ, bạn phải nhìn vào

tương tác của giới tính (trong trường hợp này, nữ) với Tổng thăm đời. Đối với nam giới, Net

Page 16: Cay Quyet Dinh

bán hàng là một đặc tính quan trọng để xem xét.

Page 1414

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

Trong 1,6 hình, của tất cả các cách-k hoặc chi nhánh n-chiều có thể đã được hình thành trong

cây quyết định, chi nhánh 2 chiều được xác định là tốt nhất. Điều này chỉ ra rằng một chi nhánh 2 chiều

tạo ra tác động mạnh nhất. Sức mạnh của hiệu lực được đo lường thông qua các tiêu chí

đó là dựa trên sức mạnh của tách, ý nghĩa thống kê, hoặc khả năng tái, với

tôn trọng một quá trình xác nhận. Những biện pháp này, áp dụng cho việc xác định chi nhánh

hình thành và xác định tiêu chí phân chia, được thảo luận thêm trong Chương 3.

Cây quyết định có thể phục vụ phân loại (giới tính), thứ tự (số lần truy cập), và

các loại liên tục (bán ròng) của các lĩnh vực như đầu vào, phân loại cho mục đích hình thành

cây quyết định. Phân loại đầu vào có thể được tạo ra bằng cách di chuyển chuột đã loại dữ liệu định lượng

(Thứ tự và liên tục) vào danh mục có thể được sử dụng trong việc tạo ra các chi nhánh

hoặc chia tách, trong cây quyết định. Các thùng hình thành nên tổng số thăm đời đã được đặt

thành ba ngành:

• <3.5 ... ít hơn 3,5

• [3,5-4,5) ... giữa 3,5 đến <4,5

•> = 4,5 ... lớn hơn hoặc bằng đến 4,5

Nomenclatures khác nhau được sử dụng để chỉ ra các giá trị nằm trong một phạm vi nhất định. Meyers

(2000) đề xuất một sự thay thế, được hiển thị dưới đây:

• <3.5 ... ít hơn 3,5

Page 17: Cay Quyet Dinh

[3,5 - 4.5 [... giữa 3,5 đến <4,5

•> = 4,5 ... lớn hơn hoặc bằng đến 4,5

Sự khác biệt chính từ các quy ước được sử dụng trong cây quyết định SAS là trong lần thứ hai

phạm vi các giá trị, nơi mà vấn thiết kế "[" được dùng để chỉ khoảng thời gian bao gồm các

giảm số lượng và bao gồm bất kỳ con số đó là ít nghiêm ngặt hơn so với số lượng trên trong

phạm vi.

Một loạt các kỹ thuật tồn tại để bỏ thùng vào ngành: 2 chiều (nhị phân ngành), n-cách

(N bằng số lượng các thùng hoặc các loại), hoặc k chiều (k đại diện cho một

cố gắng để tạo ra một số lượng tối ưu của ngành và một số số lớn hơn hoặc

bằng 2 và nhỏ hơn hoặc bằng n).

Trang 15Chương 1: Quyết định Trees-Họ là?

15

Hình 1.7: Tác giả của mục tiêu Quyết định (Numeric) cây liên tục

Hình 1.7 cho thấy một cây quyết định được tạo ra với một biến phản ứng liên tục như

mục tiêu. Trong trường hợp này, trường mục tiêu là doanh thu thuần. Đây là lĩnh vực đã được sử dụng như một

phân loại (đối với nam giới) trong cây quyết định phân loại đáp ứng được hiển thị trong hình 1.6.

Nhìn chung, như trong hình 1.7, trung bình số lượng bán ròng là khoảng $ 250.

Hình 1.7 cho thấy số tiền này có thể được đặc trưng bằng cách thực hiện liên tiếp chia tách

doanh thu thuần theo mức thu nhập của các phản ứng điều tra, và trong phạm vi của họ

mức thu nhập, theo số lĩnh vực mua loại chưa thành niên. Trong

Ngoài đặc điểm các nhóm chi tiêu doanh số bán hàng net, cây quyết định này có thể được sử dụng như một

Page 18: Cay Quyet Dinh

tiên đoán công cụ. Ví dụ, trong hình 1.7, có thu nhập cao, vị thành niên thể loại

mua thường outspend người mua trung bình trung bình $ 378, so với các

chỉ tiêu 250 $. Nếu ai đó hỏi những gì một người mua có thu nhập tương đối thấp, người mua

một số lượng tương đối thấp của các loại vị thành niên sẽ chi tiêu, sau đó đoán tốt nhất

sẽ là khoảng $ 200. Kết quả này được dựa trên các quy tắc quyết định, lấy từ quyết định

cây, như sau:

Nếu số mua loại chưa thành niên

<1,5

VÀ INCOME_LEVEL

$ 50,000 - $ diện tích 74,9,

$ 40,000 - $ 49,9,

$ 30,000 - $ 39,9,

Dưới $ 30,000

THEN bán hàng Net trung bình = $ 200,14

Trang 1616

Quyết định cây cho khai thác mỏ thông minh và dữ liệu kinh doanh: Sử dụng SAS Enterprise Miner

Cây quyết định có thể chứa cả thông tin (liên tục) phân loại và số.

các nút của cây. Tương tự như vậy, đặc tính xác định các ngành quyết định

cây có thể được phân loại hoặc số (trong trường hợp thứ hai, các giá trị số

bị sụp đổ vào thùng, đôi khi xô gọi hoặc các nhóm bị sụp đổ của các loại để

cho phép chúng để tạo thành các chi nhánh của các cây quyết định).

Hình 1.8 cho thấy, Fisher Anderson iris dữ liệu có thể mang lại ba loại khác nhau của

Page 19: Cay Quyet Dinh

ngành phân loại SETOSA, mục tiêu so với khác (Fisher 1936), trong trường hợp này,

2 -, 3 -, và chi nhánh 5 lá. Có 50 hồ sơ SETOSA trong bộ dữ liệu. Với nhị phân

phân vùng, những hồ sơ được phân loại hoàn toàn theo chiều rộng cánh hoa quy tắc <= 6 mm. 3 -

cách và các phân vùng chi nhánh 5 chiều là không hiệu quả như là phân vùng 2 chiều và được hiển thị

chỉ để minh họa. Ví dụ được cung cấp trong Chương 2, "mô tả, tiên đoán,

và giải phân tích, "bao gồm các ví dụ cho thấy làm thế nào 3-way và n cách

phân vùng là tốt hơn so với 2 cách phân vùng.

Hình 1.8: Tác giả của Fisher-Anderson Iris dữ liệu và chọn Tùy chọn Tree Quyết định

(A) Chi nhánh Giải pháp

(B) Chi nhánh Giải pháp

(C) Năm Chi nhánh Giải pháp