Kỹ Thuật Phân Tích Biệt Số bằng SPSS

MỤC LỤC

Lời mở đầu

Hiện nay, các đề tài nghiên cứu chủ yếu là nghiên cứu định lượng. Vì vậy các phần mềm thống kê như SPSS, EVIEWS, R,…được sử dụng phổ biến trong quá trình phân tích, xử lý số liệu nghiên cứu. Các kỹ thuật phân tích như phân tích ANOVA, phân tích hồi qui tương quan, kiểm định giả thuyết, phân tích nhân tố, phân tích cụm, phân tích kết hợp đã đáp ứng những nhu cầu khác nhau trong quá trình xử lý thông tin và ra quyết định,….. Tùy theo đặc điểm dữ liệu và mục tiêu nghiên cứu, việc sử dụng các mô hình phân tích này sẽ rất quan trọng, tránh việc chọn mô hình phân tích không phù hợp, điều này sẽ dẫn đến sai lầm trong việc ra quyết định. Trong đề án môn học này sẽ đề cập tới một kỹ thuật được áp dụng phổ biến trong thống kê và kinh tế ( marketing, quản trị,….) là kỹ thuật phân tích biệt số. Phân tích phân biệt được dùng để giải quyết một số tình huống khi nhà nghiên cứu muốn tìm thấy sự khác biệt giữa những nhóm đối tượng nghiên cứu với nhau, ví dụ phân biệt khách hàng trung thành và không trung thành bằng một số đặc điểm nhân khẩu học, phân biệt các phân khúc khách hàng bằng một số tiêu chí lợi ích khi sử dụng một sản phẩm…

Trong nghiên cứu Marketing, kỹ thuật phân tích phân biệt được sử dụng để trả lời những câu hỏi sau đây:

+Theo đặc điểm nhân khẩu, làm thế nào để phân biệt giữa khách hàng trung thành và không trung thành với việc mua hàng ở một cửa hàng? + Khách hàng là những người uống nhiều, uống trung bình hay uống ít các thức uống đã ướp lạnh? +Những đặc điểm tâm lý nào giúp phân biệt giữa những người mua hàng rất nhạy cảm về sự thay đổi của giá và những người mua hàng không nhạy cảm về vấn đề này? +Phân khúc thị trường có khác nhau trong thói quen sử dụng các phương tiện thông tin hay không? +Cái gì là đặc điểm để phân biệt khách hàng chấp nhận trả lời trực tiếp thông tin bằng thư tín?

Chương 1: Tổng quan về kỹ thuật phân tích biệt số

1.1. Khái niệm Phân tích phân biệt là một kỹ thuật phân tích sử dụng cho việc phân biệt giữa các nhóm bằng cách phân tích dữ liệu với một biến phụ thuộc được phân loại và các biến độc lập được đo bằng thang đo khoảng. Những mục tiêu của phân tích biệt số:+Phát triển những hàm phân biệt kết hợp tuyến tính những nhân tố dự báo (các biến độc lập). Hàm này có sự phân biệt tốt nhất giữa các tiêu chuẩn nhóm đã phân loại (biến phụ thuộc).

+Xác định xem có sự khác biệt có ý nghĩa tồn tại giữa các nhóm về nội dung của các biến độc lập không.

+Xác định biến độc lập nào gây ra sự khác biệt giữa các nhóm.

+Phân loại nhóm này so với nhóm khác dựa vào các giá trị của các biến độc lập.

+Ðánh giá tính chính xác của việc phân loại.

1.2. Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân tích phân biệt.

Giữa các phân tích hồi quy, ANOVA và phân tích phân biệt có những điểm giống nhau và khác nhau như sau:

Bảng 1.2. Phân biệt ba kỹ thuật phân tích

Hồi quy ANOVA Phân biệt1. Giống nhau

-Số lượng biến phụ thuộc-Số lượng biến độc lập

2. Khác nhau-Tính chất của biến phụ thuộc-Tính chất của biến độc lập

Một

Nhiều biến

Đo lường

Đo lường

Một

Nhiều biến

Đo lường

Phân loại

Một

Nhiều biến

Phân loại

Đo lường

Trong thực tế phân tích dữ liệu, tùy theo mục tiêu nghiên cứu, tính chất của dữ liệu( do điều kiện thu thập dữ liệu hay do đặc điểm của đối tượng được khảo sát) mà người phân tích dữ liệu sử dụng linh hoạt các phương pháp phân tích. Điều cần lưu ý là khi thiết kế nghiên cứu, người nghiên cứu cần hình dung ra các mô hình phân tích để thiết kế thang đo thu thập các dữ liệu phù hợp với mô hình phân tích sử dụng.

Ví dụ, một nhà nghiên cứu muốn giải thích lượng tiền bảo hiểm nhân thọ được trả (biến phụ thuộc) dựa vào tuổi và thu nhập (biến độc lập). Cả ba biến này đều có liên quan với nhau nhưng có bản chất khác nhau. Trong phân tích ANOVA và hồi quy, bản chất của biến phụ thuộc dùng đơn vị tính cho chỉ tiêu lượng tiền bảo hiểm nhân thọ là đồng, trong khi đó trong phân tích phân biệt (biến phụ thuộc) thì lượng tiền bảo hiểm có thể phân loai một trong ba mức độ: cao, trung bình hay thấp. Ngược lại, các biến độc lập tuổi và thu nhập trong phân tích ANOVA chia làm ba loại: cao, trung bình, thấp còn trong hồi quy và phân tích phân biệt nó sử dụng đơn vị tính của tuổi là năm và đơn vị tính của thu nhập là triệu đồng.

1.3. Phân loại phân tích phân biệt

- Phân tích phân biệt giữa hai nhóm( two-group discriminant analysis): Là phân tích được sử dụng trong trường hợp biến phụ thuộc được chia làm hai loại, trường hợp phân tích này gần giống như phân tích hồi quy nhiều chiều, biến phụ thuộc được mã hóa theo hai số 0 hoặc số 1 (dummy

variables). Kết quả phân tích thể hiện các hệ số hồi quy thì tỷ lệ với các hệ số hàm phân biệt.

- Phân tích phân biệt đa nhóm ( multiple discriminant analysis): Là kỹ thuật phân tích được sử dụng trong trường họp biến phụ thuộc được phân loại thành ba hay nhiều nhóm. Chi tiết của phân tích này sẽ được đề cập trong những phần sau.

1.4. Mô hình phân tích biệt số

D = bo + b1x1 + b2x2 + ......+ bkxk

Trong đó: D: Ðiểm phân biệt (biến phụ thuộc)

bi: Các hệ số hay trọng số phân biệt (i = 1,n)

xi: các biến độc lập (i = 1,n)

Trong mô hình phân tích, hệ số hay trọng số (bi) được ước lượng để phân biệt sự khác nhau giữa các nhóm dựa vào giá trị của hàm phân biệt. Ðiều này xuất hiện khi tỷ số giữa tổng bình phương giữa các nhóm và tổng bình phương trong từng nhóm có điểm phân biệt lớn nhất.

1.5. Các tham số thống kê trong phân tích biệt số

Canonical correlation: Hệ số tương quan canonical đo lường mức độ liên hệ giữa các biệt số và các nhóm. Nó là một thước đo mối liên hệ giữa hàm phân biệt đơn và tập hợp các biến giả xác định các nhóm. Centroid: là trung bình của các giá trị biệt số trong mỗi nhóm. Số centroid bằng với số nhóm vì mỗi nhóm có một centroid.

Classification matrix: ma trận phân loại ( ma trận dự đoán) chứa số quan sát được phân loại đúng và số quan sát phân loại sai. Số quan sát phân loại đúng sẽ nằm trên đường chéo chính của ma trận, và số quan sát phân loại sai nằm ngoài đường chéo. Tổng của các số nằm trên đường chéo được chia cho tổng số quan sát và được gọi là tỉ lệ đúng ( tỉ lệ thành công). Discriminant function coefficients: hệ số hàm phân biệt ( chưa chuẩn hóa) là các quyền số( trọng số) của các biến khi các biến được đo lường bằng đơn vị tính nguyên thủy. Disciminant scores: các biệt số được tính bằng cách nhân các hệ số không chuẩn hóa được với giá trị của các biến, sau đó lấy tổng của các tích tìm được theo phương trình ở phần trên. Eigenvalue: đối với mỗi hàm phân biệt thì eigenvalue là tỉ số giữa tổng các độ lệch bình phương giữa các nhóm và tổng các độ lệch bình phương trong nội bộ nhóm( SSG/SSW). Eigenvalue càng lớn thì hàm phân biệt càng tốt. F value and their significane: giá trị F được tính từ ANOVA một yếu tố, trong đó biến phân loại được sử dụng như biến độc lập, và mỗi biến dự đoán được sử dụng như biến phụ thuộc kiểu định lượng. Group means and group standard deviations: Trung bình nhóm và độ lệch chuẩn nhóm được tính cho mỗi biến dự đoán cho mỗi nhóm. Pooled within-group correlation matrix: ma trận tương quan nội bộ nhóm chung được tính bằng cách lấy trung bình các ma trận hiệp phương sai riêng cho tất cả các nhóm. Standarzed discriminant function coeficients: các hệ số hàm phân biệt chuẩn hóa là các hệ số hàm phân biệt được sử dụng như quyền số khi các biến được chuẩn hóa có trung bình là 0 và phương sai là 1. Structure correlation: tương quan kết cấu cho biết các hệ số tương quan đơn giữa các biến dự đoán và hàm phân biệt. Total correlation matrix: ma trận tương quan toàn bộ là ma trận tương quan khi các quan sát được coi như xuất phát từ một mẫu duy nhất. Wilks’٨ : đôi khi được gọi là đại lượng thống kê U ( U statistic).

1.6. Tiến trình phân tích phân biệt

Xác định vấn đề

Ước lượng các tham số của hàm phân biệt

Sơ đồ 1.6. Tiến trình phân tích phân biệt

1.6.1. Xác định vấn đề nghiên cứu

Bước 1: xác định vấn đề nghiên cứu bao gồm nhận biết các mục tiêu, biến phụ thuộc ( criterion), và các biến độc lập. Biến phụ thuộc phải là biến có hai hay nhiều biểu hiện. Khi biến phụ thuộc được đo trên thang khoảng cách hay tỉ lệ, ta phải chuyển đổi về kiểu biến phân loại. Ví dụ thái độ đối với nhãn hiệu được đo trên thang khoảng cách có 6 điểm có thể được chuyển đổi thành biến phân loại là không thuận lợi ( gồm 1,2,3) và thuận lợi (gồm 4,5,6). Bước 2: Chia mẫu quan sát thành 2 phần. Phần dùng để ước lượng hàm phân biệt được gọi mà mẫu ước lượng hay mẫu phân tích( estimation or analysis sample). Phần còn lại được gọi là mẫu kiểm tra ( holdout or validation sample) dùng để kiểm tra tính đúng đắn của hàm phân biệt. Khi mẫu đủ lớn, ta có thể chia mẫu thành hai phần bằng nhau: một để phân tích và một để kiểm tra. Vai trò của hai nữa mẫu này có thể được thay đổi và việc phân tích được lập lại. Điều này gọi là kiểm tra chéo hai lần (double cross- validation). Thông thường phân phối của số quan sát trong mẫu phân tích và mẫu kiểm tra giống như phân phối trong toàn bộ mẫu.

Xác định ý nghĩa của hàm phân biệt

Giải thích kết quả

Đánh giá hiệu quả phân tích

Ví dụ nếu toàn bộ mẫu gồm 50% người tiêu dùng trung thành và 50% người tiêu dùng không trung thành, thì mẫu phân tích và mẫu kiểm tra cũng gồm 50% trung thành và 50% không trung thành.

1.6.2. Ước lượngCó hai phương pháp ước lượng các hệ số của hàm phân biệt: Phương pháp trực tiếp( enter independents together): ước lượng hàm phân biệt khi tất cả các biến dự đoán được đưa vào cùng một lúc. Trong trường hợp này mỗi biến được đưa vào bất kể khả năng phân biệt của nó. Phương pháp này thích hợp khi dựa vào nghiên cứu trước đó hay mô hình lý thuyết, người nghiên cứu muốn hàm phân biệt được xây dựng trên tất cả các biến dự đoán. Phương pháp từng bước( Use stepwise method): các biến dự đoán được đưa vào hàm phân biệt một cách tuần tự dựa vào khả năng phân biệt được các nhóm của chúng. Phương pháp này thích hợp khi nhà nghiên cứu muốn chọn ra một tập con các biến dự đoán để đưa và phương trình.

1.6.3. Xác định mức ý nghĩa Chúng ta không được giải thích kết quả phân tích nếu hàm phân biệt được ước lượng không có ý nghĩa về mặt thống kê. Giả thiết không ở đây là trong tổng thể các trung bình của các hàm phân biệt trong tất cả các nhóm là bằng nhau, giả thiết này phải được kiểm định xem có ý nghĩa thống kê không.Trong SPSS, kiểm định này được thực hiện trên tiêu chuẩn kiểm định Wilk’٨ . Nếu hàm phân biệt được kiểm định cùng một lúc( trong trường hợp phân tích bội số), thì đại lượng Wilk’٨ là tích của các đại lượng đơn biến của từng hàm. Mức ý nghĩa ước lượng dựa trên phép biến đổi sang đại lượng Chi- square của đại lượng này.

1.6.4. Giải thích kết quả Việc giải thích kết quả các hệ số của hàm phân biệt và các hệ số khác tương tự như trong trường hợp phân tích hồi quy bội. Trị số của hệ số của một biến dự đoán phụ thuộc vào việc đưa các biến dự đoán khác vào trong hàm phân biệt. Dấu của các hệ số này thì tùy ý, nhưng chúng cho biết biến nào làm trị số của hàm phân biệt lớn hay nhỏ và nên gắn chúng với nhóm nào.

Tầm quan trọng của các biến được thể hiện qua độ lớn tuyệt đối của hệ số chuẩn hóa của hàm phân biệt. Nói chung , các biến có hệ số chuẩn hóa càng lớn thì càng đóng góp nhiều hơn vào khả năng phân biệt của hàm. Tầm quan trọng của các biến cũng có thể được thể hiện qua các hệ số tương quan kết cấu, bảng này được sắp theo thứ tự giảm dần của độ lớn, hay còn gọi là hệ số biệt tải hay trọng số canonical. Những hệ số tương quan đơn giữa từng biến dự đoán và hàm phân biệt này cho biết phương sai biến dự đoán này tham gia trong phương trình.

1.6.5. Đánh giá Như đã đề cập trong phần trên, các dữ liệu được chia làm hai phần: mẫu phân tích dùng để ước lượng hàm phân biệt, và mẫu kiểm tra dùng để xây dựng ma trận phân loại. Các hệ số phân biệt( discriminant weights) sau khi được ước lượng từ mẫu phân tích, sẽ được nhân với các giá trị của các biến dự đoán trong mẫu kiểm tra để tính biệt số của từng mẫu quan sát trong mẫu kiểm tra. Tiếp theo các quan sát này được phân vào các nhóm dựa trên biệt số của chúng và dựa trên một nguyên tắc quyết định thích hợp. Trong phân tích biệt số hai nhóm thì các quan sát được phân vào nhóm có centroid gần nhất. Nguyên tắc quyết định thường tính ra một điểm phân biệt, nếu quan sát có biệt số lớn hơn giá trị này thì được xếp vào nhóm có centroid lớn, ngược lại nếu biệt số của quan sát này nhỏ hơn giá trị này thì sẽ được xếp vào nhóm có centroid nhỏ. Sau đó, tỉ lệ đúng (hit ratio) hay phần trăm số quan sát được phân loại đúng, được tính bằng cách cộng các con số trên đường chéo của bảng kết quả phân loại( classification results) và chia cho tổng số quan sát. Kết quả phân loại tính từ mẫu phân tích luôn luôn tốt hơn kết quả phân loại tính từ mẫu kiểm tra bởi vì hàm phân biệt được ước lượng từ các dữ liệu trong mẫu phân tích.

Chương 2:Ứng dụng kỹ thuật phân tích biệt số với phần mềm SPSS

2.1. Thực hiện phân tích biệt số 2 nhóm bằng SPSS

Ví dụ: khi phân tích về lợi nhuận của những hộ tham gia làng nghề nhà nghiên ứu đã phân thành 2 nhóm: hộ có lợi nhuận (lợi nhuận > 0) và hộ không có lợi nhuận (LN ≤ 0). Nhà nghiên cứu muốn xem xét sự khác biệt giữa 2 nhóm hộ có lợi nhuận như trên về các yếu tố: tuổi, năm kinh nghiệm, vốn, số lao động, số mặt hàng, tính chất làng nghề (1-đã được công nhận, 0 – chưa được công nhận), tính chất hoạt động của hộ (1-hộ chuyên, 0 – hộ kiêm).

Để giải quyết cho tình huống trên, phân tích biệt số được tiến hành như sau:

Bước 1. Chia mẫu quan sát thành 2 phần

Đối với phân tích phân biệt, ta phải chia mẫu quan sát thành 2 phần: mẫu ước lượng hay mẫu phân tích (là phần dùng để ước lượng hàm phân biệt); phần còn lại là để kiểm tra tính đúng đắn của hàm phân biệt (mẫu kiểm tra). Khi cỡ mẫu đủ lớn, ta có thể chia thành 2 phần bằng nhau và theo tỷ lệ của toàn bộ mẫu.

Ví dụ: trong ví dụ trên, cỡ mẫu là 122 mẫu (có 66 mẫu ko có LN – chiếm 54% và 56 mẫu có LN – chiếm 46%). Ta sẽ tiến hành chia thành 2 phần, mỗi phần gồm 61 mẫu: trong đó có 33 mẫu ko có LN và 28 mẫu có LN.

Bước 2. Tiến hành phân tích biệt số trên SPSS

Vào Analyze Classify Discriminant, xuất hiện hộp thoại sau:

- Đưa biến phân loại 2 nhóm hộ có LN khác nhau vào ô Grouping Variable Khai báo Define Range (1 là hộ có TN, 0 là hộ ko có TN) Continue.

- Đưa các biến độc lập vào ô Independents.

- Xác định biến quan sát dùng để phân tích và kiểm tra tại ô Selection Variable. Tiếp theo sẽ khai báo Value. Khi phân chia mẫu ở bước 1, ta đã mã hóa nhóm dùng để phân tích là 1, nhóm dùng để kiểm tra là 0, nên sẽ nhập số 1 vào ô Value for Selection Variable. Continue.

- Tiếp theo chọn nút Statistics và khai báo như sau: trung bình, bảng phân tích phương sai đơn, các ma trận hệ số tương quan và hiệp phương sai…

- Tiếp theo chọn nút Classify, và khai báo các phần như sau Continue

Tại ô Prior Probabilities: xác suất dùng để phân biệt đối tượng. Có 2 cách xác định: Xác suất bằng nhau giữa các nhóm (All groups equal), Xác suất theo tỷ lệ hay quy mô của các nhóm (Compute from group sizes).

Display: thể hiện kết quả chi tiết của từng quan sát (case wise results), bảng kết quả phân biệt tóm tắt (summary table).

Use Vovariance Matrix: phân biệt các quan sát bằng ma trận hiệp phương sai nội bộ các nhóm trung bình hay bằng ma trận hiệp phương sai các nhóm riêng biệt.

Plots: vẽ biểu đồ phân tác chung cho các nhóm hay riêng cho từng nhóm, và vẽ biểu đồ vị trí.

Bước 3. Giải thích kết quả

- Bảng 2.1.1. Tests of Equality of Group Means

Nếu xem xét một cách riêng biệt thì chỉ có tính chất hoạt động của hộ (hộ chuyên hay hộ kiêm), số mặt hàng, vốn cố định, và tính chất làng nghề (đã và chưa được công nhận) có khả năng phân biệt một cách có ý nghĩa khác biệt giữa những hộ có lợi nhuận và những hộ không có lợi nhuận.

Bảng 2.1.1. Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

Tuoi .999 .071 1 59 .791Namkinhnghiem .998 .138 1 59 .712Tính chất hộ .862 9.437 1 59 .003Tong lao dong .975 1.496 1 59 .226Somathang .923 4.925 1 59 .030Von co dinh (1000d)

.922 4.988 1 59 .029

Von luu dong (1000d)

.962 2.322 1 59 .133

Tinh chat nghe .721 22.785 1 59 .000

- Bảng 2.1.2. Eigenvalues. Vì trường hợp này chỉ có 2 nhóm (có lợi nhuận và không có lợi nhuận) nên chỉ có 1 hàm phân biệt được ước lượng. Giá trị eigen là 0.858 và chiếm đến 100% phương sai giải thích được nguyên nhân. Hệ số tương quan canonical tương ứng là 0.680, cho thấy 46% của phương sai biến phụ thuộc (lợi nhuận) được giải thích bởi mô hình này. (bình phương hệ số 0.680 = 0.46 = 46%).

Bảng 2.1.2. Eigenvalues

Function

Eigenvalue

% of Variance

Cumulative %

Canonical Correlation

1 .858a 100.0 100.0 .680

a. First 1 canonical discriminant functions were used in the analysis.

- Tiếp theo sẽ xác định xem hàm phân biệt được ước lượng có ý nghĩa về

mặt thống kê hay không. Với hệ số Wilk là 0.538 và giá trị p là 0.000

nhỏ hơn mức ý nghĩa 5% rất nhiều, nên có thể kết luận sự phân biệt có ý

nghĩa thống kê ở mức ý nghĩa 5%, và có thể tiến hành giải thích kết quảBảng 2.1.3. Wilks' Lambda

Test of Function(s)

Wilks' Lambda

Chi-square Df Sig.

1 .538 34.068 8 .000

- Kết quả được giải thích như sau:

Tầm quan trọng của các biến được thể hiện qua độ lớn trị tuyệt đối của hệ số chuẩn hóa (bảng Standardized Canonical Discriminant Function Coefficients). Các biến có trị tuyệt đối hệ số chuẩn hóa càng lớn thì càng đóng góp nhiều hơn vào khả năng phân biệt của hàm. Hoặc có thể xem xét điều này tại bảng Structure Matrix, mức độ tác động của các biến được xếp theo thứ tự giảm dần.

Bảng 2.1.4. Standardized Canonical Discriminant Function Coefficients

Function

1

Tuoi .147Namkinhnghiem .316Tính chất hộ .551Tong lao dong .105Somathang .229Von co dinh (1000d)

.464

Von luu dong (1000d)

.197

Tinh chat nghe .816

Theo kết quả, ta thấy biến tính chất hoạt động của hộ là biến dự đoán quan trọng nhất dùng để phân biệt 2 nhóm lợi nhuận, tiếp đến là biến tính chất làng nghề, vốn cố định và số mặt hàng.

Dấu của các hệ số của tất cả các biến dự đoán đều dương cho thấy rằng những hộ tham gia làng nghề đã được công nhận, hộ chuyên sản xuất, vốn cố định và vốn lưu động càng cao, số mặt hàng càng nhiều, tổng lao động nhiều, nhiều kinh nghiệm và tuổi chủ hộ càng cao thì hộ sẽ càng có khả năng có lợi nhuận.

- Đánh giá hàm phân biệt thông qua mẫu kiểm tra.

Bảng 2.1.5. Classification Results cho thấy kết quả phân loại dựa trên mẫu phân tích. Tỷ lệ phân biệt đúng là (26+22)/61 = 0.787 = 78.7%, tỷ lệ này được tính dựa vào những mẫu nhà nghiên cứu đã chọn. Để kiểm tra tính đúng đắn của hàm phân biệt được ước lượng, ta phải thực hiện kiểm tra trên mẫu được chọn một cách ngẫu nhiên. Tỷ lệ này là (16+19)/61 = 0.574 = 57.4%. Có thể kết luận mô hình phân biệt này là khá tốt.

Bảng 2.1.5. Classification Resultsa,b

LN 1 cao - 0 Thap

Predicted Group Membership

Total0 1

Cases Selected Original

Count 0 26 7 33

1 6 22 28

% 0 78.8 21.2 100.0

1 21.4 78.6 100.0

Cases Not Selected

Original

Count 0 16 17 33

1 9 19 28

% 0 48.5 51.5 100.0

1 32.1 67.9 100.0

a. 78.7% of selected original grouped cases correctly classified.b. 57.4% of unselected original grouped cases correctly classified.

2.2. Ứng dụng SPSS với phân tích đa nhóm

Sử dụng phân tích đa nhóm khi biến phụ thuộc được phân loại từ ba nhóm trở lên. Chẳng hạn như biến thu nhập có thể phân thành ba loại: thu nhập cao, thu nhập trung bình và thu nhập thấp. Trong nghiên cứu ta có thể xác định được biến độc lập nào có thể phân biệt được ba loại thu nhập này.

2.2.1. Xác định vấn đề Trở lại ví dụ về du lịch được đề cập ở phần trên, ta vẫn sử dụng 5 biến độc lập: thu nhập, thái độ du lịch, tầm quan trọng của du lịch, số nhân khẩu và tuổi chủ hộ nhưng có sự thay đổi trong biến phụ thuộc. Biến phụ thuộc đại diện cho các khả năng chi tiêu khi đi du lịch, hay nói cách khác biến phụ thuộc Y chia làm ba nhóm - nhóm 1: chi tiêu cao; nhóm 2: chi tiêu trung bình và nhóm 3: chi tiêu thấp. Bảng kết quả phân tích biệt số đa nhóm như sau:

Bảng 2.2.1. Pooled Within-Groups Correlation Matrix

Bảng 2.2.2. Wilks'l and F Ratio

Bảng 2.2.3. Canonical Discriminant Functions

10

Bảng 2.2.4. Standard Canonical Discriminant Function Coefficients

Bảng 2.2.5. Structure Matrix

Bảng 2.2.6. Unstandard Canonical Discriminant Function Coefficients

Bảng 2.2.7. Canonical Discriminant Functions evaluated at group means

11

Bảng 2.2.8. Classification Results for cases selected for use in analysis

Kết quả xử lý trong bảng 3.2 được giải thích theo thứ tự như sau:

2.2.2. Trung bình nhóm (group means)

Trung bình thu nhập giữa các nhóm có cách biệt lớn hơn so với các biến khác, tiếp theo là thái độ du lịch và tầm quan trọng của du lịch.

12

Trung bình nhân khẩu và tuổi chủ hộ giữa các nhóm không khác biệt nhiều. Tuy nhiên, chênh lệch tuổi của chủ hộ giữa các nhóm có độ lệch chuẩn khá cao.

2.2.3. Ma trận tương quan trong các nhóm (Pooled within-groups correlation matrix):

- Tầm quan trọng của du lịch và số nhân khẩu trong mỗi gia đình có tương quan thấp đến thu nhập (r = 0,30 và r = 0,28)

- Tuổi của chủ hộ có tương quan nghịch với thái độ du lịch (r = - 0,34), nghĩa là tuổi càng cao thì ít có xu hướng đi du lịch hơn.

- Xử lý ở mức ý nghĩa 5% thì chỉ có hai biến: thu nhập (sig. = 0,00) và thái độ du lịch (sig. = 0,04) là có ý nghĩa trong việc phân biệt giữa ba nhóm thu nhập khác nhau.

2.2.4. Các hàm phân biệt chuẩn tắc (Canonical discriminant functions):

- Vì trong biến phụ thuộc Y có ba nhóm nên có hai hàm phân biệt (hàm phân biệt bằng số nhóm trừ đi 1). Hệ số tương quan và hệ số xác định của hai hàm phân biệt có giá trị như sau:

R1 = 0,89 => (R1)2 = 0,79 = 79%

R2 = 0,44 => (R1)2 = 0,19 = 19%

- Hàm phân biệt thứ nhất có tỷ trọng phương sai là 93,93% và giải thích 79% sự khác biệt của ba nhóm và là hàm có độ phân biệt khá cao giữa ba nhóm thu nhập.

- Hàm phân biệt thứ hai có tỷ trọng phương sai là 6,07% và chỉ giải thích 19% sự khác biệt của ba nhóm, cho nên đây là hàm có độ phân biệt thấp giữa ba nhóm thu nhập.

2.2.5. Kiểm định giả thuyết:

H0: Trung bình cả hai hàm có độ phân biệt bằng nhau trong ba nhóm thu nhập

H1: Trung bình cả hai hàm có độ phân biệt khác nhau trong ba nhóm thu nhập

- Giá trị 0 trong cột after function trong bảng kết quả 2 có nghĩa là kiểm định giả thuyết với hai hàm phân biệt kết hợp,ta có: Sig = 0,00 <=0,05 nên bác bỏ

giả thuyết Ho.

13

- Nhưng khi đặt hàm phân biệt thứ nhất ra khỏi kiểm định (biểu thị bằng giá trị 1 trong cột after function) thì sự phân biệt giữa các nhóm không còn ý nghĩa (vì sig. = 0,24 > ( = 0,05) hay nói cách khác ta chấp nhận giả thuyết Ho. Vì vậy, chỉ riêng hàm phân biệt thứ hai không có ý nghĩa trong sự phân biệt giữa ba nhóm.

2.2.6. Các hệ số hàm phân biệt chuẩn (Standard canomocal discriminant function coefficients):

- Trong hàm phân biệt thứ nhất, biến thu nhập có hệ số phân biệt lớn nhất (1,04), trong khi hàm -phân biệt thứ hai có ba biến có hệ số phân biệt khá cao là thái độ du lịch, tầm quan trọng của du lịch và tuổi chủ hộ.- Giải thích tương tự đối với ma trận kết cấu tương quan giữa các biến phân biệt và các hàm phân biệt (structure matrix). Tuy nhiên, hàm phân biệt thứ nhất chứa đựng hai biến là thu nhập và số nhân khẩu vì các biến này có hệ số tương quan lớn hơn trong hàm phân biệt thứ hai. Giải thích tương tự cho hàm phân biệt chứa đựng ba biến còn lại.

2.2.7. Xem xét các hệ số phân biệt của mẫu chuẩn hóa (Unstandardized canonical discriminant function coefficients)

Giá trị hàm phân biệt thứ nhất của nhóm thứ nhất (chi tiêu cao) có giá trị âm (-2,041), trong khi đó biến thu nhập có hệ số phân biệt dương (1,54) và số nhân khẩu có giá trị âm (-0,12), điều này chứng tỏ thu nhập càng cao thì chi tiêu càng lớn và số nhân khẩu ít hơn cũng chi tiêu thấp hơn. Giải thích tương tự cho các nhóm còn lại.

2.2.8. Hiệu quả phân tích: Dựa vào:

Tỷ số tiếp cận trong mẫu phân tích

Tỷ số tiếp cận trong mẫu chuẩn hóa

Tỷ số tiếp cận tối thiểu

Kết luận chung: Ta thấy rằng các giá trị tiếp cận đều lớn hơn 25%, do đó hiệu quả của phân tích được chấp nhận.

14

Tài liệu tham khảo1. Hoàng Trọng- Chu Nguyễn Mộng Ngọc. Phân tích dữ liệu với SPPS-

tập 2 ( 2008). ( Đại học kinh tế Hồ Chí Minh).2. Nguyễn Hoàng Tú Anh .Giáo trình Khai thác dữ liệu và ứng dụng 2009

( Đại học khoa học tự nhiên TP.HCM)3. Ngô Quốc Tạo. Bài giảng môn Datamining. ( Đại học Thái Nguyên 2006-

2008).4. Phó giáo sư tiến sĩ Hà Quang Thụy. Bài giảng nhập môn khai phá dữ liệu.

(Đại học công nghệ- Đại học quốc gia HN)

15

Documents

Kỹ Thuật Phân Tích Biệt Số bằng SPSS