57
CHƯƠNG 6 XỬ LÝ DỮ LIỆU Nguyễn Đăng Lý

Nghien Cuu Marketing_C6 MaIT

Embed Size (px)

Citation preview

Page 1: Nghien Cuu Marketing_C6 MaIT

CHƯƠNG 6XỬ LÝ DỮ LIỆU

Nguyễn Đăng Lý

Page 2: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUHIỆU CHỈNH

1. Mục đích nhằm đảm bảo: Đúng thủ tục/đối tượng phỏng vấn (legibility) Xử lý các phỏng vấn/trả lời không hoàn chỉnh

(completeness) Tính nhất quán của các trả lời (consistency) Sự chính xác của các trả lời (accuracy) Sự rõ ràng của các trả lời (clarification)

Page 3: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUHIỆU CHỈNH

2. Quá trình: Hiệu chỉnh sơ bộ (field editing):

Thực hiện bởi interviewer Càng sớm càng tốt sau khi phỏng vấn xong

Hiệu chỉnh cuối cùng (office editing): Thực hiện bởi editor Sau khi thu thập xong data Đòi hỏi người hiệu chỉnh phải có nhiều kinh

nghiệm, kiến thức.

Page 4: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUHIỆU CHỈNH

3. Xử lý khi phát hiện lỗi: Liên lạc trở lại để bổ sung hoặc làm rõ Hiệu chỉnh, làm rõ hoặc bổ sung theo trí nhớ

hoặc các cứ liệu/suy luận khác Hủy bỏ một số câu trả lời (missing value) Hủy hoàn toàn cuộc phỏng

vấn/questionnaire

Page 5: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUMÃ HÓA

1. Khái niệm Là quá trình gán mã số (số hoặc nhãn) cho

các biến và các trả lời. Thang đo của biến tùy thuộc vào cách hỏi

và bản chất của biến được hỏi.

Page 6: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUMÃ HÓA

2. Các bước mã hoá Đặt tên biến cho các câu hỏi:

Câu hỏi 1 chọn lựa Câu hỏi nhiều chọn lựa

Chuyển tập các chọn lựa trả lời của mỗi câu hỏi thành tập các số/nhãn phù hợp, có ý nghĩa. Câu hỏi đóng Câu hỏi mở Câu hỏi có chọn lựa: “Khác” Hai trường hợp “Không biết”

Page 7: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUMÃ HÓA

3. Bốn nguyên tắc khi mã hoá: Tính phù hợp (appropriateness): Cách phân

loại/nhóm phải phù hợp với vấn đề/mục tiêu nghiên cứu.

TD: Thông tin cá nhân hoặc doanh nghiệp. Tuổi <18 18-30 …. ?

Tuổi <16 16-25 …. ?

Tính toàn diện (exhaustiveness): Các mã số cần thể hiện các loại cần NC.

Loại “trả lời khác” nên chiếm tỉ lệ nhỏ nhất.

TD: Tuổi <18 18-30 >30 ??

Page 8: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUMÃ HÓA

3. Bốn nguyên tắc khi mã hoá (tt):

Tính loại trừ nhau (mutual exclusivity): Mỗi trả lời chỉ tương ứng với một mã số.

TD: quốc doanh, tư nhân, TNHH, cổ phần ??

Tính đơn nguyên (unidimensionality): Mỗi câu trả lời ứng với một thứ nguyên duy nhất.

Page 9: Nghien Cuu Marketing_C6 MaIT

XỬ LÝ DỮ LIỆUTẠO TẬP TIN DỮ LIỆU

Nhập dữ liệu vào file (SPSS) Cải biến tập dữ liệu Tạo biến mới, biến trung gian, v.v. Xử lý missing value

Page 10: Nghien Cuu Marketing_C6 MaIT

THỐNG KÊ MÔ TẢ

Thống kê mô tả dùng để tóm tắt các trị số đo lường của một biến.

Hai loại thống kê mô tả thường dùng:

Đo lường xu hướng trung tâm (central tendency): tóm lược trị số thường xảy ra nhất, hay nằm ở vị trí trung tâm của phân phối các dữ liệu thu thập được.

Đo lường mức độ phân tán (dispersion): tóm lược các trị số dữ liệu thu thập được phân bố gần hay xa bao nhiều so với trị số trung tâm.

Page 11: Nghien Cuu Marketing_C6 MaIT

THỐNG KÊ MÔ TẢBIẾN ĐỊNH DANH, BIỂU DANH

Để tổng hợp số liệu của biến định danh, có thể dùng các công cụ sau: Bảng phân phối tần số (số lượng quan sát thu

được) Tỷ lệ và số bách phân, Các biểu đồ hình thanh, hình bánh…

Page 12: Nghien Cuu Marketing_C6 MaIT

THỐNG KÊ MÔ TẢBIẾN THỨ TỰ

Ngoài các công cụ ở trên, có thể dùng các số thống kê khác để tóm lược dữ liệu các biến thứ tự như: Số trung vị, mode, khoảng tứ trung vị.

Page 13: Nghien Cuu Marketing_C6 MaIT

THỐNG KÊ MÔ TẢBIẾN KHOẢNG CÁCH VÀ TỶ LỆ

Đo lường xu hướng trung tâm Biểu đồ tần số Đường cong tần số Số trung bình

Đo lường độ phân tán Độ lệch trung bình Phương sai Độ lệch chuẩn

0

10

20

30

40

50

60

70

80

90

1st Qtr 2nd Qtr 3rd Qtr 4th Qtr

EastWestNorth

Page 14: Nghien Cuu Marketing_C6 MaIT

TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU Để chọn phương pháp phân tích cần xem xét

những yếu tố sau: Có bao nhiêu biến được phân tích đồng thời? Mục tiêu phân tích chỉ là mô tả mẫu hay suy

đoán cho tổng thể Các biến được đo bởi thang đo gì? Chỉ danh,

thứ tự, khoảng, tỉ lệ.

Page 15: Nghien Cuu Marketing_C6 MaIT

SƠ ĐỒ VỀ PHÂN TÍCH DỮ LIỆU

Start

Bao nhieâu bieánñöôïc pt. ñoàng

thôøi?

Phaân tích ñôn bieán

Phaân tích ña bieán

Phaân tích nhò bieán

treân 2 bieán1 bieán

2 bieán

Page 16: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾN

Phaân tích ñôn bieán

Thang ño cuûa bieán

+ Trung bình+ Phöông sai

+ Trung vò+ Khoaûng/phaàn traêm

+ Yeáu vò + Taàn suaátá

Chi-square test z test or t test

Kolmogorov-Smirnov test

TOÅNG QUAN VEÀ PHAÂN TÍCH ÑÔN BIEÁN

Chæ danh Khoaûng

Thöù töï

1. Moâ taû

2. Suy ñoaùn

Page 17: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

Kiểm chứng xem những phát biểu nào đó có thích hợp cho tổng thể nghiên cứu hay không.

Các phân tích liên quan đến kiểm nghiệm giả thuyết gọi là phân tích suy luận (inferential

analysis).

Page 18: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

Các bước kiểm nghiệm giả thuyết: B1: Thiết lập giả thuyết H0 và H1

B2: Xác định p.p. test phù hợp (statistical test). B3: Chọn trước mức ý nghĩa α (significance level) B4: Tính (tra bảng) giá trị test tới hạn (critical value)

ứng với α (one/two tailed) B5: Tính giá trị kiểm nghiệm thống kê từ tập số

liệu. B6: Nếu giá trị tính được ở B5 lớn hơn giá trị tới

hạn loại Ho

Page 19: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

1. Biến đo bằng thang khoảng (interval) Có thể dùng t Test hoặc Z Test để kiểm tra

giá trị trung bình của tổng thể khi biết giá trị trung bình của mẫu:

Z TEST:

Sử dụng khi: Biết phương sai của tổng thể và cỡ

mẫu bất kỳ. Không biết phương sai của tổng thể và

cỡ mẫu > 30

Page 20: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

1. Biến đo bằng thang khoảng (interval) (tt) t TEST:

Sử dụng khi: Không biết phương sai σ của tổng thể và cỡ

mẫu bất kỳ. Khi cỡ mẫu n > 30 thì phân phối t = phân phối z Lưu ý: khi tra bảng tc thì dF = n-1

xS

xt

Page 21: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

VD: Bình quân tuổi của 100 SV trong mẫu là (s=5). Nhà NC muốn kiểm chứng cho tổng thể:

Null hypothesis H0:

Alternative hypothesis H1:

Do n=100 >30 nên dùng Z test Chọn mức ý nghĩa α= 0.05 (two tailed)

Zc=1.96 Tính Z khi chưa biết

= (24-23) x 1001/2/5 = 2

Z = 2 > Zc = 1.96 loại H0

Không thể kết luận (với significant 5%) là = 23

24x

2323

snxz /)( 2/1

Page 22: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

2. Biến đo bằng thang danh xưng Dùng chi-square test để so sánh phân phối các

loại (categories) của mẫu và kỳ vọng của tổng thể

Các bước tiến hành: B1: Phát biểu giả thuyết H0, H1

B2: Xác định mức ý nghĩa và bậc tự do df.df = k – 1 (k là số loại danh định có thể

chọn trong biến thứ tự)B3: Tra bảng Chi-Square chuẩn

2C

Page 23: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

2. Biến đo bằng thang danh xưng (tt)B4: Tính giá trị kiểm nghiệm theo công thức

Oi: Số lần xuất hiện loại i trong mẫuEi: Giá trị kỳ vọng của số lần xuất hiện

B5: Bác bỏ/chấp nhận H0 dựa trên tiêu chuẩn “Bác bỏ H0 nếu

(tính được) > (tới hạn)”.

Nghĩa là có sự khác biệt giữa phân phối của mẫu và phân phối của tổng thể.Kiểm định Chi-Square không có ý nghĩa khi số lần xuất hiện kỳ vọng cho mỗi lựa chọn < 5.

k

1i i

2ii2

E

)EO(χ

22C

Page 24: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

VD: Khảo sát 100 người đang sử dụng internet ở HCMC. Kỳ vọng không có sự khác nhau về nghề nghiệp của những người sử dụng internet. Trong 100 người khảo sát có 20 người nhân viên văn phòng, 30 người quản lý, 35 sinh viên và 15 lao động.

H0: không có sự khác nhau về nghề nghiệp của những người sử dụng internet

K=4 loại nghề nghiệp Df=k-1 = 3 = 6.25 ( với = 10%)

Vì loại bỏ H0 (Xem bảng sau)

10)(

χ1

22

k

i i

ii

E

EO

2C

25.610 22c

Page 25: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐƠN BIẾNKIỂM NGHIỆM GIẢ THUYẾT

Nghề nghiệp Oi Ei Oi - Ei (Oi - Ei)2 (Oi - Ei)2/ Ei

Lao động 15 25 -10 100 4

Nhân viên VP 20 25 -5 25 1

Quản lý 30 25 5 25 1

Sinh viên 35 25 10 100 4

Total 100 100 10

Page 26: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

1. Chi – Square contingency test Mục đích:

Xác định sự tồn tại mối quan hệ giữa 2 biến danh định.

Yêu cầu: Không có ô nào có số lần xuất hiện kỳ vọng < 1

Không quá 1/5 tổng số ô có số lần xuất hiện < 5 Hạn chế:

Chỉ xác định có quan hệ hay không, không cho biết mức độ quan hệ.

Page 27: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

1. Chi – Square contingency test (tt)

Do đó, thường dùng hệ số Contingency bổ sung vào kiểm nghiệm Chi-Square để biết mức độ quan hệ giữa 2 biến.

nên trong thực tế hay dùng hệ số Cramer

2

2

nc

)1f(nv

2

C = 0: khoâng coù quan heäC khoâng coù chaën treân khoù dieãn dòch

V = 0: khoâng coù quan heäV = 1: coù quan heä hoaøn haûo

Page 28: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

VD: Kết quả khảo sát nhãn hiệu Bia ưa thích nhất phân theo mức thu nhập

Thu nhập Nhãn hiệu bia ưa thích Tổng

Bia A Bia B Bia C

Thấp 50

(109.38)

200

(101.56)

125

(164.06)

375

Tr.bình 200

(189.58)

100

(176.04)

350

(284.38)

650

Cao 100

(51.04)

25

(47.40)

50

(76.56)

175

Tổng 350 325 525 1200

Page 29: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

Ghi chú: Con số trong ngoặc chỉ giá trị kỳ vọng của mỗi ô trong bảng. Chúng được xác định theo tỉ lệ với tổng về thu nhập và loại bia ưa thích.

(Ô 1-1 có giá trị kỳ vọng = 350 x 375 / 1200 = 109.38)

Tính:

k

j ij

ijijl

i E

EO

1

2

1

2 )(χ

2.2522

Df = (k-1)(l-1) = (3-1)(3-1) = 4 Nếu chọn = 1% thì 3.132 C

Page 30: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

Kết luận:

22c Loại H0 có sự khác biệt

đáng kể giữa phân phối của mẫu và kỳ vọng (tổng thể)

Page 31: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

2. Hệ số tương quan Spearman và Pearson Spearman: tương quan giữa 2 biến thứ tự (ordinal). Pearson: tương quan giữa các biến khoảng/ tỉ lệ.

Hệ số tương quan r = 0 1 (không kể dấu +/-) r > 0.8 rất mạnh r = 0.6 – 0.8 mạnh r = 0.4 – 0.6 có tương quan r = 0.2 – 0.4 tương quan yếu r < 0.2 không tương quan

Page 32: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

2. Hệ số tương quan Spearman và Pearson (tt)

Lưu ý: Hai biến phải có phân phối chuẩn nhị biến. Phương sai của 1 biến tại bất kỳ giá trị nào

của biến kia cũng phải bằng nhau. Khi r nhỏ không có nghĩa là không tương

quan, mà chỉ không tương quan tuyến tính. Khi r lớn chỉ cho thấy mối tương quan,

nhưng không xác định quan hệ nhân quả.

Page 33: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH NHỊ BIẾNKIỂM NGHIỆM GIẢ THUYẾT

3. Phân tích hồi quy tuyến tính đơn

Phân tích 2 biến khoảng/tỉ lệ: Hồi quy tuyến tính đơn Y = aX + b

Sự khác biệt giữa hồi quy và tương quan:

Hoài quy tuyeán tính Tương quan

- Tạo ra một phương trình toán học liên kết các biến lại

- Phát hiện ra mức độ tương quan giữa 2 biến

- Tồn tại giả thiết nhân – quả: Biến độc lập – Biến phụ thuộc

- Không có giả thiết về nhân quả

Page 34: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH ĐA BIẾN

Có thể chia thành hai nhóm: Phân tích phụ thuộc: Xác định được biến nào là

phụ thuộc, biến nào là độc lập.

Bao gồm các pp: phân tích hồi quy đa biến, ANOVA, Conjoint, Discriminant, Canonical analysis...

Phân tích tương tác (interdependent): Không xác định trước biến nào là phụ thuộc, biến nào là độc lập, chủ yếu là tìm kiếm các mô thức tương quan.

Bao gồm các pp: Factor analaysis, Cluster, Multi-dimensional Scaling.

Page 35: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCHỒI QUY BỘI

Phân tích đa biến giúp giải quyết nhiều bài toán phức tạp. Tuy nhiên, mỗi phương pháp phân tích đa biến đều dựa trên một số giả thiết (ngầm). Khi sử dụng cần thận trọng.

Hồi quy bội có dạng:

y = a1X1 + a2X2 + a3X3 + ... anXn + b Dạng mở rộng của hồi quy đơn. Một biến phụ thuộc, nhiều biến độc lập Tất cả được đo bằng thang interval (ngoại lệ:

dummy-variable multiple regression)

Page 36: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCHỒI QUY BỘI

Đánh giá mô hình và kết quả hồi quy theo 3 phần: Mức độ phù hợp của phương trình hồi quy:

Dùng hệ số r2 (coefficient of determination)r2 = 0 1 đặc trưng cho % của biến thiên trong biến phụ thuộc được giải thích do sự biến thiên của biến độc lập.

Kiểm nghiệm mức ý nghĩa của r2:Dùng F – test (Với độ tự do: df = n – k – 1 cho mẫu số và df = k cho tử số). Với (n: cỡ mẫu, k: số biến độc lập)

Kiểm nghiệm mức ý nghĩa của các độ dốc ai:Dùng t – test với độ tự do df = n – k – 1

Page 37: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCHỒI QUY BỘI

Kiểm nghiệm các giả thuyết của p.p. hồi quy

a. Linearity: Có mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập

Test: quan sát scatter diagram hoặc ma trận tương quan

b. Đa cộng tuyến (Multicolinearity)

Giả thuyết: các biến độc lập không có tương quan tuyến tính với nhau.

Khi bị vi phạm Có hiện tượng đa cộng tuyến, nghĩa là hiện hữu mối tương quan tuyến tính giữa 2 biến độc lập.

Page 38: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCHỒI QUY BỘI

Đa cộng tuyến gây ra:

+ Hạn chế giá trị r2,

+ Sai lệch/đổi dấu các hệ số hồi quy

Test đa cộng tuyến: hệ số Tolerance hoặc VIF

c. Phân phối chuẩn (Normality) của sai số và của mỗi biến

d. Sai số hồi quy có variance không đổi (Constant Variance of the Error Term hay Homoscedasticity)

e. Tính độc lập của các sai số hồi quy (Independence of the Error Terms)

Page 39: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCHỒI QUY BỘI

Một số lưu ý khi sử dụng multiple regression: Phân tích hồi quy tuyến tính chỉ có nghĩa khi

có tương quan TUYẾN TÍNH giữa các biến. r2 không nói lên được quan hệ nhân quả giữa

các biến Có thể dự đoán sai nếu nằm ngoài khoản tính

toán Để đảm bảo độ tin cậy phải có nhiều hơn 10

điểm cho mỗi biến độc lập đưa vào phương trình ( yêu cầu cỡ mẫu)

Page 40: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCHỒI QUY BỘI

Một số lưu ý khi sử dụng multiple regression (tt) Khoảng dao động (range) các biến có thể ảnh

hưởng đến ý nghĩa phương trình hồi quy. Trường hợp biến độc lập là nominal thì có thể

sử dụng dummy-variable. Khi đó:

số biến dummy = k-1 ;

với k = số loại của biến nominal

mỗi biến dummy chỉ nhận giá trị 0 hoặc 1

Page 41: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCHỒI QUY BỘI

VD: Bài toán tìm các yếu tố quyết định sự thỏa mãn của nhân viên trong Cty XYZ. Biến phụ thuộc: sự thỏa mãn của nhân

viên Cty. Biến độc lập: thu nhập, điều kiện làm việc,

sự quan tâm của cấp trên, quan hệ với đồng nghiệp, cơ hội thăng tiến, cơ hội học tập, v.v.

Page 42: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCANOVA

Mục đích: Khảo sát mối quan hệ giữa các biến độc lập và phụ thuộc.

Đặc điểm: Tương tự như phân tích hồi quy, nhưng các biến độc lập là biến nonmetric (nominal/ordinal).

Áp dụng: So sánh giá trị trung bình của một thuộc tính (biến phụ thuộc/thang metric) thể hiện ảnh hưởng của một hay nhiều thuộc tính khác (biến độc lập/thang nonmetric).

Nếu có nhiều biến độc lập với thang chỉ danh gọi là Factorial ANOVA.

Nguyên tắc: Nếu có sự khác biệt đáng kể giữa các nhóm thì “between-group variance > within-group variance”

Page 43: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCANOVA

** ANCOVA: có xét đến các ảnh hưởng của một hay nhiều biến ngoại lai (gọi là control variable hoặc covariates - thang đo metric) và sẽ loại ra khỏi tập biến phụ thuộc trước khi phân tích ANOVA.

** MANOVA nếu có nhiều biến phụ thuộc

** MANCOVA có nhiều biến phụ thuộc và biến kiểm soát.

Page 44: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCANOVA

VD: Khảo sát 200 doanh nghiệp thuộc 3 ngành May mặc, Mỹ phẩm và Nhựa gia dụng về chi phí dành cho khuyến mãi hằng năm.

Mục đích phân tích nhằm tìm xem có sự khác nhau đáng kể/ có ý nghĩa thống kê giữa 3 ngành này về chi phí khuyến mãi không?

Biến độc lập: ngành (chỉ danh) (3 treatments)

Biến phụ thuộc: chi phí khuyến mãi (ratio)

Page 45: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCANOVA

Bài toán này có thể so sánh giá trị trung bình của chi phí khuyến mãi theo từng cặp ngành (dùng t – test). Tuy nhiên, khi số treatment lớn số lượng so sánh sẽ rất lớn.

Khi đó nên dùng ANOVA:

H0 : 1 = 2 = ... = k = H1 : có ít nhất 1 giá trị i khác những giá trị kia.

Với là trung bình của tổng thể

Page 46: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCDISCRIMINANT ANALYSIS

DISCRIMINANT ANALYSIS (Phân Tích Phân Biệt) Mục đích: Nhận ra những thuộc tính (các biến độc

lập) để phân biệt các nhóm định trước của biến phụ thuộc.

Đặc điểm: Biến độc lập có thang metric, biến phụ thuộc có thang nonmetric.

Nguyên tắc:Hàm phân biệt có dạng: Y = v1.X1 + v2.X2 + v3.X3 + …Sau khi tính được Y, so sánh với giá trị chuẩn Yc để biết đối tượng thuộc nhóm nào.

Page 47: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCDISCRIMINANT ANALYSIS

Công ty máy tính muốn biết xem thu nhập gia đình (X1) và số năm học ở trường của chủ hộ (X2) có phải là hữu ích trong việc phân biệt hộ có mua máy tính PC hay không. Khảo sát X1 và X2 của 2 nhóm mẫu ngẫu nhiên (có và không có PC).Biến độc lập: X1 – thu nhập, X2 – số năm học : metricBiến phụ thuộc: Có PC, Không có PC: category.Kết quả sẽ là hàm phân biệt:

Y= v1X1 + v2X2

v1, v2 : trọng số phân biệt (hằng số)Y : điểm phân biệt

So sánh Yi và Yc phần tử i sẽ thuộc nhóm nào trong 2 nhóm mẫu trên.

Page 48: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCCONJOINT ANALYSIS

Mục đích: Phân tích ảnh hưởng tổng hợp (joint effects) của 2 hay nhiều biến độc lập (thang nominal) lên một biến phụ thuộc (utility score - thang đo ordinal).

Ap dụng: Thường dùng trong test sản phẩm với nhiều yếu tố khác nhau (chất lượng, kiểu dáng, giá bán, nhãn hiệu, v.v.). Mỗi yếu tố có vài phương án khác nhau. Tìm xem tổ hợp nào được ưa thích nhất.

Nhà NC tạo ra một tập các phương án sản phẩm. Mỗi p.a. là 1 tổ hợp của các yếu tố.

Tập các p.a. này được đưa cho đối tượng chọn/xếp hạng (hoặc cho điểm thể hiện mức ưa thích).

Page 49: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCCONJOINT ANALYSIS

Conjoint analysis sẽ đánh giá ảnh hưởng của các utility score thành phần (hay part-worths, tượng trưng cho mức độ quan trọng của mỗi yếu tố) lên sự ưa thích tổng hợp (utility) đối với một sản phẩm.

Có thể dùng kết quả để: Đánhgiá thị phần của các nhãn hiệu trên thị

trường. Phân khúc thị trường Nhận dạng cơ hội thị trường cho một sản phẩm

với tổ hợp thuộc tính mới.

Page 50: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH PHỤ THUỘCCONJOINT ANALYSIS

VD: Thiết kế sản phẩm mới có 3 thuộc tính: Giá : (cao, trung bình, thấp) Kiểu dáng : (cao, trung bình, thấp) Chức năng : (đơn giản, phức tạp) ...

Chỉ cần đánh giá 1 nhóm khoảng 8 tổ hợp (thay vì 18 tổ hợp) về tính hấp dẫn của sản phẩm đối với khách hàng.

Tầm quan trọng của mỗi thuộc tính

Tầm quan trọng của mỗi mức độ trong các thuộc tính.

Tạo ra sản phẩm có độ vị lợi cao nhất đối với người mua.

Page 51: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH TƯƠNG TÁCFACTOR ANALYSIS (PHÂN TÍCH NHÂN TỐ)

Là phép rút gọn dữ liệu và biến bằng cách nhóm chúng lại với các nhân tố đại diện

Điều kiện: các biến phải có thang đo metric Ứng dụng:

Xây dựng bộ thang đo Multiple – item Xác định cấu trúc bộ dữ liệu Giảm thứ nguyên trong tập dữ liệu, rút gọn dữ

liệu Tùy mục đích bài toán, có thể dùng: Exploratory

factor analysis (EFA) hoặc Confirmatory factor analysis (CFA).

Page 52: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH TƯƠNG TÁCCLUSTER ANALYSIS (PHÂN TÍCH NHÓM)

Mục tiêu: Phân chia các đối tượng/người thành các nhóm với các thành viên trong nhóm có các đặc trưng tương tự.

Thí dụ: Bài toán phân khúc thị trường (Segmentation)

Phân loại hành vi mua (Typology) Quá trình thực hiện:

Xác định các biến làm cơ sở để phân nhóm Phần chia các nhóm dựa trên sự tương tự. Đặc tên nhóm dựa theo đặc điểm chung của các

thuộc tính (các biến cơ sở). Chuẩn định (Validation) và mô tả đặc trưng (profiling)

Page 53: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH TƯƠNG TÁCCLUSTER ANALYSIS (PHÂN TÍCH NHÓM)

VD: Công ty TICO: Xác định các Nhóm Khách Hàng khác nhau căn cứ trên hành vi mua.“Hãy đánh giá mức độ quan trọng của các yếu tố sau đây trong quyết định mua hàng của Ông/Bà”

X1 – Chất lượng sản phẩm X2 – Giá bán X3 – Thời gian giao hàng X4 – Uy tín nhà sản xuất X5 – Các dịch vụ đi kèm

1 2 3 4 5 6 7

Khoâng qtroïng

Raát qtroïng

Page 54: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH TƯƠNG TÁCCLUSTER ANALYSIS (PHÂN TÍCH NHÓM)

Hơn 300 khách hàng được khảo sát Nhận dạng ra các nhóm khác nhau.Trong mỗi nhóm có sự tương tự nhau về tầm quan trọng của các yếu tố (X1 X5) ảnh hưởng đến quyết định mua.Kết quả: Nhóm 1 – (Khách hàng trẻ, thu nhập cao, ở TP...)

X1, X4, X5 là quan trọng trong quyết định mua Nhóm 2 – (Khách hàng công nghiệp – sản xuất)

X1, X2, X3 là quan trọng. TICO sẽ có chiến lược tiếp thị đối với từng nhóm

khách hàng khác nhau.

Page 55: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH TƯƠNG TÁCMULTIDIMENSIONAL SCALING

Mục đích: Xác định số lượng và bản chất của các thứ nguyên (dimensions) đặc trưng cho nhận thức/ đánh giá của khách hàng về các đối tượng.

Thang đo: Cả hai loại thang metric/nonmetric Trong MR: Thường được sử dụng trong bài toán xác

định vị trí tương đối (relative position) của các nhãn hiệu cạnh tranh nhau do phản hồi từ phía khách hàng.

Xác định những yếu tố đặc trưng cho việc đánh giá của khách hàng.

Page 56: Nghien Cuu Marketing_C6 MaIT

PHÂN TÍCH TƯƠNG TÁCMULTIDIMENSIONAL SCALING

Là phương pháp ngược với Cluster

Multidimentional Scaling

Cluster Analaysis

Phát hiện các thứ nguyên đặc trưng (Underlying

Dimensions) từ các phản hồi

Gộp các đối tượng thành các nhóm theo 1 số đặc tính tượng tự nhau

Page 57: Nghien Cuu Marketing_C6 MaIT

VD: MDS đối với các nhãn hiệu TV ở HCMC

Ñoä beàn

Kieåu daùng

TOSHIBA

JVC

PANASONIC

SONY

SAMSUNG

VTB

BAÛN ÑOÀ NHAÄN THÖÙC VEÀ CAÙC THÖÔNG HIEÄU TV MAØU