Hồi quy PLS

Preview:

DESCRIPTION

Hồi quy PLS. Hervé Abdi Đại học Texas, Dallas herve@utdallas.edu. Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?. Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999). - PowerPoint PPT Presentation

Citation preview

Hồi quy PLSHervé Abdi

Đại học Texas, Dallasherve@utdallas.edu

Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?

Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999).

Cảm giác trong miệng (mouthfeel): mối quan hệ cảm quan –lưu biến trong thức uống ca cao nóng. Journal of Sensory Studies, 14, 181-195.(Data set courtoisie ofMarten, H., Marten M. (2001) Multivariate Analysis of Quality: An introduction. London: Wiley.

Tải về từ địa chỉ sau: www.wiley.co.uk/chemometricsBảng số liệu: Cocoa-ii.mat

Mục tiêu.Dự đoán Các thuộc tính cảm quan (mouthfeel): Các biến phụ thuộc (tập Y)từ Các tính chất lý/ hoá/ lưu biến: Các biến dự báo (predictors)/ biến độc lập (tập X)

6 Biến dự báo / độc lập (tập X) Các tính chất lý/ / hoá lưu biến %COCOA %SUGAR %MILK SEDIMENT COLOUR VISCOSITY (%ca cao % đường % sữa cặn màu sắc độ nhớt)

10 Biến phụ thuộc (Tập Y)colour cocoa-odour milk-odour thick-txtr mouthfeel Màu sắc mùi ca cao mùi sữa độ đặc cảm giác trong miệng

smooth-txtr creamy-txtr cocoa-taste milk-taste sweetTrơn nhẵn mịn vị ca cao vị sữa ngọt

14 Mẫu (n-:không có chất ổn định, n+: có chất ổn định)1- 2- 3- 4- 5- 6- 7- 1+ 2+ 3+ 4+ 5+ 6+ 7+

Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?

20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80

X

1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.0510.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.4811.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.0212.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.5913.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34

Y

Vì sao sử dụng PLS , PCA và MLR

Giới thiệu ngắn

• Bảng số liệu có I hàng và J cột: PCA, CA, Biplots, v.v...

II

JJ

Vẻ đẹp của Euclide …

• I hàng, J cột các bảng số liệu có I hàng và 1 cột (với J << I): Hồi quy đa biến (Multiple Regression )

II

JJ 11

Vẻ đẹp của Euclide

• I hàng và J cột các bảng số liệu có I hàng và K cột: PLS, CANDIS, v.v…

II

JJ KK

Vẻ đẹp của Euclide

Vì sao sử dụng PLS ?

1. Để giải thích sự tương tự nhau giữa các quan sát (ở đây là các mẫu ca cao)

2. Để phát hiện Cấu trúc trong mối quan hệ giữa các biến phụ thuộc và biến độc lập

3. Để có thể biểu diễn các số liệu dưới dạng biểu đồ

4. Để dự đoán giá trị của các quan sát mới

PLS kết hợp các điểm đặc trưng của Phân tích thành phần chính (Principal Component Analysis - PCA) và Hồi quy đa tuyến tính (Multiple Linear Regression - MLR).

Giống PCA: PLS trích lấy các yếu tố (factor) từ X.Giống MLR: PLS dự đoán Y từ X

Kết hợp PCA & MLR.PLS trích lấy các yếu tố từ X để dự đoán Y

Hồi quy PLS là gì ?

Sử dụng PLS khi nào?

Để phân tích hai bảng số liệu có cùng I số quan sát với J biến dự đoán và K biến phụ thuộc

1 … j … J

1...i...I

xi,j…...

……

...

Các biến độc lập

Số

quan

sát

1 … k … K

1...i...I

yi,k...............

……

...Các biến

phụ thuộc

Nguyên tắc chung của PLS:

1 … j … J1

...i

...I

xij…...

……

...

Biến dự đoán XS

ố q

uan

tt1 … tℓ ... tL

1

...i

...I

ti,ℓ…...…

…...

Biến ẩn _ latent variables

tℓ= Xwℓ

1 … k … K

1...i...I

yi,k...............

……

...

Các biến phụ thuộc

Dự đoán

NIPALS

ℓ= tℓ cTY

PLS: Mặt phẳng các quan sát

…... xijti,ℓ

t1 … tℓ ... tL

…...

……

...

Biến ẩn1 … j … J

1

...i

...I

……

...

X1 … k … K

yi,k...............

……

...

tℓ= Xwℓ

NIPALS

ℓ= tℓ cTY

lv2

lv1

Quan sát: tℓ

I

i

3

1

2 4

…... xijti,ℓ

t1 … tℓ ... tL

…...

……

...

Biến ẩn1 … j … J

1

...i

...I

……

...

X1 … k … K

yi,k...............

……

...

tℓ= Xwℓ

NIPALS

ℓ= tℓ cTY

lv1

lv2

Vòng tròn tương quan lv2

lv1

Mặt phẳng thông thường wℓ & cℓ

xx yx

y y y

y y

PLS: Mặt phẳng các quan sát

PLS: Dự đoán Y từ X

…... xijti,ℓ

t1 … tℓ ... tL

…...

……

...

Biến ẩn1 … j … J

1

...i

...I

……

...

X1 … k … K

yi,k...............

……

...

tℓ= Xwℓ

NIPALS

ℓ= tℓ cTY

tℓ= Xwℓ & = tℓ cT = XBpls Y Y

Vài biến hoá

Ở đây!

PLS: Giải thích Y theo X như thế nào?

RESS = (Y – Ŷ)2

So sánh số quan sát (Y) với giá trị dự đoán (Ŷ)

RESS (REsidual Sum of Squares)

1 … k … K

Y

1...i...I

1 … k … K

ℓ = XBpls Y

1...i...I

1 … k … K

(-1) = X(-1) Bpls Y

2...i...I

PLS: Dự đoán Y từ X như thế nào?Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife

1 … k … K

Y

1...i...I

Predict y1 from X(-1) 1 … k … K

Y(-1)

12...i...I

Predict y2 from X(-2)

…etc…

Predict yI from X(-I)

PRESS = (Y – Ŷjack)2

So sánh số quan sát (Y) với giá trị dự đoán Jackknifed (Yjack)

PRESS (Predicted REsidual Sum of Squares)

1 … k … K

Y

1...i...I

1 … k … K

jack = XBpls Y

1...i...I

PLS: Dự đoán Y từ X như thế nào?Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife

Câu hỏi lớn trong PLS :

Có bao nhiêu biến ẩn?

So sánh RESS và PRESS, hoặc sử dụng PRESS.

Phương pháp nhanh :

Min(PRESS) => Số biến ẩn tối ưu

Trở lại ví dụ về Ca cao

Mục tiêu: Giải thích và Dự đoán cảm giác (Y) từ tính chất Lý – Hóa (X)

20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80

X

1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.0510.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.4811.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.0212.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.5913.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34

Y

0 50 10035 40 450 2 430 40 5030 40 5020 30 400

50

10035

40

45024

30

40

5030

40

5020

30

40

Tương quan trong tập X

010200 510510150 5100 1020510155 10150 5105 10150 10200

102005

105

101505

100

10205

10155

101505

105

10150

1020

Tương quan trong tập Y

0 50 10035 40 450 2 430 40 5030 40 5020 30 400

102005

105

101505

100

10205

10155

101505

105

10150

1020

Tương quan giữa X và Y

Các biến ẩn -The t (latent) variables

• -0.42 -0.19 -0.34 -0.35• -0.25 -0.17 0.22 -0.20• -0.17 -0.14 0.50 -0.22• -0.13 -0.25 -0.26 -0.11• -0.03 -0.27 0.02 0.33• 0.23 -0.36 0.10 0.30• 0.41 -0.42 -0.11 0.06• -0.32 0.27 -0.37 0.04• -0.15 0.27 0.19 0.14• -0.08 0.27 0.46 0.03• 0.01 0.25 -0.29 0.38• 0.07 0.27 -0.02 0.33• 0.32 0.25 0.05 -0.22• 0.51 0.23 -0.16 -0.50

w

• 0.61 -0.15 -0.20 -0.46• -0.22 0.09 0.77 0.08• -0.39 0.06 -0.57 0.38• 0.01 -0.70 -0.00 0.41• -0.62 0.00 -0.15 -0.62• 0.20 0.69 -0.10 0.28

c

• 0.38 0.12 0.07 0.28• 0.38 0.11 -0.07 0.25• -0.37 -0.05 -0.30 -0.57• 0.15 0.55 -0.18 0.18• 0.27 0.41 -0.25 0.36• -0.23 0.46 0.22 0.10• -0.16 0.53 0.09 0.04• 0.38 0.03 -0.28 0.30• -0.37 0.03 0.07 -0.50• -0.33 0.09 0.81 -0.16

Bpls: X to Y (in Z-scores)

-0.11 -0.05 0.63 -0.21 -0.36 -0.48 -0.31 -0.09 0.45 -0.18

-0.03 -0.09 -0.13 -0.03 -0.07 0.24 0.15 -0.17 0.04 0.41

0.14 0.15 -0.50 0.24 0.43 0.25 0.16 0.26 -0.50 -0.24

0.32 0.29 -0.80 -0.19 0.19 -0.25 -0.40 0.43 -0.78 -0.33

-1.04 -0.97 1.70 -0.56 -1.10 -0.02 0.06 -1.07 1.54 0.68

0.52 0.5 -0.77 0.71 0.83 0.40 0.42 0.49 -0.65 -0.26

B*pls from X to Y (original units)

79.86 43.18 -52.77 29.23 32.63 6.91 4.32 52.51 -50.26 -19.07

-0.06 -0.01 0.15 -0.06 -0.06 -0.16 -0.06 -0.03 0.12 -0.05

-0.01 -0.02 -0.03 -0.01 -0.01 0.08 0.03 -0.05 0.01 0.11

0.07 0.04 -0.12 0.06 0.07 0.08 0.03 0.08 -0.13 -0.07

0.67 0.31 -0.82 -0.22 0.12 -0.33 -0.34 0.52 -0.84 -0.37

-1.85 -0.88 1.47 -0.54 -0.6 -0.02 0.04 -1.10 1.40 0.66

0.08 0.04 -0.06 0.06 0.04 0.04 0.03 0.04 -0.05 -0.02

RESS & PRESS

1 182.39 8505.472 50.86 8318.843 30.28 8292.234 15.69 8286.955 13.00 8299.236 11.91 8309.38

< min PRESS for 4

Keep 4 latent variables

Plot w & t (1 vs 2)

-1 -0.5 0 0.5 1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Dimension: 1

Dim

ens

ion:

2

%COCOA

%SUGAR%MILK

SEDIMENT

COLOUR

VISCOSITY

1- 2- 3-

4- 5-6-

7-

1+ 2+3+4+5+ 6+ 7+

Predictors & Rows (W*T) Cocoa Data (# factors: 4

Plot w & c (1 vs 2)

-1 -0.5 0 0.5 1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Dimension: 1

Dim

ens

ion:

2

%COCOA

%SUGAR%MILK

SEDIMENT

COLOUR

VISCOSITY

colourcocoa-odour

milk-odour

thick-txtr

mouthfeelsmooth-txtr

creamy-txtr

cocoa-tastemilk-tastesweet

Predictors & DVs (W*C) Cocoa (# factors: 4)

Vòng tròn tương quan

-1 -0.5 0 0.5 1

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Correlation with Principal Component # 1

Corr

elation

with

Princi

pal C

om

pone

nt # 2

colourcocoa-odour

milk-odour

thick-txtr

mouthfeelsmooth-txtr

creamy-txtr

cocoa-tastemilk-tastesweet

Cocoa (# factors: 4) Y loadings( Circle of Correlation)

Kết luận

• Tài liệu tham khảo hữu ích (contain bibliography):

Abdi (2007, 2003) see www.utd.edu/~herve

Recommended