36
Hồi quy PLS Hervé Abdi Đại học Texas, Dallas [email protected]

Hồi quy PLS

  • Upload
    menefer

  • View
    59

  • Download
    5

Embed Size (px)

DESCRIPTION

Hồi quy PLS. Hervé Abdi Đại học Texas, Dallas [email protected]. Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?. Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999). - PowerPoint PPT Presentation

Citation preview

Page 1: Hồi quy PLS

Hồi quy PLSHervé Abdi

Đại học Texas, [email protected]

Page 2: Hồi quy PLS

Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?

Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999).

Cảm giác trong miệng (mouthfeel): mối quan hệ cảm quan –lưu biến trong thức uống ca cao nóng. Journal of Sensory Studies, 14, 181-195.(Data set courtoisie ofMarten, H., Marten M. (2001) Multivariate Analysis of Quality: An introduction. London: Wiley.

Tải về từ địa chỉ sau: www.wiley.co.uk/chemometricsBảng số liệu: Cocoa-ii.mat

Mục tiêu.Dự đoán Các thuộc tính cảm quan (mouthfeel): Các biến phụ thuộc (tập Y)từ Các tính chất lý/ hoá/ lưu biến: Các biến dự báo (predictors)/ biến độc lập (tập X)

Page 3: Hồi quy PLS

6 Biến dự báo / độc lập (tập X) Các tính chất lý/ / hoá lưu biến %COCOA %SUGAR %MILK SEDIMENT COLOUR VISCOSITY (%ca cao % đường % sữa cặn màu sắc độ nhớt)

10 Biến phụ thuộc (Tập Y)colour cocoa-odour milk-odour thick-txtr mouthfeel Màu sắc mùi ca cao mùi sữa độ đặc cảm giác trong miệng

smooth-txtr creamy-txtr cocoa-taste milk-taste sweetTrơn nhẵn mịn vị ca cao vị sữa ngọt

14 Mẫu (n-:không có chất ổn định, n+: có chất ổn định)1- 2- 3- 4- 5- 6- 7- 1+ 2+ 3+ 4+ 5+ 6+ 7+

Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?

Page 4: Hồi quy PLS

20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80

X

Page 5: Hồi quy PLS

1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.0510.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.4811.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.0212.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.5913.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34

Y

Page 6: Hồi quy PLS

Vì sao sử dụng PLS , PCA và MLR

Giới thiệu ngắn

Page 7: Hồi quy PLS

• Bảng số liệu có I hàng và J cột: PCA, CA, Biplots, v.v...

II

JJ

Vẻ đẹp của Euclide …

Page 8: Hồi quy PLS

• I hàng, J cột các bảng số liệu có I hàng và 1 cột (với J << I): Hồi quy đa biến (Multiple Regression )

II

JJ 11

Vẻ đẹp của Euclide

Page 9: Hồi quy PLS

• I hàng và J cột các bảng số liệu có I hàng và K cột: PLS, CANDIS, v.v…

II

JJ KK

Vẻ đẹp của Euclide

Page 10: Hồi quy PLS

Vì sao sử dụng PLS ?

1. Để giải thích sự tương tự nhau giữa các quan sát (ở đây là các mẫu ca cao)

2. Để phát hiện Cấu trúc trong mối quan hệ giữa các biến phụ thuộc và biến độc lập

3. Để có thể biểu diễn các số liệu dưới dạng biểu đồ

4. Để dự đoán giá trị của các quan sát mới

Page 11: Hồi quy PLS

PLS kết hợp các điểm đặc trưng của Phân tích thành phần chính (Principal Component Analysis - PCA) và Hồi quy đa tuyến tính (Multiple Linear Regression - MLR).

Giống PCA: PLS trích lấy các yếu tố (factor) từ X.Giống MLR: PLS dự đoán Y từ X

Kết hợp PCA & MLR.PLS trích lấy các yếu tố từ X để dự đoán Y

Hồi quy PLS là gì ?

Page 12: Hồi quy PLS

Sử dụng PLS khi nào?

Để phân tích hai bảng số liệu có cùng I số quan sát với J biến dự đoán và K biến phụ thuộc

1 … j … J

1...i...I

xi,j…...

……

...

Các biến độc lập

Số

quan

sát

1 … k … K

1...i...I

yi,k...............

……

...Các biến

phụ thuộc

Page 13: Hồi quy PLS

Nguyên tắc chung của PLS:

1 … j … J1

...i

...I

xij…...

……

...

Biến dự đoán XS

ố q

uan

tt1 … tℓ ... tL

1

...i

...I

ti,ℓ…...…

…...

Biến ẩn _ latent variables

tℓ= Xwℓ

1 … k … K

1...i...I

yi,k...............

……

...

Các biến phụ thuộc

Dự đoán

NIPALS

ℓ= tℓ cTY

Page 14: Hồi quy PLS

PLS: Mặt phẳng các quan sát

…... xijti,ℓ

t1 … tℓ ... tL

…...

……

...

Biến ẩn1 … j … J

1

...i

...I

……

...

X1 … k … K

yi,k...............

……

...

tℓ= Xwℓ

NIPALS

ℓ= tℓ cTY

lv2

lv1

Quan sát: tℓ

I

i

3

1

2 4

Page 15: Hồi quy PLS

…... xijti,ℓ

t1 … tℓ ... tL

…...

……

...

Biến ẩn1 … j … J

1

...i

...I

……

...

X1 … k … K

yi,k...............

……

...

tℓ= Xwℓ

NIPALS

ℓ= tℓ cTY

lv1

lv2

Vòng tròn tương quan lv2

lv1

Mặt phẳng thông thường wℓ & cℓ

xx yx

y y y

y y

PLS: Mặt phẳng các quan sát

Page 16: Hồi quy PLS

PLS: Dự đoán Y từ X

…... xijti,ℓ

t1 … tℓ ... tL

…...

……

...

Biến ẩn1 … j … J

1

...i

...I

……

...

X1 … k … K

yi,k...............

……

...

tℓ= Xwℓ

NIPALS

ℓ= tℓ cTY

tℓ= Xwℓ & = tℓ cT = XBpls Y Y

Vài biến hoá

Ở đây!

Page 17: Hồi quy PLS

PLS: Giải thích Y theo X như thế nào?

RESS = (Y – Ŷ)2

So sánh số quan sát (Y) với giá trị dự đoán (Ŷ)

RESS (REsidual Sum of Squares)

1 … k … K

Y

1...i...I

1 … k … K

ℓ = XBpls Y

1...i...I

Page 18: Hồi quy PLS

1 … k … K

(-1) = X(-1) Bpls Y

2...i...I

PLS: Dự đoán Y từ X như thế nào?Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife

1 … k … K

Y

1...i...I

Predict y1 from X(-1) 1 … k … K

Y(-1)

12...i...I

Predict y2 from X(-2)

…etc…

Predict yI from X(-I)

Page 19: Hồi quy PLS

PRESS = (Y – Ŷjack)2

So sánh số quan sát (Y) với giá trị dự đoán Jackknifed (Yjack)

PRESS (Predicted REsidual Sum of Squares)

1 … k … K

Y

1...i...I

1 … k … K

jack = XBpls Y

1...i...I

PLS: Dự đoán Y từ X như thế nào?Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife

Page 20: Hồi quy PLS

Câu hỏi lớn trong PLS :

Có bao nhiêu biến ẩn?

So sánh RESS và PRESS, hoặc sử dụng PRESS.

Phương pháp nhanh :

Min(PRESS) => Số biến ẩn tối ưu

Page 21: Hồi quy PLS

Trở lại ví dụ về Ca cao

Mục tiêu: Giải thích và Dự đoán cảm giác (Y) từ tính chất Lý – Hóa (X)

Page 22: Hồi quy PLS

20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80

X

Page 23: Hồi quy PLS

1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.0510.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.4811.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.0212.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.5913.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34

Y

Page 24: Hồi quy PLS

0 50 10035 40 450 2 430 40 5030 40 5020 30 400

50

10035

40

45024

30

40

5030

40

5020

30

40

Tương quan trong tập X

Page 25: Hồi quy PLS

010200 510510150 5100 1020510155 10150 5105 10150 10200

102005

105

101505

100

10205

10155

101505

105

10150

1020

Tương quan trong tập Y

Page 26: Hồi quy PLS

0 50 10035 40 450 2 430 40 5030 40 5020 30 400

102005

105

101505

100

10205

10155

101505

105

10150

1020

Tương quan giữa X và Y

Page 27: Hồi quy PLS

Các biến ẩn -The t (latent) variables

• -0.42 -0.19 -0.34 -0.35• -0.25 -0.17 0.22 -0.20• -0.17 -0.14 0.50 -0.22• -0.13 -0.25 -0.26 -0.11• -0.03 -0.27 0.02 0.33• 0.23 -0.36 0.10 0.30• 0.41 -0.42 -0.11 0.06• -0.32 0.27 -0.37 0.04• -0.15 0.27 0.19 0.14• -0.08 0.27 0.46 0.03• 0.01 0.25 -0.29 0.38• 0.07 0.27 -0.02 0.33• 0.32 0.25 0.05 -0.22• 0.51 0.23 -0.16 -0.50

Page 28: Hồi quy PLS

w

• 0.61 -0.15 -0.20 -0.46• -0.22 0.09 0.77 0.08• -0.39 0.06 -0.57 0.38• 0.01 -0.70 -0.00 0.41• -0.62 0.00 -0.15 -0.62• 0.20 0.69 -0.10 0.28

Page 29: Hồi quy PLS

c

• 0.38 0.12 0.07 0.28• 0.38 0.11 -0.07 0.25• -0.37 -0.05 -0.30 -0.57• 0.15 0.55 -0.18 0.18• 0.27 0.41 -0.25 0.36• -0.23 0.46 0.22 0.10• -0.16 0.53 0.09 0.04• 0.38 0.03 -0.28 0.30• -0.37 0.03 0.07 -0.50• -0.33 0.09 0.81 -0.16

Page 30: Hồi quy PLS

Bpls: X to Y (in Z-scores)

-0.11 -0.05 0.63 -0.21 -0.36 -0.48 -0.31 -0.09 0.45 -0.18

-0.03 -0.09 -0.13 -0.03 -0.07 0.24 0.15 -0.17 0.04 0.41

0.14 0.15 -0.50 0.24 0.43 0.25 0.16 0.26 -0.50 -0.24

0.32 0.29 -0.80 -0.19 0.19 -0.25 -0.40 0.43 -0.78 -0.33

-1.04 -0.97 1.70 -0.56 -1.10 -0.02 0.06 -1.07 1.54 0.68

0.52 0.5 -0.77 0.71 0.83 0.40 0.42 0.49 -0.65 -0.26

Page 31: Hồi quy PLS

B*pls from X to Y (original units)

79.86 43.18 -52.77 29.23 32.63 6.91 4.32 52.51 -50.26 -19.07

-0.06 -0.01 0.15 -0.06 -0.06 -0.16 -0.06 -0.03 0.12 -0.05

-0.01 -0.02 -0.03 -0.01 -0.01 0.08 0.03 -0.05 0.01 0.11

0.07 0.04 -0.12 0.06 0.07 0.08 0.03 0.08 -0.13 -0.07

0.67 0.31 -0.82 -0.22 0.12 -0.33 -0.34 0.52 -0.84 -0.37

-1.85 -0.88 1.47 -0.54 -0.6 -0.02 0.04 -1.10 1.40 0.66

0.08 0.04 -0.06 0.06 0.04 0.04 0.03 0.04 -0.05 -0.02

Page 32: Hồi quy PLS

RESS & PRESS

1 182.39 8505.472 50.86 8318.843 30.28 8292.234 15.69 8286.955 13.00 8299.236 11.91 8309.38

< min PRESS for 4

Keep 4 latent variables

Page 33: Hồi quy PLS

Plot w & t (1 vs 2)

-1 -0.5 0 0.5 1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Dimension: 1

Dim

ens

ion:

2

%COCOA

%SUGAR%MILK

SEDIMENT

COLOUR

VISCOSITY

1- 2- 3-

4- 5-6-

7-

1+ 2+3+4+5+ 6+ 7+

Predictors & Rows (W*T) Cocoa Data (# factors: 4

Page 34: Hồi quy PLS

Plot w & c (1 vs 2)

-1 -0.5 0 0.5 1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Dimension: 1

Dim

ens

ion:

2

%COCOA

%SUGAR%MILK

SEDIMENT

COLOUR

VISCOSITY

colourcocoa-odour

milk-odour

thick-txtr

mouthfeelsmooth-txtr

creamy-txtr

cocoa-tastemilk-tastesweet

Predictors & DVs (W*C) Cocoa (# factors: 4)

Page 35: Hồi quy PLS

Vòng tròn tương quan

-1 -0.5 0 0.5 1

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Correlation with Principal Component # 1

Corr

elation

with

Princi

pal C

om

pone

nt # 2

colourcocoa-odour

milk-odour

thick-txtr

mouthfeelsmooth-txtr

creamy-txtr

cocoa-tastemilk-tastesweet

Cocoa (# factors: 4) Y loadings( Circle of Correlation)

Page 36: Hồi quy PLS

Kết luận

• Tài liệu tham khảo hữu ích (contain bibliography):

Abdi (2007, 2003) see www.utd.edu/~herve