Upload
menefer
View
59
Download
5
Embed Size (px)
DESCRIPTION
Hồi quy PLS. Hervé Abdi Đại học Texas, Dallas [email protected]. Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?. Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999). - PowerPoint PPT Presentation
Citation preview
Hồi quy PLSHervé Abdi
Đại học Texas, [email protected]
Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?
Theo Folkenberg D.M., Bredie W.L.P., Martend M., (1999).
Cảm giác trong miệng (mouthfeel): mối quan hệ cảm quan –lưu biến trong thức uống ca cao nóng. Journal of Sensory Studies, 14, 181-195.(Data set courtoisie ofMarten, H., Marten M. (2001) Multivariate Analysis of Quality: An introduction. London: Wiley.
Tải về từ địa chỉ sau: www.wiley.co.uk/chemometricsBảng số liệu: Cocoa-ii.mat
Mục tiêu.Dự đoán Các thuộc tính cảm quan (mouthfeel): Các biến phụ thuộc (tập Y)từ Các tính chất lý/ hoá/ lưu biến: Các biến dự báo (predictors)/ biến độc lập (tập X)
6 Biến dự báo / độc lập (tập X) Các tính chất lý/ / hoá lưu biến %COCOA %SUGAR %MILK SEDIMENT COLOUR VISCOSITY (%ca cao % đường % sữa cặn màu sắc độ nhớt)
10 Biến phụ thuộc (Tập Y)colour cocoa-odour milk-odour thick-txtr mouthfeel Màu sắc mùi ca cao mùi sữa độ đặc cảm giác trong miệng
smooth-txtr creamy-txtr cocoa-taste milk-taste sweetTrơn nhẵn mịn vị ca cao vị sữa ngọt
14 Mẫu (n-:không có chất ổn định, n+: có chất ổn định)1- 2- 3- 4- 5- 6- 7- 1+ 2+ 3+ 4+ 5+ 6+ 7+
Ví dụ: Cảm giác trong miệng (Mouthfeel) là gì?
20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80
X
1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.0510.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.4811.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.0212.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.5913.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34
Y
Vì sao sử dụng PLS , PCA và MLR
Giới thiệu ngắn
• Bảng số liệu có I hàng và J cột: PCA, CA, Biplots, v.v...
II
JJ
Vẻ đẹp của Euclide …
• I hàng, J cột các bảng số liệu có I hàng và 1 cột (với J << I): Hồi quy đa biến (Multiple Regression )
II
JJ 11
Vẻ đẹp của Euclide
• I hàng và J cột các bảng số liệu có I hàng và K cột: PLS, CANDIS, v.v…
II
JJ KK
Vẻ đẹp của Euclide
Vì sao sử dụng PLS ?
1. Để giải thích sự tương tự nhau giữa các quan sát (ở đây là các mẫu ca cao)
2. Để phát hiện Cấu trúc trong mối quan hệ giữa các biến phụ thuộc và biến độc lập
3. Để có thể biểu diễn các số liệu dưới dạng biểu đồ
4. Để dự đoán giá trị của các quan sát mới
PLS kết hợp các điểm đặc trưng của Phân tích thành phần chính (Principal Component Analysis - PCA) và Hồi quy đa tuyến tính (Multiple Linear Regression - MLR).
Giống PCA: PLS trích lấy các yếu tố (factor) từ X.Giống MLR: PLS dự đoán Y từ X
Kết hợp PCA & MLR.PLS trích lấy các yếu tố từ X để dự đoán Y
Hồi quy PLS là gì ?
Sử dụng PLS khi nào?
Để phân tích hai bảng số liệu có cùng I số quan sát với J biến dự đoán và K biến phụ thuộc
1 … j … J
1...i...I
xi,j…...
……
...
Các biến độc lập
Số
quan
sát
1 … k … K
1...i...I
yi,k...............
……
...Các biến
phụ thuộc
Nguyên tắc chung của PLS:
1 … j … J1
...i
...I
xij…...
……
...
Biến dự đoán XS
ố q
uan
sá
tt1 … tℓ ... tL
1
...i
...I
ti,ℓ…...…
…...
Biến ẩn _ latent variables
tℓ= Xwℓ
1 … k … K
1...i...I
yi,k...............
……
...
Các biến phụ thuộc
Dự đoán
NIPALS
ℓ= tℓ cTY
PLS: Mặt phẳng các quan sát
…... xijti,ℓ
t1 … tℓ ... tL
…...
……
...
Biến ẩn1 … j … J
1
...i
...I
……
...
X1 … k … K
yi,k...............
……
...
tℓ= Xwℓ
NIPALS
ℓ= tℓ cTY
lv2
lv1
Quan sát: tℓ
I
i
3
1
2 4
…... xijti,ℓ
t1 … tℓ ... tL
…...
……
...
Biến ẩn1 … j … J
1
...i
...I
……
...
X1 … k … K
yi,k...............
……
...
tℓ= Xwℓ
NIPALS
ℓ= tℓ cTY
lv1
lv2
Vòng tròn tương quan lv2
lv1
Mặt phẳng thông thường wℓ & cℓ
xx yx
y y y
y y
PLS: Mặt phẳng các quan sát
PLS: Dự đoán Y từ X
…... xijti,ℓ
t1 … tℓ ... tL
…...
……
...
Biến ẩn1 … j … J
1
...i
...I
……
...
X1 … k … K
yi,k...............
……
...
tℓ= Xwℓ
NIPALS
ℓ= tℓ cTY
tℓ= Xwℓ & = tℓ cT = XBpls Y Y
Vài biến hoá
Ở đây!
PLS: Giải thích Y theo X như thế nào?
RESS = (Y – Ŷ)2
So sánh số quan sát (Y) với giá trị dự đoán (Ŷ)
RESS (REsidual Sum of Squares)
1 … k … K
Y
1...i...I
1 … k … K
ℓ = XBpls Y
1...i...I
1 … k … K
(-1) = X(-1) Bpls Y
2...i...I
PLS: Dự đoán Y từ X như thế nào?Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife
1 … k … K
Y
1...i...I
Predict y1 from X(-1) 1 … k … K
Y(-1)
12...i...I
Predict y2 from X(-2)
…etc…
Predict yI from X(-I)
PRESS = (Y – Ŷjack)2
So sánh số quan sát (Y) với giá trị dự đoán Jackknifed (Yjack)
PRESS (Predicted REsidual Sum of Squares)
1 … k … K
Y
1...i...I
1 … k … K
jack = XBpls Y
1...i...I
PLS: Dự đoán Y từ X như thế nào?Với số liệu mới thì sự dự đoán này tốt như thế nào? Cross-validation. Here Jackknife
Câu hỏi lớn trong PLS :
Có bao nhiêu biến ẩn?
So sánh RESS và PRESS, hoặc sử dụng PRESS.
Phương pháp nhanh :
Min(PRESS) => Số biến ẩn tối ưu
Trở lại ví dụ về Ca cao
Mục tiêu: Giải thích và Dự đoán cảm giác (Y) từ tính chất Lý – Hóa (X)
20.00 30.00 50.00 2.60 44.89 1.86 20.00 43.30 36.70 2.65 42.77 1.80 20.00 50.00 30.00 2.40 41.64 1.78 26.70 30.00 43.30 3.10 42.37 2.06 26.60 36.70 36.70 3.55 41.04 1.97 33.30 36.70 30.00 4.30 39.14 2.13 40.00 30.00 30.00 4.70 38.31 2.26 20.00 30.00 50.00 0.12 44.25 48.60 20.00 43.30 36.70 0.09 41.98 44.10 20.00 50.00 30.00 0.10 41.18 43.60 26.70 30.00 43.30 0.10 41.13 47.80 26.60 36.70 36.70 0.10 40.39 50.30 33.30 36.70 30.00 0.10 38.85 51.40 40.00 30.00 30.00 0.09 37.91 54.80
X
1.67 6.06 7.37 5.94 7.80 8.59 6.51 6.24 6.89 8.48 3.22 6.30 5.10 6.34 8.40 9.09 7.14 7.04 5.17 9.76 4.82 7.09 4.11 6.68 8.29 8.61 6.76 7.26 4.62 10.50 4.90 7.57 3.86 6.79 8.58 5.96 5.46 8.77 3.26 6.69 7.03 7.96 2.99 6.92 8.71 6.42 5.59 8.93 2.76 7.0510.60 10.24 1.57 6.51 9.70 4.55 4.62 11.44 1.51 5.4811.11 11.31 1.25 7.04 9.72 3.42 4.11 12.43 0.86 3.91 3.06 6.97 5.40 9.84 9.99 10.67 9.11 7.66 5.71 8.24 6.02 8.61 3.75 10.01 9.92 10.86 8.64 7.66 4.86 8.71 7.94 8.40 2.95 9.61 9.92 10.84 8.26 8.32 4.09 9.67 9.17 9.30 2.86 10.68 11.05 10.48 8.20 10.40 2.22 6.43 10.46 10.14 1.90 10.71 10.64 9.60 7.84 11.05 2.01 7.0212.40 11.30 1.18 10.64 11.09 7.24 7.23 11.78 1.65 5.5913.46 11.49 1.56 11.31 11.36 7.22 6.86 12.60 1.06 4.34
Y
0 50 10035 40 450 2 430 40 5030 40 5020 30 400
50
10035
40
45024
30
40
5030
40
5020
30
40
Tương quan trong tập X
010200 510510150 5100 1020510155 10150 5105 10150 10200
102005
105
101505
100
10205
10155
101505
105
10150
1020
Tương quan trong tập Y
0 50 10035 40 450 2 430 40 5030 40 5020 30 400
102005
105
101505
100
10205
10155
101505
105
10150
1020
Tương quan giữa X và Y
Các biến ẩn -The t (latent) variables
• -0.42 -0.19 -0.34 -0.35• -0.25 -0.17 0.22 -0.20• -0.17 -0.14 0.50 -0.22• -0.13 -0.25 -0.26 -0.11• -0.03 -0.27 0.02 0.33• 0.23 -0.36 0.10 0.30• 0.41 -0.42 -0.11 0.06• -0.32 0.27 -0.37 0.04• -0.15 0.27 0.19 0.14• -0.08 0.27 0.46 0.03• 0.01 0.25 -0.29 0.38• 0.07 0.27 -0.02 0.33• 0.32 0.25 0.05 -0.22• 0.51 0.23 -0.16 -0.50
w
• 0.61 -0.15 -0.20 -0.46• -0.22 0.09 0.77 0.08• -0.39 0.06 -0.57 0.38• 0.01 -0.70 -0.00 0.41• -0.62 0.00 -0.15 -0.62• 0.20 0.69 -0.10 0.28
c
• 0.38 0.12 0.07 0.28• 0.38 0.11 -0.07 0.25• -0.37 -0.05 -0.30 -0.57• 0.15 0.55 -0.18 0.18• 0.27 0.41 -0.25 0.36• -0.23 0.46 0.22 0.10• -0.16 0.53 0.09 0.04• 0.38 0.03 -0.28 0.30• -0.37 0.03 0.07 -0.50• -0.33 0.09 0.81 -0.16
Bpls: X to Y (in Z-scores)
-0.11 -0.05 0.63 -0.21 -0.36 -0.48 -0.31 -0.09 0.45 -0.18
-0.03 -0.09 -0.13 -0.03 -0.07 0.24 0.15 -0.17 0.04 0.41
0.14 0.15 -0.50 0.24 0.43 0.25 0.16 0.26 -0.50 -0.24
0.32 0.29 -0.80 -0.19 0.19 -0.25 -0.40 0.43 -0.78 -0.33
-1.04 -0.97 1.70 -0.56 -1.10 -0.02 0.06 -1.07 1.54 0.68
0.52 0.5 -0.77 0.71 0.83 0.40 0.42 0.49 -0.65 -0.26
B*pls from X to Y (original units)
79.86 43.18 -52.77 29.23 32.63 6.91 4.32 52.51 -50.26 -19.07
-0.06 -0.01 0.15 -0.06 -0.06 -0.16 -0.06 -0.03 0.12 -0.05
-0.01 -0.02 -0.03 -0.01 -0.01 0.08 0.03 -0.05 0.01 0.11
0.07 0.04 -0.12 0.06 0.07 0.08 0.03 0.08 -0.13 -0.07
0.67 0.31 -0.82 -0.22 0.12 -0.33 -0.34 0.52 -0.84 -0.37
-1.85 -0.88 1.47 -0.54 -0.6 -0.02 0.04 -1.10 1.40 0.66
0.08 0.04 -0.06 0.06 0.04 0.04 0.03 0.04 -0.05 -0.02
RESS & PRESS
1 182.39 8505.472 50.86 8318.843 30.28 8292.234 15.69 8286.955 13.00 8299.236 11.91 8309.38
< min PRESS for 4
Keep 4 latent variables
Plot w & t (1 vs 2)
-1 -0.5 0 0.5 1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Dimension: 1
Dim
ens
ion:
2
%COCOA
%SUGAR%MILK
SEDIMENT
COLOUR
VISCOSITY
1- 2- 3-
4- 5-6-
7-
1+ 2+3+4+5+ 6+ 7+
Predictors & Rows (W*T) Cocoa Data (# factors: 4
Plot w & c (1 vs 2)
-1 -0.5 0 0.5 1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Dimension: 1
Dim
ens
ion:
2
%COCOA
%SUGAR%MILK
SEDIMENT
COLOUR
VISCOSITY
colourcocoa-odour
milk-odour
thick-txtr
mouthfeelsmooth-txtr
creamy-txtr
cocoa-tastemilk-tastesweet
Predictors & DVs (W*C) Cocoa (# factors: 4)
Vòng tròn tương quan
-1 -0.5 0 0.5 1
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Correlation with Principal Component # 1
Corr
elation
with
Princi
pal C
om
pone
nt # 2
colourcocoa-odour
milk-odour
thick-txtr
mouthfeelsmooth-txtr
creamy-txtr
cocoa-tastemilk-tastesweet
Cocoa (# factors: 4) Y loadings( Circle of Correlation)
Kết luận
• Tài liệu tham khảo hữu ích (contain bibliography):
Abdi (2007, 2003) see www.utd.edu/~herve