ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ___________________________________
HÀ MẠNH TOÀN
TRÍCH RÚT ĐẶC TRƯNG PHỤC VỤ BIỂU DIỄN
BIỂU CẢM KHUÔN MẶT 3D
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ___________________________________
HÀ MẠNH TOÀN
TRÍCH RÚT ĐẶC TRƯNG PHỤC VỤ BIỂU DIỄN
BIỂU CẢM KHUÔN MẶT 3D
Ngành : Công nghệ thông tin
Chuyên ngành : Kỹ thuật phần mềm
Mã số : 60 48 01 03
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Đỗ Năng Toàn
Hà Nội - 2015
LỜI CẢM ƠN
Luận văn sẽ không thể hoàn thành nếu không có sự động viên, hỗ trợ hết mình của
rất nhiều ngƣời thân quanh tôi. Trƣớc hết Em xin gửi lời tri ân đến PGS.TS Đỗ Năng
Toàn ngƣời thầy đã chỉ bảo, giúp đỡ tận tình trong cả quá trình học tập, làm việc, và
hoàn thiện luận văn.
Em xin gửi lời cảm ơn đến các Thầy, Cô giáo tại trƣờng Đại học Công nghệ -
DHQG Hà Nội, những ngƣời đã trang bị các kiến thức cơ sở, nền tảng cho việc nghiên
cứu, tiếp thu những tri thức mới, mà từ đó Em có thể hoàn thành tốt luận văn của
mình, xa hơn nữa là hoàn thành tốt những dự án, công việc trong tƣơng lai.
Tôi xin cảm ơn các Anh, Chị, Em đồng nghiệp tại Viện Công nghệ Thông tin -
Viện HL KH&CN Việt Nam, và các bạn cùng khóa cao học đã có sự hỗ trợ, và đóng
góp ý kiến trong quá trình thực hiện luận văn này.
Cuối cùng, Tôi muốn gửi lời cảm ơn đến chân thành nhất đến gia đình tôi, những
ngƣời đã hết sức động viên, giúp đỡ tôi trong mọi mặt cuộc sống, mà từ đó tôi có động
lực cho quá trình làm việc, nghiên cứu và học tập.
Mặc dù đã có sự cố gắng hết sức trong quá trình nghiên cứu và xây dựng luận văn
nhƣng vì khối lƣợng công việc lớn, thời gian và trí tuệ còn hạn chế nên sẽ không thể
tránh khỏi những thiếu sót. Tôi hi vọng sẽ đƣợc sự góp ý chân thành từ phía bạn bè,
đồng nghiệp và các Thầy Cô giáo.
Ngƣời thực hiện
Hà Mạnh Toàn
LỜI CAM ĐOAN
Luận văn là do bản thân tự tìm hiểu và nghiên cứu dƣới sự hƣớng dẫn của PGS.
TS. Đỗ Năng Toàn cũng nhƣ trong quá trình học tập tại Đại học Công nghệ - Đại học
Quốc Gia Hà Nội. Trong Luận văn có sử dụng một số mã nguồn mở.
Tôi xin cam đoan, luận văn không phải là sản phẩm sao chép của bất kỳ tài liệu
khoa học nào.
1
MỤC LỤC
MỤC LỤC ............................................................................................................... 1
DANH MỤC TỪ VIẾT TẮT ......................................................................................... 2
DANH MỤC HÌNH VẼ ................................................................................................. 3
DANH MỤC BẢNG BIỂU ............................................................................................ 5
MỞ ĐẦU ............................................................................................................... 6
CHƢƠNG 1: KHÁI QUÁT ......................................................................................... 8
1.1. Khái quát về biểu cảm khuôn mặt .......................................................................... 8
1.1.1. Khái niệm biểu cảm khuôn mặt ...................................................................... 8
1.1.2. Vấn đề biểu diễn biểu cảm khuôn mặt 3D ..... Error! Bookmark not defined.
1.2. Bài toán trích rút đặc trƣng phục vụ biểu diễn biểu cảm khuôn mặt 3D ..... Error!
Bookmark not defined.
1.2.1. Giới thiệu bài toán ......................................... Error! Bookmark not defined.
1.2.2. Một số vấn đề trong việc triển khai thực tế ... Error! Bookmark not defined.
1.2.3. Một số ứng dụng liên quan ............................ Error! Bookmark not defined.
CHƢƠNG 2: TRÍCH RÚT ĐẶC TRƢNG PHỤC VỤ BIỂU DIỄN BIỂU CẢM
KHUÔN MẶT 3D ............................... Error! Bookmark not defined.
2.1. Phát hiện khuôn mặt trong ảnh ............................. Error! Bookmark not defined.
2.1.1. Các kỹ thuật tiền xử lý ................................... Error! Bookmark not defined.
2.1.2. Kỹ thuật phát hiện mặt người ........................ Error! Bookmark not defined.
2.2. Định vị điểm đặc trƣng khuôn mặt ...................... Error! Bookmark not defined.
2.2.1. Mô hình hình dạng ......................................... Error! Bookmark not defined.
2.2.2. Mô hình kết cấu hình ảnh .............................. Error! Bookmark not defined.
2.2.3. Mô hình kết hợp ............................................. Error! Bookmark not defined.
2.2.4. Vấn đề tìm kiếm tối ưu ................................... Error! Bookmark not defined.
CHƢƠNG 3: THỰC NGHIỆM ................................. Error! Bookmark not defined.
3.1. Bài toán ................................................................ Error! Bookmark not defined.
3.2. Sơ đồ hệ thống trích rút đặc trƣng biểu cảm trong ảnhError! Bookmark not
defined.
3.3. Thử nghiệm và đánh giá ....................................... Error! Bookmark not defined.
KẾT LUẬN ............................................................. Error! Bookmark not defined.
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN VĂN ........................................ Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ............................................................................................ 11
2
PHỤ LỤC A: XÂY DỰNG MÔ HÌNH 3D KHUÔN MẶT TỪ ẢNH ............... Error!
Bookmark not defined.
PHỤ LỤC B: TÍNH TOÁN PCA CHO DỮ LIỆU CÓ SỐ CHIỀU LỚN ........... Error!
Bookmark not defined.
DANH MỤC TỪ VIẾT TẮT
AAM Active Appearance Model
MPE
G
Moving Pictures Experts Group
PCA Principal Component Analysis
PICO Pixel Intensity Comparisons Organized in Decision Trees
3
DANH MỤC HÌNH VẼ
Hình 1.1. Mô tả dƣới dạng ma trận của các loại cảm xúc theo 2 chiều: cƣờng độ
cao hay thấp(I) và đánh giá tích cực hay tiêu cực(E) của Shaver ........................... 8
Hình 1.2. 7 trạng thái cảm xúc khuôn mặt cơ bản trong nghiên cứu của
Matsumoto ............................................................................................................... 9
Hình 1.3. Hệ cơ mặt .............................................................................................. 10
Hình 1.4. Mô hình hệ thống biểu diễn biểu cảm khuôn mặtError! Bookmark not
defined.
Hình 1.5. Phát hiện và gán nhãn điểm đánh dấu trong công trình của Arman
Savran và các đồng nghiệp .................................... Error! Bookmark not defined.
Hình 1.6. Công nghệ giám sát điểm đánh dấu trong phim Avatar ................ Error!
Bookmark not defined.
Hình 1.7. Hệ thống điểm của MPEG-4 ................. Error! Bookmark not defined.
Hình 1.8. Tập điểm của Luxand ............................ Error! Bookmark not defined.
Hình 2.1. Hình ảnh và biểu đồ màu da tƣơng ứng Error! Bookmark not defined.
Hình 2.2. Đặc trƣng lồi lõm dƣới nhiều mức tỉ lệ . Error! Bookmark not defined.
Hình 2.3. Ảnh ví dụ của phép so sánh cƣờng độ .. Error! Bookmark not defined.
Hình 2.4. Phép biến đổi Similarity ........................ Error! Bookmark not defined.
Hình 2.5. Đối tƣợng hình dạng và kết cấu hình ảnhError! Bookmark not
defined.
Hình 3.1. Sơ đồ hệ thống ....................................... Error! Bookmark not defined.
Hình 3.2. Mô tả bộ điểm Luxand .......................... Error! Bookmark not defined.
Hình 3.3. Các mẫu ảnh của một ngƣời trong cơ sở dữ liệu JAFFE .............. Error!
Bookmark not defined.
Hình 3.4. Một số kết quả định vị điểm đặc trƣng . Error! Bookmark not defined.
Hình 3.5. Khuôn mặt với biểu cảm biểu diễn lại trong phần mềm
VRFaceEmotion 1.0 .............................................. Error! Bookmark not defined.
Hình A.1. Ảnh dữ liệu thu thập từ ảnh chụp ......... Error! Bookmark not defined.
Hình A.2. Sử dụng công cụ tạo mặt phẳng để gán ảnh thu thậpError! Bookmark
not defined.
Hình A.3. Ảnh đƣợc dán vào plane trong 3DS MaxError! Bookmark not
defined.
Hình A.4. Công cụ Line và kết quả thu đƣợc ....... Error! Bookmark not defined.
Hình A.5. Mô hình thô chƣa làm mịn ................... Error! Bookmark not defined.
Hình A.6. Mô hình sau khi làm mịn...................... Error! Bookmark not defined.
4
Hình A.7. Mô hình tóc .......................................... Error! Bookmark not defined.
Hình A.8. Mô hình mi mắt .................................... Error! Bookmark not defined.
Hình A.9. Mô hình đầu chƣa gán Texture ............ Error! Bookmark not defined.
Hình A.10. Trải Texture với Unwrap UVW ......... Error! Bookmark not defined.
Hình A.11. Texture hoàn thiện .............................. Error! Bookmark not defined.
Hình A.12. Mô hình hoàn chỉnh ............................ Error! Bookmark not defined.
5
DANH MỤC BẢNG BIỂU
Bảng 2.1. Một số kết quả ví dụ so sánh cƣờng độ ảnhError! Bookmark not
defined.
Bảng 3.1. Bảng mô tả chi tiết định nghĩa tập điểm điều khiển của Luxand Error!
Bookmark not defined.
Bảng 3.2. Bảng đánh giá kết quả sai lệch định vị điểm đặc trƣng khuôn mặt
............................................................................... Error! Bookmark not defined.
Bảng 3.3. Bảng tỉ lệ chính xác kết quả định vị điểm khuôn mặt ................. Error!
Bookmark not defined.
6
MỞ ĐẦU
Nghiên cứu về mặt ngƣời là một trong những hƣớng nghiên cứu đƣợc rất nhiều sự
quan tâm của các nhà khoa học trên thế giới cũng nhƣ trong nƣớc. Các nghiên cứu
trong lĩnh vực này đƣợc chia thành hai hƣớng nghiên cứu chính đó là: hƣớng liên quan
đến phát hiện nhận, dạng mặt ngƣời cùng với các trạng thái biểu cảm của mặt ngƣời và
hƣớng liên quan đến biểu diễn mô hình mặt ngƣời cùng với các trạng thái khác nhau.
Thời gian gần đây, sự phát triển và phổ biến nhanh chóng của công nghệ phần
cứng máy tính và các thiết bị liên quan đã tạo điều kiện thuận lợi cho sự phát triển của
những hệ thống phần mềm yêu cầu khối lƣợng tính toán cao. Trong số đó, những hệ
thống mô phỏng con ngƣời, đặc biệt là việc biểu diễn biểu cảm khuôn mặt ngƣời 3D
trong lĩnh vực thực tại ảo là một trong những vấn đề quan trọng với nhiều ứng dụng đã
trở nên quen thuộc đối với cuộc sống con ngƣời, trong đó đơn giản nhất có thể kể đến
đó là những bộ phim giả tƣởng đẹp mắt nhƣ Avatar, Van Helsing… với những quái
vật, ngƣời sói có những biểu cảm khuôn mặt hết sức tinh tế. Trong những ứng dụng
nhƣ vậy, việc nắm bắt đƣợc một cách chính xác và nhanh chóng những đặc trƣng thể
hiện biểu cảm khuôn mặt ngƣời trở thành một trong những công đoạn quan trọng, rất
cần thiết đối với các hệ thống mô phỏng.
Hiện nay cũng đã có một số đơn vị nghiên cứu trong nƣớc có những hƣớng nghiên
cứu liên quan nhƣ Đại học Quốc Gia Hà Nội, Đại học Duy Tân, Đại học Lạc Hồng,
Đại học Thái Nguyên… Đây cũng là một hƣớng nghiên cứu đã và đang đƣợc đầu tƣ,
nghiên cứu và phát triển tại Viện Công nghệ Thông tin – Viện Hàn lâm Khoa học và
Công nghệ Việt Nam trong những năm gần đây.
Xuất phát từ hoàn cảnh đó, luận văn lựa chọn đề tài “Trích rút đặc trƣng phục vụ
biểu diễn biểu cảm khuôn mặt 3D” nhằm mô tả các vấn đề cùng các giải pháp tƣơng
ứng trong bài toán trích rút đặc trƣng phục vụ biểu diễn biểu cảm khuôn mặt 3D. Đây
là vấn đề có tính chất kết nối giữa lĩnh vực thị giác máy và lĩnh vực mô phỏng, liên
quan đến việc áp dụng các kỹ thuật xử lý ảnh trong bài toán tái thể hiện các biểu cảm
của khuôn mặt trên mô hình 3D.
Bố cục của luận văn gồm phần mở đầu, phần kết luận và ba chƣơng nội dung đƣợc
bố cục nhƣ sau:
Chƣơng 1: Khái quát. Chƣơng này nêu tổng quan về biểu cảm khuôn mặt ngƣời,
vấn đề biểu diễn biểu cảm khuôn mặt 3D và bài toán trích rút đặc trƣng phục vụ biểu
diễn biểu cảm khuôn mặt 3D cùng một số chi tiết liên quan nhƣ việc triển khai thực tế
và các bài toán liên quan.
Chƣơng 2: Trích rút đặc trƣng phục vụ biểu diễn biểu cảm khuôn mặt 3D. Đây là
chƣơng nội dung chính của luận văn. Nó tập trung trình bày các giải pháp cho các vấn
đề bên trong bài toán, cụ thể là vấn đề phát hiện khuôn mặt trong ảnh và trích rút, ghi
nhận các đặc trƣng thể hiện các cử chỉ, trạng thái biểu cảm của mặt ngƣời trong ảnh.
7
Chƣơng 3: Thử nghiệm. Kế thừa những nghiên cứu đã đƣợc trình bày trong
chƣơng 2, chƣơng 3 sẽ trình bày chƣơng trình thử nghiệm nhằm thể hiện cho các kết
quả đã đƣợc trình bày, tổng hợp trong luận văn.
8
CHƯƠNG 1: KHÁI QUÁT
1.1. Khái quát về biểu cảm khuôn mặt
1.1.1. Khái niệm biểu cảm khuôn mặt
Theo cách hiểu thông thƣờng, biểu cảm khuôn mặt có thể hình dung là thể hiện
bên ngoài tƣơng ứng với một trạng thái của hệ cơ nét mặt nằm dƣới vùng da mặt. Đây
cũng là một khái niệm gần gũi với con ngƣời trong cuộc sống hàng ngày bởi con ngƣời
trong sinh hoạt, lao động, giao tiếp đều cần phải biểu lộ thông tin mà mình muốn
truyền đạt hoặc thậm chí là phản xạ, mà trong đó, biểu cảm khuôn mặt gắn liền với
việc biểu lộ thông tin qua khuôn mặt là một trong những cách thức cơ bản và phổ dụng
nhất của con ngƣời.
Các nhà tâm lý học nhìn nhận biểu cảm khuôn mặt dựa trên những trạng thái tâm
lý con ngƣời. Có thể hình dung, khi nói đến tâm trạng hay trạng thái tâm lý là nói đến
một dạng cảm xúc có cƣờng độ nhất định, tồn tại trong một khoảng thời gian tƣơng
đối. Những trạng thái tâm lý có tác động mạnh vào các quyết định của con ngƣời nhƣ
các thao tác, hành vi, hoạt động. Theo hƣớng này, trạng thái biểu cảm có thể đƣợc hiểu
là cách thức con ngƣời thể hiện cảm xúc, dự đoán hay chia sẻ tình cảm của mình.
Hình 1.1. Mô tả dưới dạng ma trận của các loại cảm xúc theo 2 chiều: cường độ cao
hay thấp(I) và đánh giá tích cực hay tiêu cực(E) của Shaver
9
Có nhiều cách nhìn nhận về việc phân chia các trạng thái biểu cảm., chẳng hạn
nhƣ chia thành 3 mức chính: mức cao, mức trung và mức thấp. Trong đó mức cao thể
hiện sự khác biệt rõ rệt giữa hài lòng và không hài lòng. Mức chung thể hiện cảm giác
nhƣ tức giận, khiếp sợ, vui mừng và ngạc nhiên. Mức thấp thể hiện khác biệt nhỏ nhƣ
với trạng thái tức giận ta có những mức độ khác nhau. Bên cạnh đó, một cách phân
chia trạng thái biểu cảm khác là theo tâm trạng negative (buồn), negative hay positive
(ngạc nhiên) và positive (vui). Chẳng hạn nhƣ trong nghiên cứu của Shaver và các
đồng nghiệp [11] về việc phân tích liên quan đến các trạng thái yêu (Love), vui mừng
(Joy), Ngạc nhiên (Surprise), tức giận (Anger), buồn (Sadness) và sợ hãi (Fear). Gần
đây, Matsumoto [7] và các đồng nghiệp sử dụng cách phân chia các trạng thái cảm xúc
của khuôn mặt đã chia thành 7 nhóm thể hiện chính.
Hình 1.2.7 trạng thái cảm xúc khuôn mặt cơ bản trong nghiên cứu
của Matsumoto
Hệ cơ mặt đóng vai trò quan trọng trong việc tạo ra các biểu cảm của mặt, các cơ
trên khuôn mặt ở trạng thái khác nhau với những trạng thái biểu cảm khác nhau.
10
Hình 1.3. Hệ cơ mặt
Nói chung, trƣớc khi có những sự phát triển trong lĩnh vực công nghệ thông tin,
đặc biệt là trong lĩnh vực thị giác máy, việc phân tích biểu cảm khuôn mặt về cơ bản là
vấn đề của những nhà nghiên cứu tâm lý và bác sĩ. Tuy nhiên sau đó đã có những sự
thay đổi và đã xuất hiện nhiều nhóm nghiên cứu, nhiều công ty đầu tƣ vào vấn đề phân
tích biểu cảm khuôn mặt trên phƣơng diện xử lý ảnh và đồ họa máy tính. Có thể kể
đến một vài kết quả khởi đầu nhƣ: vào năm 1978, Suwa và các cộng sự [13] đã trình
bày một khảo sát sơ bộ về việc phân tích biểu cảm khuôn mặt tự động từ một chuỗi
các hình ảnh; vào những năm 90, vấn đề nghiên cứu biểu cảm khuôn mặt tự động đạt
đƣợc nhiều sự quan tâm với sự tiên phong của Mase và Pentland [5], trong công trình
này các tác giả trình bày một phƣơng pháp sử dụng luồng quang học để ƣớc lƣợng các
cử động của cơ mặt và dựa vào đó để nhận dạng một số biểu cảm đặc trƣng, theo đó
những thí nghiệm ban đầu cho thấy độ chính xác khoảng 80% khi nhận bốn loại: hạnh
phúc, giận dữ, ghê tởm, và ngạc nhiên.
Nghiên cứu về biểu cảm khuôn mặt trong lĩnh vực công nghệ thông tin rất đƣợc
quan tâm đến chính bởi vì nó hứa hẹn rất nhiều ứng dụng trong cuộc sống, chẳng hạn:
Các hệ thống xác thực bằng sinh trắc học trong thời gian thực cho phép ngƣời
dùng đăng nhập bằng cách nhìn vào ống kính camera
Các hệ thống kiểm soát vào ra và có lƣu vết thời gian
Các ứng dụng nhận dạng đối tƣợng không cần sự ghi danh trƣớc
Hệ thống giám sát video và nhận dạng khuôn mặt tự động
11
TÀI LIỆU THAM KHẢO
Tiếng Anh
1. Chai, Douglas, and King N. Ngan (1999), “Face segmentation using skin-
color map in videophone applications”, Circuits and Systems for Video
Technology, IEEE Transactions on, Vol 9, No 4, pp. 551-564.
2. Cyganek, Boguslaw, and J. Paul Siebert (2011), An introduction to 3D
computer vision techniques and algorithms. John Wiley & Sons.
3. Tran Le Hong Du, Duong Anh Duc, Duong Nguyen Vu (2006), “Ridge and
valley based face detection”, Research, Innovation and Vision for the
Future, 2006 International Conference on, IEEE, pp. 237-243.
4. Jing Xiao, Simon Baker, Iain Matthews, and Takeo Kanade (2004), “Real-
time combined 2D+ 3D active appearance models”, Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition),
pp. 535-542.
5. K. Mase, A. Pentland (1991), “Recognition of facial expression from optical
flow”, IEICE TRANSACTIONS on Information and Systems, Vol E74-D,
No10, pp.3474-3483.
6. Markuš, M. Frljak, IS Pandzic, J. Ahlberg, and R. Forchheimer (2014), “A
Method for Object Detection Based on Pixel Intensity Comparisons
Organized in Decision Trees”, arXiv preprint arXiv:1305.4537.
7. Matsumoto, David, and Hyi Sung Hwang (2011), "Reading facial
expressions of emotion", Psychological Science Agenda , Vol 25, No5,
pp. 10-18.
8. Pandzic, Forchheimer (2002), MPEG-4 facial animation: The standard,
implementation and applications, John Wiley & Sons, Chichester, England.
9. S.Baker and I.Matthews (2001), “Equivalence and efficiency of image
alignment algorithms”, Computer Vision and Pattern Recognition,
Proceedings of the 2001 IEEE Computer Society Conference on , Vol 1, pp.
1090-1097.
10. Savran, Arman, Levent M. Arslan, and Lale Akarun (2004), “Speech Driven
MPEG-4 facial animation for Turkish”, 9th Conference Speech and
Computer, pp. 57-64.
11. Shaver, Phillip, et al (1987), “Emotion knowledge: further exploration of a
prototype approach”, Journal of personality and social psychology, Vol 52, No
6, pp. 1061-1086.
12
12. Sobottka, Karin, and Ioannis Pitas (1998), “A novel method for automatic
face segmentation, facial feature extraction and tracking”, Signal
processing: Image communication, Vol 12, No 3, pp. 263-281.
13. Suwa, Sugie, Fujimora (1978), A preliminary note on pattern recognition of
human emotional expression. In International joint conference on pattern
recognition, pp. 408-410.
14. T. F. Cootes, G. J. Edwards, and C. J. Taylor (2001), “Active appearance
models”, IEEE Transactions on pattern analysis and machine
intelligence, Vol 23, No 6, pp. 681-685.
15. Y. Tian, T. Kanade, J. Cohn (2001), “Recognizing action units for facial
expression analysis”, Pattern Analysis and Machine Intelligence, IEEE
Transactions on, Vol 23, No 2, pp. 97-115.
16. Paul Viola, Michael Jones (2001), “Rapid object detection using a boosted
cascade of simple features”, Computer Vision and Pattern Recognition,
Proceedings of the 2001 IEEE Computer Society Conference on, Vol 1,
pp. 511-518.