Upload
le-anh
View
264
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
Lê Quốc AnhNgười Ảo
Người Ảo
Trình bày bởi Lê Quốc Anh
Lê Quốc Anh và các đồng nghiệp
1. Giới thiệu chung về người ảo
2. Giới thiệu kiến trúc GRETA
3. Nghiên cứu trường hợp cụ thể: Tạo cử chỉ
4. Tìm kiếm cơ hội hợp tác tạo sản phẩm Việt
page 2 Người ảo thông minh
Nội dung trình bày
Lê Quốc Anh và các đồng nghiệp
Giới thiệu chung
page 3 Người ảo thông minh
Lê Quốc Anh và các đồng nghiệppage 4 Người ảo thông minh
Hoàn cảnh ra đời
Ban đầu chúng ta nghĩ máy tính là cái bảng tính chỉ với các con số. Sau khi nhập thêm các chữ cái, chúng ta nghĩ nó là máy gõ chữ. Rồi khi đồ họa máy tính phát triển, chúng ta xem nó như cái ti vi... [Douglas Adams, 2001]
Và bây giờ, với sự phát triển của các phần mềm thông minh, chúng ta giao tiếp với máy tính như thể chúng thực sự là con người [Nass et al., 1997]
Thế là người ta tìm cách biến nó thành người bằng cách trang bị cho nó giao diện giao tiếp giống với con người thông qua giọng nói, khuôn mặt, cử chỉ,…[Cassell et al. 2000] thay vì sử dụng bàn phím, con chuột hay dòng chữ vô cảm [PcWorld, 2008]
Lê Quốc Anh và các đồng nghiệppage 5 Người ảo thông minh
Định nghĩa
Các tên gọi khác nhau• IVA (Intelligent Virtual Agent), ACA (Agent Conversationnel Animé), ECA
(Embodied Conversational Agent), ACE (Agent Conversationnel Incarné), Virtual Human, Digital Clone
• Tiếng Việt: Tác nhân,Tác tử thông minh• Chúng tôi tạm gọi là Người Ảo theo cách dịch Virtual Human và đã được
sử dụng trên PC World Việt Nam [Số ra 26/06/2008] Người Ảo là một nhân vật có hình dáng, hành động tương tự con người Hoạt động trong môi trường ảo (máy chiếu, máy tính) hoặc môi trường
thật (người máy) Khác với nhận vật đóng thế (avatar), Người Ảo có trí thông minh và tự
chủ trong hành động Có thể giao tiếp với con người thông qua lời nói và cử chỉ (tay chân mặt
mũi, …)
EMBR
Greta
MAX
Lê Quốc Anh và các đồng nghiệppage 6 Người ảo thông minh
Người Ảo: Đặc điểm chung
Patrick Olivier (2008, Newcastle, UK),:• Có 2 loại người ảo:
- một loại vật lý (như robot)
- một loại thể hiện bằng hình ảnh 3 chiều trên máy tính.
• 4 đặc điểm căn bản của con người:
- khả năng giao tiếp;
- cảm nhận, cảm thụ thế giới;
- suy nghĩ, tư duy;
- hành động.
Russell và Norvig (1995, Berkeley, USA)• Cấu tạo một Người Ảo nói chung như hình bên sẽ gồm:
- khả năng cảm thụ thông qua tai, mắt và các cơ quan cảm nhận khác
- khả năng hành động bằng tay, chân, miệng và các phần khác của cơ thể
• Người ảo vật lý (robot) có thể được trang bị camera hoặc tia hồng ngoại để thu nhận thông tin và các cơ vận động khác nhau để hành động
Robot Kismet, MIT
Lê Quốc Anh và các đồng nghiệppage 7 Người ảo thông minh
Ví dụ minh họa (Nguồn PC World VietNam)
Lê Quốc Anh và các đồng nghiệppage 8 Người ảo thông minh
Tiềm năng ứng dụng
Đào tạo, giáo dục với giáo viên ảo
Hỗ trợ trực tuyến, giải đáp thắc mắc
Bạn đồng hành liên thông từ điện thoại, ti vi đến máy tính
Giải trí, trò chơi hóa thân giao tiếp với người ảo trong môi trương ảo
Thương mại điện tử trong vai người bán hàng ảo hoặc tư vấn viên ảo
Lê Quốc Anh và các đồng nghiệppage 9 Người ảo thông minh
Một số dự án Người Ảo tiêu biểu
Nhân viên ảo tại Newark Liberty
Lê Quốc Anh và các đồng nghiệppage 10 Người ảo thông minh
Một số dự án Người Ảo tiêu biểu
Gratch et al. at USC, MỹWachsmuth et al. at Bielefeld, Đức
LIMSI, Pháp
Telecom, Pháp
Lê Quốc Anh và các đồng nghiệp
Phòng thí nghiệm tại LIMSI, Pháp
page 11 Người ảo thông minh
Lê Quốc Anh và các đồng nghiệppage 12 Người ảo thông minh
Mind
Emotion
Language
Planning
BehaviorGeneration
SmartBody
Body
Intentions& Emotion
Interaction
AnimationSchedule
Behavior Library
BehaviorMarkup
Mã hóa: Thực hiệnhành vi nào?Cử chỉ? Tư thế? Mặt mũi?
Mã hóa: Thực hiệnhành vi nào?Cử chỉ? Tư thế? Mặt mũi?
Thực hiện: Làm thếNào để biểu diễn?Lập lịch thế nào & phối hợp chúng?
Thực hiện: Làm thếNào để biểu diễn?Lập lịch thế nào & phối hợp chúng?
Phòng thí nghiệm tại USC, Mỹ
Lê Quốc Anh và các đồng nghiệp
Phòng thí nghiệm tại Bielefeld, Đức
page 13 Người ảo thông minh
Lê Quốc Anh và các đồng nghiệppage 14 Người ảo thông minh
Giới thiệu GRETA
Khả năng hành động biểu cảm theo• Tính cách riêng định nghĩa trước• Hoàn cảnh và đối tượng giao tiếp • Chức năng giao tiếp
Đặc điểm hệ thống:• Xử lý thời gian thực• Mô đun hóa với các tầng xử lý khác nhau
Giao tiếp đa phương tiện (mặt, cử chỉ,…) Có thể điều khiển cả người ảo máy tính và người
ảo vật lý (robot)
Lê Quốc Anh và các đồng nghiệppage 15 Người ảo thông minh
Kiến trúc chuẩn tạo hành vi của Người Ảo
FML Thiết lập hành vi
Thực hiện hành vi
Thiết lập mục đích
BML
Phản hồi ngược Phản hồi ngược
1. Tính cách cá nhân
2. Thư mục hành vi
1. Hệ chuẩn SAIBA được xây dựng bởi cộng đồng quốc tế [Kopp, 2006]
2. Gồm 3 giai đoạn xử lý thông tin riêng biệt, không phụ thuộc vào một mô hình người ảo cụ thể nào (ví dụ phần mô hình đồ họa hay một mô hình người máy vật lý). Điều khiển bởi 2 ngôn ngữ miêu tả kịch bản.
Lê Quốc Anh và các đồng nghiệppage 16 Người ảo thông minh
FML – Ngôn ngữ mô tả ý định, mục đích
Mô tả nội dung những ý định, mục đích hay cảm xúc mà người ảo muốn truyền đạt khi đang giao tiếp
Mức độ thể hiện nội dung sẽ được tham chiếu đến• Tính cách cá nhân• Các yếu tố xã hội, quan hệ• Cảm xúc, trạng thái tâm lý hiện tại
Quy định cho bộ phận tổng hợp tiếng nói như mức độ biểu cảm, ràng buộc thời gian,…
Lê Quốc Anh và các đồng nghiệppage 17 Người ảo thông minh
BML – Ngôn ngữ mô tả hành vi
Mô tả các hành vi cụ thể mà người ảo sẽ thực hiện để đạt được mục đích đã cho• Hành động nào sẽ xuất hiện (mặt mũi hay cử chỉ?)
Đồng bộ hóa các hành động (từ lời nói đến khuôn mặt và cử chỉ,…)
• Hành động thế nào (mặt cười hay khóc, cử chỉ giơ tay lên hay xuống,…)
Các mô tả ở mức chung chung, không phụ thuộc vào mô hình người ảo nào sẽ thực hiện
Có nhiều mức mô tả khác nhau để có thể mở rộng để điều khiển nhiều mô hình người ảo khác nhau
Lê Quốc Anh và các đồng nghiệp
Behavior Realizer
(Common Module)
Intent Lexicon Behavior Lexicon
Behavior Planner
(Common Module)
FAP-BAP Values
Joint Values
ActiveMQ
Messaging Central System
FML-APML BML BML Keyframes
Animation Realizer
(Specific Module)
Animation Realizer
(Specific Module)
Keyframes Keyframes
Greta Animation Lexicon
Nao Animation Lexicon
Input Data (text, audio, video, etc)
Intent Planner
(Common Module)
FML-APML
Baselines for Nao
Baselines for Greta
Repositories for Nao
Repositories for Greta
FAP-BAP Player
Nao Built-in Proprietary Procedures
Kiến trúc hiện tại trong hệ thống GRETA
page 18 Người ảo thông minh
(Le Quoc Anh et al., ICMI 2012)
Lê Quốc Anh và các đồng nghiệp
Ví dụ trong ứng dụng kể chuyện
page 19 Người ảo thông minh
Văn bản (nội dung chuyện)
Phân tích cấu trúc, ngữ nghĩa , nội dung
Mô tả FML
Tính toán hành vi
Miêu tả hành vi BML Mô tả hành vi BMLTiếng nói
Thư viện hành vi mẫu cho Nao
và Greta
Phân tích vần điệu phục vụ tạo giọng nói
Tổng hợp tiếng nói
Tính toán cảm xúc, ý định, mục đích giao tiếp
Trích Dự án GVLEX [Rodolphe, 2010]
Lê Quốc Anh và các đồng nghiệp
Thách thức đa ngành
page 20 Người ảo thông minh
Nhận dạng khuôn mặt
Tâm lý học
Xã hội học
Nhận dạng tiếng nói
Nhận dạng cử chỉ
Tạo cảm xúc
Tạo tiếng nói biểu cảm
Tạo cử chỉ
Tạo khuôn mặt
Tạo cá tính riêng
Hệ thống ra quyết định và thực hiện hành vi người
Hệ thống tính toán cảm xúc (Affective Computing)
Lê Quốc Anh và các đồng nghiệppage 21 Người ảo thông minh
Các dự án đang tiến hành tại ParisTech
Mô phỏng biểu cảm khuôn mặt (facial emotions) Mô phỏng tư thế con người (pose, torso) Mô phỏng cử chỉ biểu cảm con người (gestures) Mô phỏng chuyển động đầu (head) Mô phỏng chuyển động mắt (eyes, gaze) Mô phỏng chuyển động mí mắt (eyebrow) Mô phỏng tương tác nhiều người (multiagents) Mô phỏng miệng cười (smile, laugh) Mô phỏng phản hồi trong giao tiếp (backchanels)
Lê Quốc Anh và các đồng nghiệp
Mô phỏng cử chỉ người
Định nghĩa cử chỉ: Là tất cả các chuyển động của bàn tay, cánh tay thường đi cùng lời nói để hỗ trợ, bổ sung cho việc truyền đạt nội dung
Phân loại cử chỉ (McNeill, Kendon, Krauss,…):• Nhóm chỉ định: để chỉ tay đến một đối tượng được nói đến
• Nhóm hình tượng: miêu tả đối tượng cụ thể
• Nhóm ẩn dụ: miêu tả đối tượng trìu tượng
• Nhóm hòa nhịp: đưa tay lên xuống hòa nhịp lời nói
• Nhóm tự thích nghi: Gãi tai, gãi đầu
• Nhóm quy ước, biểu tượng: Chữ V chiến thắng
page 22 Người ảo thông minh
Lê Quốc Anh và các đồng nghiệppage 23 Người ảo thông minh
Các nhóm cử chỉ (minh họa từ LEA, LIMSI)
Lê Quốc Anh và các đồng nghiệp
Tạo mẫu cử chỉ cho thư viện
Một hành động cử chỉ chuyển động qua nhiều điểm mốc trong không gian. Mỗi cột mốc đuợc mô tả bằng 1 tập tham số (vị trí cổ tay, hướng lòng bàn tay, hướng ngón tay, hình dạng bàn tay,…) [McNeill, 1992]
Trong thư mục mẫu các cử chỉ, chỉ cột mốc quan trọng được mã hóa (stroke points), các cột mốc khác cùng con đường chuyển động được tính tự động thời gian thực [Le Quoc Anh et al., 2011]
Các mẫu được mô tả dạng trừu tượng, không liên quan đến cơ chế thực hiện cụ thể nào
page 24 Người ảo thông minh
Lê Quốc Anh và các đồng nghiệppage 25 Người ảo thông minh
Ăn khớp cử chỉ và lời nói
Ảnh lấy từ trang site của SAIBA
1. Gồm 7 cột mốc chính (bắt đầu cử động, sẵn sàng, bắt đầu thể hiện, thể hiện rõ nhất, kết thúc thể hiện, tạm nghỉ và kết thúc)
2. Chia thành nhiều giai đoạn, trong đó giai đoạn thể hiện là quan trọng nhất vì nó truyền đạt thông tin cho toàn bộ cử chỉ
3. Theo McNeill (1992), Kendon (2005) cột mốc stroke phải được thực hiện cùng lúc với lời nói mà nó muốn nhấn mạnh
Lê Quốc Anh và các đồng nghiệp
Tạo biểu cảm cho cử chỉ
Từ cùng một cử chỉ mẫu trong thư viện, người ảo sẽ thực hiện nó theo nhiều cách khác nhau [Mancini, 2006] phụ thuộc vào:• Tính cách cá nhân: nhẹ nhàng, mạnh bạo,
chậm,...• Cảm xúc hiện tại: đang tức giận,…• Hoàn cảnh xã hội: nói chuyện với người lạ,
quen, đang có chuyện gấp.. Mô hình hóa qua 1 tập tham số biểu cảm
[Wallbott, 1997]• Không gian (SPC)• Thời gian (TMP)• Tần suất (REP)• Năng lượng (PWR)• Độ mượt (FLD)
page 26 Người ảo thông minh
Lê Quốc Anh và các đồng nghiệp
Ví dụ minh họa (tạo cử chỉ cho người ảo)
page 27 Người ảo thông minh
FMLBML
KEYFRAMES
Thư viện mẫu
Chọn mẫu cử chỉ từ thư viện
Lập lịch chuyển động
Đồng bộ hóa với tiếng nói
Tính toán biểu cảm cho cử chỉ
Lê Quốc Anh và các đồng nghiệp
Thử nghiệm và đánh giá
Rô bốt Nao (Aldebaran, Pháp) thực hiện các cử chỉ trong khi đang kể một truyện ngắn «3 chú nhạn đêm » với hệ thống tổng hợp tiếng nói Acapela
63 người Pháp tham gia đánh giá Kết quả [Le Quoc Anh et al., HRI 2013]: • 76% đánh giá cử chỉ ăn khớp lời nói• 70% đánh giá cử chỉ có biểu cảm
page 28 Người ảo thông minh
Đánh giáHệ thống
GRETA
Điều khiển
Lê Quốc Anh và các đồng nghiệp
Một lần phát triển, nhiều ứng dụng
page 29 Người ảo thông minh
Dữ liệu hành vi, cảm xúc cá nhân
Dữ liệu hành vi, cảm xúc cá nhân
Bộ điều khiển chung
duy nhất
InternetInternet
Lê Quốc Anh và các đồng nghiệp
Hướng phát triển tương lai và tìm kiếm sự hợp tác
Tích hợp hệ thống tổng hợp tiếng nói Việt ví dụ • Nhóm của TS Vũ Hải Quân tại AILAB, HCM???
Xây dựng mô hình đồ họa 3D nhân vật thuần Việt • Hình dáng, tính cách, hành vi Việt • TS Bùi Thế Duy, HMI, ĐHCN, Hanoi ??
Xử lý văn bản tiếng Việt• TS Lê Hồng Phương, TS Phan Xuân Hiếu (FPT)??
Nhận dạng hình ảnh và điều khiển bằng cử chỉ• TS Trần Nguyên Ngọc (FPT)??
Tích hợp vào rô bốt• Nao (TS Trần Thế Trung, FPT)• mRobot (Hồ Vĩnh Hoàng, TOSY)
page 30 Người ảo thông minh
Lê Quốc Anh và các đồng nghiệp
LỜI CẢM ƠN
page 31 Người ảo thông minh