12
Унимодальные речевые интерфейсы: проблемы и перспективы Владислав Мараев, Центр речевых технологий

Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Embed Size (px)

DESCRIPTION

Доклад посвящен практическим аспектам применения речевых интерфейсов на основе опыта разработки телефонных систем для контакт-центров. В докладе будут описаны основные ограничения, вызванные качеством распознавания речи, спонтанным характером речи и когнитивными способностями человека. Кроме того, будут рассмотрены основные метрики эффективности интерфейсов и лучшие практики, применяемые в их разработке. Наконец, часть доклада будет касаться того, как появление дополнительной модальности способно повысить эффективность речевых интерфейсов.

Citation preview

Page 1: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Унимодальные речевые интерфейсы: проблемы и

перспективыВладислав Мараев, Центр речевых технологий

Page 2: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Центр речевых технологий

20 лет инноваций Более 370

сотрудников ученые и программисты кандидатов наук средний возраст сотрудников 80% 28 30 лет

Page 3: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Области применения унимодальных речевых интерфейсов

• Автомобили

• Здравоохранение

• Военные симуляторы

• Контакт-центры

• Умный дом

• Мобильные и web-консультанты

3

Page 4: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

4

VUI GUIМало информации в локусе внимания

Много информации в локусе внимания

Последовательный Параллельный

Занимает время (или тратит?)

Занимает пространство

Много ошибок Мало ошибок

Информация ускользает

Стабильность информации в локусе

Автома

тиза

ция

Качество дизайна

GUI

VUI

Отличия от графического интерфейса

Page 5: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Ограничения речевых интерфейсовРаспознавание речи-

• компьютер распознает иначе • коррекция ошибок: речь по

слогам • ограничение грамматик и

языковых моделей • изменения в акустических

моделях

Разговорная речь-• спонтанный характер речи • этикет в разговоре • антропоморфизм • выразительные средства

!

Когнитивные ограничения-• медленное последовательное восприятие • кратковременная память • параллельная активность будет мешать

Goal-oriented vs Process-oriented-Важно учитывать то, что

у абонентов всегда есть цель

5

Page 6: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Ответим на несколько вопросов• Женский голос или мужской?

• Антропоморфизм: радость или зло?

• Шутим ли шутки, реагируем ли на мат?

• У кого инициатива: у пользователя или у системы?

• Синтез или предзаписанные сообщения?

• SLM или грамматики?

6

Page 7: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Рекомендации (1)• Постоянство и предсказуемость.

• Простые и короткие фразы, особенно, самая первая фраза.

• Говорить, что система автоматическая и управляется голосом.

• Коррекция ошибок во избежание FA.

• В какой момент возможно перебить?

• Система должна общаться на языке абонентов.

• В некоторых случаях DTMF может быть полезен.7

Page 8: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Рекомендации (2)• Опции меню не должны звучать похоже.

• Говорить только то, что действительно нужно, когда это нужно.

• Избегать чередования распознавания и DTMF, грамматик и SLM.

• “Скажите”, “Произнесите”, “Выберите”, “Назовите”.

• Сообщать, в каком месте меню находится абонент.

• Использование звуковых иконок.

• Hotword Barge-in для навигационных команд.8

Page 9: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Примеры

Выбор кинотеатра

Расписание

Дата

Кинотеатр

Фильм

9

Сеть кинотеатров Поиск банкоматов

Адрес

Город Функции

Page 10: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Хорошие новости

• Речь остается наиболее естественным способом взаимодействия

• Хорошая система поможет быстрее достичь цели, чем оператор.

• Качество распознавания речи растет с каждым годом.

• Телефоны и контакт-центры не исчезнут в ближайшие десятилетия.

10

Page 11: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

Литература

• Cohen, M., Giangola, J., & Balogh, J. (2004). Voice User Interface Design. Boston: Addison-Wesley.

• Kotelly, B. (2003). The Art and Business of Speech Recognition: Creating the Noble Voice. Boston: Addison-Wesley.

• Gardner-Bonneau D. and Blanchard H. (2010). Human Factors and Voice Interactive Systems. Lexington: Springer.

11

Page 12: Владислав Мараев "Унимодальные речевые интерфейсы: проблемы и перспективы"

— Если у вас есть ещё вопросы, оставайтесь на линии.