Upload
victorbocharov
View
888
Download
0
Embed Size (px)
Citation preview
Речевые интерфейсы
Бочаров Виктор
Disclaimer
• Мы не будем говорить …
– о чат ботах, тесте Тьюринга и премии Лебнера
– поисковых системах (http://www.ask.com)
• «Мопед не мой …» (с)
Источники
• Ravenclaw/Olympus dialog system architecture(http://www.ravenclaw-olympus.org)
• “Jaspis - A Spoken Dialog Architecture and its Applications”Markku Turunen (University of Tampere), 2004
• сайт W3C(http://www.w3c.org/voice)
Речевой интерфейс?
• наиболее естественный для человека
• иногда является единственным возможным
• интеграция нескольких технологий в одном решении
Речевой интерфейс – где?
• контакт центры (IVR)
• точки самообслуживания
• речевой доступ к WEB
• речевой интерфейс к настольным ПК
Контакт центр – альтернативы?
Оператор IVR
Кнопочки Речевой ввод
Речевой интерфейс – проблемы?
• оговорки, ошибки, …
• вокруг бывает шумно
• распознавание речи работает не идеально
• речь подразумевает интеллект
Что дальше?
1 Ravenclaw/Olympus
2 Что можно сделать иначе?
3 Стандарты W3C
• Разработчики
– Dan Bohus – Antoine Raux– …
Ravenclaw/Olympus - demo
• VERA
Ravenclaw/Olympus
• Olympus – dialog system architecture
• Ravenclaw – dialog management framework for task-oriented spoken dialog systems
Ravenclaw/Olympus
PROCESSMONITOR
SPHINXSPHINXSPHINX
Dialog Manag.RAVENCLAW
Back-end(perl)
Lang. GenerationROSETTA
HUB
Lang. Understand.PHOENIX/HELIOS
RecognitionServer
SynthesisTHETA
Multiple, paralleldecoders
DateTime
Other domain agents
Back-endGalaxy Stub
Actual PerlBack-end
Lang. GenerationROSETTA (Perl)
Lang. GenerationGalaxy Stub
Text I/OTTYServer
ParsingPHOENIX
ConfidenceHELIOS
Inputs from othermodalities
SPHINX – распознавание речи
• несколько параллельных декодеров
• LM генерируется исходя из ожидаемых грамматик
• предоставляет несколько гипотез
PHOENIX - парсер
• обрабатывает все гипотезы
• понимает неполные и неверные фразы
• фреймы / слоты
PHOENIX - парсер
• Show fares of flights from Denver to Boston on United
[Field]( show [_fares](fares of flights))[Origin]( from [City]( Denver ))[Destination]( to [City]( Boston ))[airline]( on [AirlineName]( United ))
HELIOS – оценка гипотез
• на оценку влияют:– оценки распознавания речи– оценки парсера– ожидания диалогового менеджера
• выбирается одна гипотеза
Ravenclaw – диалог …
• дерево задач
• терминалы – агенты– inform– request– expect– execute
• нетерминалы – агенства
Ravenclaw – диалог …
Ravenclaw - логика
• Фаза исполнения:– Выбор следующего агента– Исполнение
• Фаза ввода:– Сбор семантических ожиданий– Ожидание– Связывание слотов с концептами– Оценка ввода
Ravenclaw - Roomline
• запись …
• исходный код
Ravenclaw – ошибки …
• Типы ошибок:
– non-understanding(ничего не поняли)
– misunderstanding(поняли неправильно)
Ravenclaw – стратегии …
• non-understanding– попросить повторить– переспросить– сообщить, что ничего не понятно– помолчать– «вы могли бы сказать …»– продолжить диалог – …
Ravenclaw – стратегии …
• misunderstanding– явное подтверждение– неявное подтверждение– незапланированное неявное
подтверждение
Ravenclaw - реализации
System Domain Type Interaction Type
# of agents # of concepts
LARRI Guidance & Browsing
System Guided 61 + 31 +
Bus Line Information Exploration
Mixed Initiative
44 10
Room Line Information Mgmt.
Mixed Initiative
50 9
Team Talk Command & Control
User Initiative ~80 estim. ~20 estim.
Ravenclaw - LARRI
• LAnguage-Based Retrieval of Repair Information
• интерактивный справочник по тех. обслуживанию F-18
• мультимодальный интерфейс– визуальный: экран - мышь– речевой: наушники - микрофон
План
1 Ravenclaw/Olympus
2 Что можно сделать иначе?
3 Стандарты W3C
JASPIS - отличия
• Центральное хранилище информации
JASPIS - отличия
• Агенты и оценщики
Поддержка стандартов …
• см. след. слайд
План
1 Ravenclaw/Olympos
2 Что можно сделать иначе?
3 Стандарты W3C
“Voice browser” activity
• “Applying Web technology to enable users to access services from their telephone via a combination of speech and DTMF.”
• http://www.w3.org/Voice/
• http://www.w3.org/2002/mmi/
“Модальности”
• клавиатура• мышь• перо• речь• экран• GPS• системные события• …
Модель мультимодального интерфейса (W3C)
клавиатура
речь
перо
...
интерпретация
интерпретация
интерпретация
интерпретация
интеграция
Управление пользовательским
интерфейсом
разделение
генерация
генерация
генерация
речь
графика
...
Грамматика
SRGS
Управление диалогом
VoiceXML
SALT
Управление синтезом
SSML
Семантическое представление
SISR
Управление логикой
CCXML SCXML
реплика, меню, форма, поле
состояние, переход между состояниями,
условие
правила
ASP.NET
адрес, имя, номер, дата, действие, ...
фонема, интонация, громкость
N-Gram вероятность
SML(based on SI draft)
W3C Recommendations
Microsoft Speech ServerVoxeo, ...
MicrosoftУровень модели Единицы
VoiceXML 2.0
• Voice Extensible Markup Language
• управление диалогом– речевые меню– речевые формы
• синтезированная речь
• распознавание речи и DTMF ввода
VoiceXML - пример
<form><field name="drink">
<prompt>Would you like coffee, tea, milk, or
nothing?</prompt><grammar src="drink.grxml"
type="application/srgs+xml"/></field><block><submit next="http://www.drink.example.com/drink2.asp"/> </block>
</form>
VoiceXML - пример
• C (компьютер): Would you like coffee, tea, milk, or nothing?
• H (человек): Orange juice.
• C: I did not understand what you said.
• C: Would you like coffee, tea, milk, or nothing?
• H: Tea
• C: (продолжение в drink2.asp)
Грамматики
• SRGS– Speech Recognition Grammar
Specification– W3C Proposed Recommendation,
December 2003
• N-Gram– Stochastic Language Models (N-Gram)
Specification – W3C Working Draft 3 January 2001
Вопросы