Dialog Systems Design

Preview:

Citation preview

Речевые интерфейсы

Бочаров Виктор

Disclaimer

• Мы не будем говорить …

– о чат ботах, тесте Тьюринга и премии Лебнера

– поисковых системах (http://www.ask.com)

• «Мопед не мой …» (с)

Источники

• Ravenclaw/Olympus dialog system architecture(http://www.ravenclaw-olympus.org)

• “Jaspis - A Spoken Dialog Architecture and its Applications”Markku Turunen (University of Tampere), 2004

• сайт W3C(http://www.w3c.org/voice)

Речевой интерфейс?

• наиболее естественный для человека

• иногда является единственным возможным

• интеграция нескольких технологий в одном решении

Речевой интерфейс – где?

• контакт центры (IVR)

• точки самообслуживания

• речевой доступ к WEB

• речевой интерфейс к настольным ПК

Контакт центр – альтернативы?

Оператор IVR

Кнопочки Речевой ввод

Речевой интерфейс – проблемы?

• оговорки, ошибки, …

• вокруг бывает шумно

• распознавание речи работает не идеально

• речь подразумевает интеллект

Что дальше?

1 Ravenclaw/Olympus

2 Что можно сделать иначе?

3 Стандарты W3C

• Разработчики

– Dan Bohus – Antoine Raux– …

Ravenclaw/Olympus - demo

• VERA

Ravenclaw/Olympus

• Olympus – dialog system architecture

• Ravenclaw – dialog management framework for task-oriented spoken dialog systems

Ravenclaw/Olympus

PROCESSMONITOR

SPHINXSPHINXSPHINX

Dialog Manag.RAVENCLAW

Back-end(perl)

Lang. GenerationROSETTA

HUB

Lang. Understand.PHOENIX/HELIOS

RecognitionServer

SynthesisTHETA

Multiple, paralleldecoders

DateTime

Other domain agents

Back-endGalaxy Stub

Actual PerlBack-end

Lang. GenerationROSETTA (Perl)

Lang. GenerationGalaxy Stub

Text I/OTTYServer

ParsingPHOENIX

ConfidenceHELIOS

Inputs from othermodalities

SPHINX – распознавание речи

• несколько параллельных декодеров

• LM генерируется исходя из ожидаемых грамматик

• предоставляет несколько гипотез

PHOENIX - парсер

• обрабатывает все гипотезы

• понимает неполные и неверные фразы

• фреймы / слоты

PHOENIX - парсер

• Show fares of flights from Denver to Boston on United

[Field]( show [_fares](fares of flights))[Origin]( from [City]( Denver ))[Destination]( to [City]( Boston ))[airline]( on [AirlineName]( United ))

HELIOS – оценка гипотез

• на оценку влияют:– оценки распознавания речи– оценки парсера– ожидания диалогового менеджера

• выбирается одна гипотеза

Ravenclaw – диалог …

• дерево задач

• терминалы – агенты– inform– request– expect– execute

• нетерминалы – агенства

Ravenclaw – диалог …

Ravenclaw - логика

• Фаза исполнения:– Выбор следующего агента– Исполнение

• Фаза ввода:– Сбор семантических ожиданий– Ожидание– Связывание слотов с концептами– Оценка ввода

Ravenclaw - Roomline

• запись …

• исходный код

Ravenclaw – ошибки …

• Типы ошибок:

– non-understanding(ничего не поняли)

– misunderstanding(поняли неправильно)

Ravenclaw – стратегии …

• non-understanding– попросить повторить– переспросить– сообщить, что ничего не понятно– помолчать– «вы могли бы сказать …»– продолжить диалог – …

Ravenclaw – стратегии …

• misunderstanding– явное подтверждение– неявное подтверждение– незапланированное неявное

подтверждение

Ravenclaw - реализации

System Domain Type Interaction Type

# of agents # of concepts

LARRI Guidance & Browsing

System Guided 61 + 31 +

Bus Line Information Exploration

Mixed Initiative

44 10

Room Line Information Mgmt.

Mixed Initiative

50 9

Team Talk Command & Control

User Initiative ~80 estim. ~20 estim.

Ravenclaw - LARRI

• LAnguage-Based Retrieval of Repair Information

• интерактивный справочник по тех. обслуживанию F-18

• мультимодальный интерфейс– визуальный: экран - мышь– речевой: наушники - микрофон

План

1 Ravenclaw/Olympus

2 Что можно сделать иначе?

3 Стандарты W3C

JASPIS - отличия

• Центральное хранилище информации

JASPIS - отличия

• Агенты и оценщики

Поддержка стандартов …

• см. след. слайд

План

1 Ravenclaw/Olympos

2 Что можно сделать иначе?

3 Стандарты W3C

“Voice browser” activity

• “Applying Web technology to enable users to access services from their telephone via a combination of speech and DTMF.”

• http://www.w3.org/Voice/

• http://www.w3.org/2002/mmi/

“Модальности”

• клавиатура• мышь• перо• речь• экран• GPS• системные события• …

Модель мультимодального интерфейса (W3C)

клавиатура

речь

перо

...

интерпретация

интерпретация

интерпретация

интерпретация

интеграция

Управление пользовательским

интерфейсом

разделение

генерация

генерация

генерация

речь

графика

...

Грамматика

SRGS

Управление диалогом

VoiceXML

SALT

Управление синтезом

SSML

Семантическое представление

SISR

Управление логикой

CCXML SCXML

реплика, меню, форма, поле

состояние, переход между состояниями,

условие

правила

ASP.NET

адрес, имя, номер, дата, действие, ...

фонема, интонация, громкость

N-Gram вероятность

SML(based on SI draft)

W3C Recommendations

Microsoft Speech ServerVoxeo, ...

MicrosoftУровень модели Единицы

VoiceXML 2.0

• Voice Extensible Markup Language

• управление диалогом– речевые меню– речевые формы

• синтезированная речь

• распознавание речи и DTMF ввода

VoiceXML - пример

<form><field name="drink">

<prompt>Would you like coffee, tea, milk, or

nothing?</prompt><grammar src="drink.grxml"

type="application/srgs+xml"/></field><block><submit next="http://www.drink.example.com/drink2.asp"/> </block>

</form>

VoiceXML - пример

• C (компьютер): Would you like coffee, tea, milk, or nothing?

• H (человек): Orange juice.

• C: I did not understand what you said.

• C: Would you like coffee, tea, milk, or nothing?

• H: Tea

• C: (продолжение в drink2.asp)

Грамматики

• SRGS– Speech Recognition Grammar

Specification– W3C Proposed Recommendation,

December 2003

• N-Gram– Stochastic Language Models (N-Gram)

Specification – W3C Working Draft 3 January 2001

Вопросы

Recommended