40
Речевые интерфейсы Бочаров Виктор

Dialog Systems Design

Embed Size (px)

Citation preview

Page 1: Dialog Systems Design

Речевые интерфейсы

Бочаров Виктор

Page 2: Dialog Systems Design

Disclaimer

• Мы не будем говорить …

– о чат ботах, тесте Тьюринга и премии Лебнера

– поисковых системах (http://www.ask.com)

• «Мопед не мой …» (с)

Page 3: Dialog Systems Design

Источники

• Ravenclaw/Olympus dialog system architecture(http://www.ravenclaw-olympus.org)

• “Jaspis - A Spoken Dialog Architecture and its Applications”Markku Turunen (University of Tampere), 2004

• сайт W3C(http://www.w3c.org/voice)

Page 4: Dialog Systems Design

Речевой интерфейс?

• наиболее естественный для человека

• иногда является единственным возможным

• интеграция нескольких технологий в одном решении

Page 5: Dialog Systems Design

Речевой интерфейс – где?

• контакт центры (IVR)

• точки самообслуживания

• речевой доступ к WEB

• речевой интерфейс к настольным ПК

Page 6: Dialog Systems Design

Контакт центр – альтернативы?

Оператор IVR

Кнопочки Речевой ввод

Page 7: Dialog Systems Design

Речевой интерфейс – проблемы?

• оговорки, ошибки, …

• вокруг бывает шумно

• распознавание речи работает не идеально

• речь подразумевает интеллект

Page 8: Dialog Systems Design

Что дальше?

1 Ravenclaw/Olympus

2 Что можно сделать иначе?

3 Стандарты W3C

Page 9: Dialog Systems Design

• Разработчики

– Dan Bohus – Antoine Raux– …

Page 10: Dialog Systems Design

Ravenclaw/Olympus - demo

• VERA

Page 11: Dialog Systems Design

Ravenclaw/Olympus

• Olympus – dialog system architecture

• Ravenclaw – dialog management framework for task-oriented spoken dialog systems

Page 12: Dialog Systems Design

Ravenclaw/Olympus

PROCESSMONITOR

SPHINXSPHINXSPHINX

Dialog Manag.RAVENCLAW

Back-end(perl)

Lang. GenerationROSETTA

HUB

Lang. Understand.PHOENIX/HELIOS

RecognitionServer

SynthesisTHETA

Multiple, paralleldecoders

DateTime

Other domain agents

Back-endGalaxy Stub

Actual PerlBack-end

Lang. GenerationROSETTA (Perl)

Lang. GenerationGalaxy Stub

Text I/OTTYServer

ParsingPHOENIX

ConfidenceHELIOS

Inputs from othermodalities

Page 13: Dialog Systems Design

SPHINX – распознавание речи

• несколько параллельных декодеров

• LM генерируется исходя из ожидаемых грамматик

• предоставляет несколько гипотез

Page 14: Dialog Systems Design

PHOENIX - парсер

• обрабатывает все гипотезы

• понимает неполные и неверные фразы

• фреймы / слоты

Page 15: Dialog Systems Design

PHOENIX - парсер

• Show fares of flights from Denver to Boston on United

[Field]( show [_fares](fares of flights))[Origin]( from [City]( Denver ))[Destination]( to [City]( Boston ))[airline]( on [AirlineName]( United ))

Page 16: Dialog Systems Design

HELIOS – оценка гипотез

• на оценку влияют:– оценки распознавания речи– оценки парсера– ожидания диалогового менеджера

• выбирается одна гипотеза

Page 17: Dialog Systems Design

Ravenclaw – диалог …

• дерево задач

• терминалы – агенты– inform– request– expect– execute

• нетерминалы – агенства

Page 18: Dialog Systems Design

Ravenclaw – диалог …

Page 19: Dialog Systems Design

Ravenclaw - логика

• Фаза исполнения:– Выбор следующего агента– Исполнение

• Фаза ввода:– Сбор семантических ожиданий– Ожидание– Связывание слотов с концептами– Оценка ввода

Page 20: Dialog Systems Design

Ravenclaw - Roomline

• запись …

• исходный код

Page 21: Dialog Systems Design

Ravenclaw – ошибки …

• Типы ошибок:

– non-understanding(ничего не поняли)

– misunderstanding(поняли неправильно)

Page 22: Dialog Systems Design

Ravenclaw – стратегии …

• non-understanding– попросить повторить– переспросить– сообщить, что ничего не понятно– помолчать– «вы могли бы сказать …»– продолжить диалог – …

Page 23: Dialog Systems Design

Ravenclaw – стратегии …

• misunderstanding– явное подтверждение– неявное подтверждение– незапланированное неявное

подтверждение

Page 24: Dialog Systems Design

Ravenclaw - реализации

System Domain Type Interaction Type

# of agents # of concepts

LARRI Guidance & Browsing

System Guided 61 + 31 +

Bus Line Information Exploration

Mixed Initiative

44 10

Room Line Information Mgmt.

Mixed Initiative

50 9

Team Talk Command & Control

User Initiative ~80 estim. ~20 estim.

Page 25: Dialog Systems Design

Ravenclaw - LARRI

• LAnguage-Based Retrieval of Repair Information

• интерактивный справочник по тех. обслуживанию F-18

• мультимодальный интерфейс– визуальный: экран - мышь– речевой: наушники - микрофон

Page 26: Dialog Systems Design
Page 27: Dialog Systems Design

План

1 Ravenclaw/Olympus

2 Что можно сделать иначе?

3 Стандарты W3C

Page 28: Dialog Systems Design

JASPIS - отличия

• Центральное хранилище информации

Page 29: Dialog Systems Design

JASPIS - отличия

• Агенты и оценщики

Page 30: Dialog Systems Design

Поддержка стандартов …

• см. след. слайд

Page 31: Dialog Systems Design

План

1 Ravenclaw/Olympos

2 Что можно сделать иначе?

3 Стандарты W3C

Page 32: Dialog Systems Design

“Voice browser” activity

• “Applying Web technology to enable users to access services from their telephone via a combination of speech and DTMF.”

• http://www.w3.org/Voice/

• http://www.w3.org/2002/mmi/

Page 33: Dialog Systems Design

“Модальности”

• клавиатура• мышь• перо• речь• экран• GPS• системные события• …

Page 34: Dialog Systems Design

Модель мультимодального интерфейса (W3C)

клавиатура

речь

перо

...

интерпретация

интерпретация

интерпретация

интерпретация

интеграция

Управление пользовательским

интерфейсом

разделение

генерация

генерация

генерация

речь

графика

...

Page 35: Dialog Systems Design

Грамматика

SRGS

Управление диалогом

VoiceXML

SALT

Управление синтезом

SSML

Семантическое представление

SISR

Управление логикой

CCXML SCXML

реплика, меню, форма, поле

состояние, переход между состояниями,

условие

правила

ASP.NET

адрес, имя, номер, дата, действие, ...

фонема, интонация, громкость

N-Gram вероятность

SML(based on SI draft)

W3C Recommendations

Microsoft Speech ServerVoxeo, ...

MicrosoftУровень модели Единицы

Page 36: Dialog Systems Design

VoiceXML 2.0

• Voice Extensible Markup Language

• управление диалогом– речевые меню– речевые формы

• синтезированная речь

• распознавание речи и DTMF ввода

Page 37: Dialog Systems Design

VoiceXML - пример

<form><field name="drink">

<prompt>Would you like coffee, tea, milk, or

nothing?</prompt><grammar src="drink.grxml"

type="application/srgs+xml"/></field><block><submit next="http://www.drink.example.com/drink2.asp"/> </block>

</form>

Page 38: Dialog Systems Design

VoiceXML - пример

• C (компьютер): Would you like coffee, tea, milk, or nothing?

• H (человек): Orange juice.

• C: I did not understand what you said.

• C: Would you like coffee, tea, milk, or nothing?

• H: Tea

• C: (продолжение в drink2.asp)

Page 39: Dialog Systems Design

Грамматики

• SRGS– Speech Recognition Grammar

Specification– W3C Proposed Recommendation,

December 2003

• N-Gram– Stochastic Language Models (N-Gram)

Specification – W3C Working Draft 3 January 2001

Page 40: Dialog Systems Design

Вопросы