Upload
phungcong
View
256
Download
4
Embed Size (px)
Citation preview
Руководство по интеграции системы распознавания и синтеза речи Яндекс SpeechKit Box
с платформой интерактивного речевого взаимодействия Genesys Voice Platform 8.5
speechkit.yandex.ru
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
..................................................................................................................................................................... 3
.................................................................................................................................................... 3
................................................................................................................................................... 3
........................................................................................................................... 3
............................................................ 4
.......................................... 4
............................................................................................... 4
............................................................................................................................ 5
......................................................................................... 7
.................................................................................................................................................................. 7
........................................................................................................................................ 7
........................................................................................................ 8
.....................................................................................................................10
...........................................................................12
....................................................................................15
.........................................................................................................................................................................18
Содержание
1. Введение1.1 Сведения о документе
1.2 Условные обозначения
1.3 Требования к инженерному составу
2. Краткое описание интегрируемых систем2.1 Платформа интерактивного голосового взаимодействия Genesys Voice Platform
2.2 Система распознавания речи Яндекс SpeechKit Box
3. Архитектура решения
4. Настройка Genesys VP 8 для работыс системой Яндекс SpeechKit Box4.1 Пререквизиты
4.2 Вход в Genesys Administrator
4.3 Добавление сервера распознавания речи ASR
4.4 Добавление сервера синтеза речи TTS
5. Соединение ресурсов ASR и TTSсо службой VP_MediaControlPlatform
6. Настройка тестового приложения
7. Пример
3
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
1. Введение
1.1 Сведения о документе
В настоящем документе представлена техническая информация, необходимая для интеграции системы
распознавания и синтеза речи Яндекс SpeechKit Box с платформой интерактивного голосового взаимо-
действия на базе программных средств системы Genesys Voice Platform версии 8.5 и выше.
Документ предназначен для инженеров, выполняющих установку и настройку систем голосового взаимо-
действия.
Документ не содержит сведений об установке и первичной настройке платформы интерактивного голо-
сового взаимодействия Genesys Voice Platform.
Общая информация о системе SpeechKit Box.
1.2 Условные обозначения
ASR — Automatic Speech Recognition. Сервис распознавания речи.
DID — Direct Inward Dialing. Телефонный номер, назначаемый на то или иное приложение.
GA — Genesys Administrator. Веб-портал для администрирования инфраструктуры Genesys.
GCM — Genesys Configuration Manager. Приложение для администрирования инфраструктуры Genesys
(устанавливается на сервер Genesys).
GVP — Genesys Voice Platform. Голосовая платформа.
IVR — Interactive Voice Response. Платформа интерактивного голосового взаимодействия.
MRCP — Media Resource Control Protocol. Протокол управления медиаресурсами.
TTS — Text-to-Speech. Сервис синтеза речи.
VXML — Voice XML. XML-файлы с распознаванием голоса.
1.3 Требования к инженерному составу
Инженер, осуществляющий интеграцию, должен уметь:
• вносить изменения в веб-интерфейсе Genesys Administrator и Genesys Configuration Manager;• маршрутизировать DID-номера из УАТС на платформу Genesys, понимать особенности
маршрутизации голосовых вызовов;
• выполнять тестовые вызовы на систему Genesys Voice Platform.
4
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
2. Краткое описаниеинтегрируемых систем
2.1 Платформа интерактивного голосового взаимодействия Cisco Unified Contact Center Express
Genesys Voice Platform — программное обеспечение, предназначенное для организации голосового
самообслуживания абонентов. Платформа Genesys Voice Platform обладает следующими характеристи-
ками:
• Может быть интегрирована с IP PBX, голосовыми шлюзами, программными коммутаторами.• Совместима практически с любым программным и аппаратным обеспечением благодаря поддержке
от-крытых стандартов в области голосового самообслуживания, в том числе VXML, CCXML, MRCP, SIP,
VoIP.
• Поддерживает видеоприложения, биометрию голоса, технологию виртуального удержания звонка.
Вызовы могут быть обработаны с подключением систем синтеза и распознавания речи по протоколу
MRCP.
Производитель — Genesys.
2.2 Система распознавания речи Яндекс SpeechKit Box
Яндекс SpeechKit Box — это система генерации и распознавания речи, базирующаяся на технологии сво-
бодных грамматик и позволяющая создавать высоконагруженные сервисы с функциями распознавания
и синтеза речи, а также смыслового разбора сказанного.
Распознавание речи возможно на русском и английском языках. Стандартные языковые модели
для русского языка: короткие запросы, адреса, музыка, даты, имена, числа, заказы, тексты. Синтез русской
речи: четыре стандартных голоса (два мужских, два женских).
Производитель: ООО «Яндекс»
5
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
3. Архитектура решенияРешение на базе Genesys Voice Platform представляет собой набор программных модулей Customer
Interaction Management Platform (сокращенно — CIM Platform):
• Genesys Framework — набор модулей, отвечающих за хранение, просмотр и модификацию конфигу-
рационных данных контакт-центра, управление другими программными модулями, интерфейс к базам
данных и телефонным станциям.
• Модули, отвечающие за интеграцию различных типов взаимодействий (электронная почта, SMS и т. д.).
• Система голосового самообслуживания Genesys Voice Platform.
• Модули исторической агрегированной отчетности (Genesys CCPulse+/CCAnalyzer), детализированной
исторической отчетности и бизнес-аналитики (Genesys InfoMart и Interactive Insights), а также модули
планирования, контроля и оптимизации работы персонала (Genesys Workforce Optimization).
• Рабочие места операторов и супервизоров (Genesys Agent Desktop, Interaction Workspace, Gplus
Adapter), интегрирующие функциональность рабочего места оператора с системами CRM.
Компоненты решения представлены на рисунке 1.
Рисунок 1. Компоненты решения
Resources
Self-ServiceAgentDesktops
FunctionalExperts
CustomerData
Reporting &Analytics
WorkforceManagement
Information & Insights
Out
bou
ndIn
bou
nd
Genesys Customer Interaction Management Platform (IP or TDM)
Web IM SMS Video Work TaskFax/Document
E-mailInbound &Outbound
Work ItemsMultimedia
Customer Interactions
Voice
6
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Система Genesys Framework, являющаяся обязательной частью любого контакт-центра на базе Genesys,
состоит из ряда программных модулей, разделенных на следующие группы:
• Configuration Layer — набор модулей, отвечающих за хранение конфигурационной информации для
остальных модулей и всего контакт-центра в целом, а также за разграничение доступа к ней.
• Management Layer — отвечает за запуск, остановку и мониторинг состояния других программных
модулей, централизованное ведение единого журнала регистрации событий, передаваемых другими
модулями, а также за интерфейс взаимодействия с внешними системами управления и мониторинга
по протоколу SNMP.
• User Interaction Layer — веб-интерфейс администратора контакт-центра, состоящий из Genesys
Administrator и Genesys Administrator Extension.
• Media Layer — интерфейс интеграции с PBX/IP PBX через CTI (компоненты семейства T-Server). Сюда же
относится SIP Server — программный модуль, разработанный Genesys и представляющий собой IP PBX
на базе протокола SIP.
• Services Layer — унифицированный интерфейс взаимодействия с базами данных (MS SQL, Oracle,
DB2, Sybase, Informix), реализуемый компонентой DBServer; а также интерфейс подсчета статистики
в реальном времени по различным объектам контакт-центра (оператор, рабочее место, точка маршру-
тизации и т. д.) и каналам взаимодействия, реализуемый компонентой StatServer.
Genesys Voice Platform (GVP) состоит из следующих модулей:
• Модуль Media Control Platform. Его задача разбирать и запускать команды из VoiceXML. Он интегри-
руется с ASR- и TTS-серверами. Протокол MRCP используется для управления ресурсами распознавания
и синтеза речи.
• Модуль Genesys Administrator. Компонент, через который происходит конфигурирование GVP.
• Сomposer — это базирующийся на Eclipse графический инструмент, который используется для построе-
ния и тестирования приложений.
• Модуль Reporting Server позволяет создавать отчетность по вызовам и приложениям.
7
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
4. Настройка Genesys VoicePlatform 8 для работыс системой SpeechKit BoxВ данном разделе описывается настройка Genesys Administrator для работы с системой распознавания
и синтеза речи Яндекс SpeechKit Box по протоколу MRCP и подготовка тестового приложения
для проверки подключения.
4.1 Пререквизиты
Перед началом работ нужно установить и настроить систему GVP и необходимую инфраструктуру
(Genesys Framework).
Настройка GVP описана в документах, размещенных на сайте. Для доступа к документации требуется
регистрация на сайте.
4.2 Вход в Genesys Administrator
Чтобы начать настройку GVP, необходимо войти в систему. Для этого:
1. Откройте браузер.
2. В адресной строке укажите IP-адрес системы или ее имя в домене /wcm. На экране появится форма
входа (см. рисунок 2).
3. Аутентифицируйтесь: введите логин и пароль, предоставленный администратором системы.
По умолчанию используются значения default/password.
Рисунок 2. Форма входа Genesys Administrator
8
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Если аутентификация прошла успешно, откроется основное окно Genesys Administrator (см. рисунок 3).
4.3 Добавление сервера распознавания речи ASR
Чтобы добавить ASR-сервер:
1. Выберите Provisioning → Environment → Applications.
2. Нажмите кнопку New (см. рисунок 4).
Рисунок 3. Основное окно Genesys Administrator
Рисунок 4. Добавление нового сервера
9
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Рисунок 5. Конфигурация сервера распознавания речи
3. Перейдите на вкладку Configuration, заполните поля (см. рисунок 5):
Name: YandexASR
Application Template: VP_MCP_MRCPv2_ASR_NUANCE6_851
Template следует выбрать из списка. Если этого значения нет, добавьте его в разделе Application
Templates.
Host: Следует выбрать хост, на котором установлен GVP. Установите порт, для этого нажмите
на кнопку Add и выберите 5000.
Working Directory: .
Command Line: .
10
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Рисунок 6. Настройки сервера распознавания речи
4. На вкладке Options выберите Advanced View (Options), заполните следующие поля (см. рисунок 6):
vrm.client.resource.uri: rtsp://IP-адрес ASR-сервера:8060
vrm.client.resource.name: YandexASR
4.4 Добавление сервера синтеза речи TTS
Чтобы добавить TTS-сервер:
1. Выберите Servers Provisioning → Environment → Applications.
2. Нажмите кнопку New (см. рисунок 4).
3. Перейдите на вкладку Configuration, заполните поля (см. рисунок 7):
Name: YandexASR
Application Template: VP_MCP_MRCPv2_TTS_NUANCE6_851
Template следует выбрать из списка. Если этого значения нет, добавьте его в разделе Application
Templates.
Host: Следует выбрать хост, на котором установлен GVP. Установите порт, для этого нажмите
на кнопку Add и выберите 5000.
Working Directory: .
Command Line: .
11
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Рисунок 7. Конфигурация сервера синтеза речи
Рисунок 8. Настройки сервера синтеза речи
4. На вкладке Options выберите Advanced View (Options), заполните следующие поля (см. рисунок 8):
vrm.client.resource.uri: rtsp://IP-адрес TTS-сервера: 8060
vrm.client.resource.name: YandexTTS
5. Нажмите Save & Close.
12
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
5. Соединение ресурсовASR и TTS со службойVP_MediaControlPlatform
После добавления ASR и TTS их требуется связать со службой VP_MediaControlPlatform, которая управля-
ет медиаресурсами. Для этого:
1. Выберите Provisioning → Environment → Applications.
2. Выберите приложение GVP Media Control Platform и нажмите Edit (см. рисунок 9).
3. В поле Connections нажмите Add, добавьте созданные на предыдущем шаге приложения YandexASR
и YandexTTS (cм. рисунки 10, 11 и 12).
Рисунок 9. Окно редактирования приложения
13
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Рисунок 10. Добавление приложений (1)
Рисунок 11. Добавление приложений (2)
14
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Рисунок 12. Добавление приложений (3)
5. Нажмите Save & Close.
15
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
6. Настройка тестовогоприложенияЧтобы настроить тестовое приложение:
1. Выберите Provisioning → Voice Platform → IVR Profile.
2. Нажмите New (см. рисунок 13). Заполните поля:
Name: TestApplication
Display Name: TestApplication
3. На вкладке Options нажмите New, заполните поля (см. рисунок 14):
Session: gvp.general
Name: service-type
Value: voicexml
Session: gvp.policy.speech-resources
Name: tts.defaultengine
Value: YandexTTS (имя, введенное ранее как параметр Vendor Name)
Session: gvp.policy.speech-resources
Name: asr.defaultengine
Value: YandexASR (имя, введенное ранее как параметр Vendor Name)
Session: gvp.service-prerequisite
Name: initial-page-url
Value: http://IP-адрес веб-сервера, где хостируется VoiceXML-приложение/имя тестового
приложения (см. раздел 7).
Рисунок 13. Обязательные параметры
16
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Рисунок 14. Параметры тестового приложения
Рисунок 15. Настройка группы телефонных номеров
4. Нажмите Save & Close.
Чтобы установить номер дозвона до вашего приложения, настройте группы телефонных номеров
DID. Для этого:
1. Выберите Provisioning → Voice Platform → DID Groups.
2. Нажмите New (см. рисунок 15). Заполните поля:
Name: TestApplicationDID
IVR Profile: TestApplication (созданный на предыдущем шаге профиль)
DIDs: Нажмите Add и добавьте произвольный номер из вашего номерного плана, вызовы на который
будут переводиться на GVP. Например, это может быть «1234» (см. рисунок 16).
17
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
Рисунок 16. Добавление DIDs
3. Нажмите Save & Close.
Чтобы убедиться в том, что тестовое приложение работает правильно:
1. Настройте УАТС для маршрутизации VoIP вызова на заданный ранее номер (см. рисунок 16).
2. Сделайте тестовый вызов на заданный номер.
18
Yandex SpeechKit Руководство по интеграции системы распознавания и генерации речи
5. ПримерВ качестве тестового приложения может использоваться любой VXML-файл, т. е. текстовый файл
с расширением xml и vxml. Например:
Яндекс SpeechKit Box поддерживает свободные грамматики. Это означает, что для распознавания
не требуется перечислять в разделе грамматик все возможные варианты. Однако для соответствия грам-
матики стандарту хотя бы один элемент должен быть добавлен.
Слова «два», «три» и даже «два двенадцать восемьдесят пять ноль шесть» будут распознаны и выданы
(для синтеза) в разделе prompt. Не следует заполнять блок no match, т. к. система в любом случае выдаст
какой-то ответ. Однако этот блок обязан присутствовать в тексте согласно стандарту. В этом заключается
отличие от классического распознавания по фиксированной грамматике.
При использовании свободных грамматик идентификатором тематики распознавания служит
так называемая «языковая модель». Модель указывается в настройках ASR-сервера, либо используется
специальный заголовок в URL обращения к грамматике. Настройки ASR-сервера описаны в документа-
ции к Яндекс SpeechKit Box.
Если языковая модель указана неверно (например, языковая модель names выбрана для цифр), то распоз-
навание выполняться не будет, т. к. модель предназначена для распознавания имен и не содержит в себе
цифр. Чтобы распознать число, должна быть выбрана модель numbers или notes. Эти модели содержат
данные для распознавания цифр.
<?xml version="1.0" encoding="UTF-8"?><vxml version="2.0" xmlns="http://www.w3.org/2001/vxml" xml:lang="ru-RU">
<form id="inputdigits"><property name="bargein" value="false"/>
<field name="digits"><prompt bargein="false">Пожалуйста, назовите число</prompt><noinput>Вы ничего не сказали, попробуйте еще раз</noinput><nomatch> </nomatch> <grammar type="application/srgs+xml" version="1.0" mode="voice"
root="boolean" xml:lang="ru-RU"><rule id="boolean" scope="public">
<one-of><item>ноль</item>
</one-of></rule>
</grammar><filled><prompt>Вы назвали число <value expr="digits"/>.</prompt>
<goto next="#inputdigits"/> </filled> </field> </form>
</vxml>
Пример VXML-файла