Upload
realspeaker-20
View
144
Download
3
Embed Size (px)
Citation preview
Виктор Осетров
API для преобразовании речи в текстОсновано на технике глубокого обучения
Получить APIСкачать или
Количество жестких дисков объемом 10 терабайт, которые потребуются российским
операторам связи для хранения всех переговоров в соответствии с «антитеррористическими
законами» Ирины Яровой.
Source: Meduza
3API для преобразования аудио в текстТестовая страница:
https://api.realspeaker.org/recognition/ru-RU
Библиотеки с примерами:
https://bitbucket.org/realspeaker/realspeaker.js
База данных
накопленная
по речи за 3
года
3
API
доступ
Мы делаем API для проверки произношения
Храните в
тексте, а не
в аудио
Ключ
Распознавание
речи в текст
Как это работает
3Мы делаем API для проверки произношенияОбработка после коммуникации.
Oktell по завершению коммуникации включает свой алгоритм для обработки контента.
В этом алгоритме можно прописать получение пути к записи разговора или копирование этой записи в папку,
которая нам нужна.
Для начала эта запись (stereo) должна быть разбита на два mono файла.
Эти файлы должны быть восприняты системой как единая связка и из этой связки должен сформироваться
диалог с таймингом фраз и обозначением спикера.
Соответственно Oktell должен отправить какой-то запрос в систему, чтобы та забрала файл, при помощи
инструмента запуска внешнего приложения с параметрами можно запустить наше приложение или
воспользоваться функцией запроса WEB формы.
После чего система Oktell должна получить ответ в виде текста (с таймингом и разбиением на диалог). И эту
информацию Oktell поместит в таблицу с помощью sql запроса.
Пример того, как текст должен попасть в таблицу:
Вариант 1 (один из возможных кейсов)
Диалог Оператор Собеседник
12.08.2016 15:01:29
Оператор - Добрый день
меня зовут Петр
12.08.2016 15:01:50
Собеседник - Добрый
хочу кота
12.08.2016 15:02:15
Оператор - У нас нету
12.08.2016 15:01:29
Оператор - Добрый день,
меня зовут Петр
12.08.2016 15:02:15
Оператор - У нас нету
12.08.2016 15:01:50
Собеседник - Добрый, хочу
кота
3Мы делаем API для проверки произношенияОбработка в конце рабочего дня
В Oktell за весь день в базе данных формируются записи путей к записям разговоров.
Ночью автоматически запускается сценарий, который будет выгружать все пути записей разговоров в файл
или напрямую в приложение.
Также возможен вариант прохода по очереди. Берется запись в базе данных, в которой лежит путь к записи
разговора после чего формируется запрос и отправляется нам на сервер (варианты описаны выше в
варианте 1)
- Приложение или запрос на сервер должно вернуть текст.
- Этот текст помещается в базу данных.
Вариант 2 (один из возможных кейсов)
Диалог Оператор Собеседник
12.08.2016 15:01:29
Оператор - Добрый день
меня зовут Петр
12.08.2016 15:01:50
Собеседник - Добрый
хочу кота
12.08.2016 15:02:15
Оператор - У нас нету
12.08.2016 15:01:29
Оператор - Добрый день,
меня зовут Петр
12.08.2016 15:02:15
Оператор - У нас нету
12.08.2016 15:01:50
Собеседник - Добрый, хочу
кота
более 3,5 тыс платных пользователей
Стоимость
100 000руб
/500 руб за
расшифровку 1
тыс. минут
Подключение
+API/SDK
Наша команда
Виктор
Осетров
CEO
Алия
Мусина
Finance/
CFO
Артем
Смирнов
CTO
Облака и мобильная
версия
Сегодня
Windows
Локальный рынок
Мультиплатформенность
и
Мультиязычность
ВидениеСтарт
Дорожная карта
Наши преимущества
RealSpeaker 2.0
Д е ш е в л е ,
н е ж е л и х р а н и т ь
а у д и о н а д и с к е
+
Г о т о в ы й
п р о д у к т
р а с п о з н а в а н и я
К о н в е р т а ц и я
ф а й л о в
в
т е к с т
С о б с т в е н н а я
б а з а
д а н н ы х
Снизим Ваши затраты на диски!
realspeaker.net