12
[email protected] Виктор Осетров API для преобразовании речи в текст Основано на технике глубокого обучения Получить API Скачать или

API для преобразования речи в текст

Embed Size (px)

Citation preview

Page 1: API для преобразования речи в текст

[email protected]

Виктор Осетров

API для преобразовании речи в текстОсновано на технике глубокого обучения

Получить APIСкачать или

Page 2: API для преобразования речи в текст

Количество жестких дисков объемом 10 терабайт, которые потребуются российским

операторам связи для хранения всех переговоров в соответствии с «антитеррористическими

законами» Ирины Яровой.

Source: Meduza

Page 3: API для преобразования речи в текст

3API для преобразования аудио в текстТестовая страница:

https://api.realspeaker.org/recognition/ru-RU

Библиотеки с примерами:

https://bitbucket.org/realspeaker/realspeaker.js

Page 4: API для преобразования речи в текст

База данных

накопленная

по речи за 3

года

3

API

доступ

Мы делаем API для проверки произношения

Храните в

тексте, а не

в аудио

Ключ

Распознавание

речи в текст

Как это работает

Page 5: API для преобразования речи в текст

3Мы делаем API для проверки произношенияОбработка после коммуникации.

Oktell по завершению коммуникации включает свой алгоритм для обработки контента.

В этом алгоритме можно прописать получение пути к записи разговора или копирование этой записи в папку,

которая нам нужна.

Для начала эта запись (stereo) должна быть разбита на два mono файла.

Эти файлы должны быть восприняты системой как единая связка и из этой связки должен сформироваться

диалог с таймингом фраз и обозначением спикера.

Соответственно Oktell должен отправить какой-то запрос в систему, чтобы та забрала файл, при помощи

инструмента запуска внешнего приложения с параметрами можно запустить наше приложение или

воспользоваться функцией запроса WEB формы.

После чего система Oktell должна получить ответ в виде текста (с таймингом и разбиением на диалог). И эту

информацию Oktell поместит в таблицу с помощью sql запроса.

Пример того, как текст должен попасть в таблицу:

Вариант 1 (один из возможных кейсов)

Диалог Оператор Собеседник

12.08.2016 15:01:29

Оператор - Добрый день

меня зовут Петр

12.08.2016 15:01:50

Собеседник - Добрый

хочу кота

12.08.2016 15:02:15

Оператор - У нас нету

12.08.2016 15:01:29

Оператор - Добрый день,

меня зовут Петр

12.08.2016 15:02:15

Оператор - У нас нету

12.08.2016 15:01:50

Собеседник - Добрый, хочу

кота

Page 6: API для преобразования речи в текст

3Мы делаем API для проверки произношенияОбработка в конце рабочего дня

В Oktell за весь день в базе данных формируются записи путей к записям разговоров.

Ночью автоматически запускается сценарий, который будет выгружать все пути записей разговоров в файл

или напрямую в приложение.

Также возможен вариант прохода по очереди. Берется запись в базе данных, в которой лежит путь к записи

разговора после чего формируется запрос и отправляется нам на сервер (варианты описаны выше в

варианте 1)

- Приложение или запрос на сервер должно вернуть текст.

- Этот текст помещается в базу данных.

Вариант 2 (один из возможных кейсов)

Диалог Оператор Собеседник

12.08.2016 15:01:29

Оператор - Добрый день

меня зовут Петр

12.08.2016 15:01:50

Собеседник - Добрый

хочу кота

12.08.2016 15:02:15

Оператор - У нас нету

12.08.2016 15:01:29

Оператор - Добрый день,

меня зовут Петр

12.08.2016 15:02:15

Оператор - У нас нету

12.08.2016 15:01:50

Собеседник - Добрый, хочу

кота

Page 7: API для преобразования речи в текст

более 3,5 тыс платных пользователей

Page 8: API для преобразования речи в текст

Стоимость

100 000руб

/500 руб за

расшифровку 1

тыс. минут

Подключение

+API/SDK

Page 9: API для преобразования речи в текст

Наша команда

Виктор

Осетров

CEO

Алия

Мусина

Finance/

CFO

Артем

Смирнов

CTO

Page 10: API для преобразования речи в текст

Облака и мобильная

версия

Сегодня

Windows

Локальный рынок

Мультиплатформенность

и

Мультиязычность

ВидениеСтарт

Дорожная карта

Page 11: API для преобразования речи в текст

Наши преимущества

RealSpeaker 2.0

Д е ш е в л е ,

н е ж е л и х р а н и т ь

а у д и о н а д и с к е

+

Г о т о в ы й

п р о д у к т

р а с п о з н а в а н и я

К о н в е р т а ц и я

ф а й л о в

в

т е к с т

С о б с т в е н н а я

б а з а

д а н н ы х

Page 12: API для преобразования речи в текст

Снизим Ваши затраты на диски!

realspeaker.net