Upload
phamquynh
View
236
Download
0
Embed Size (px)
Citation preview
FUJITSU Cloud Service for OSS「Voice Operation」ご紹介
2018年8月富士通株式会社
・本資料の無断複製、転載を禁じます。
・本資料は予告なく内容を変更する場合がございます。 Version 1.03
Copyright 2017 FUJITSU LIMITED
目次
Voice Operationとは
サービスの特長
機能概要
音声認識実行環境
•音声認識エンジンについて
Voice Operation SDK
機能詳細
Voice Operationサービスメニュー
課金の考え方について
プラン変更について
同時接続数の考え方について
制限事項・注意事項
適用事例・利用シーン
1
Copyright 2017 FUJITSU LIMITED
Voice Operationとは
音声認識を利用したアプリケーションを迅速に開発することができるサービスです。音声認識の実行環境とアプリケーション開発用のSDK(ソフトウェア開発キット)を提供します。
Voice Operation
音声認識実行環境
言語モデル(辞書)
利用者
ユーザー独自の言語モデル
(今後提供)アプリケーション開発者
Voice Operation SDK
開発ガイドAPIリファレンス
ライブラリサンプルアプリケーション
API
ネットワーク
とうきょうと
“東京都”
アプリケーション
音声認識要求
音声認識結果返却
開発
利用
2
Copyright 2017 FUJITSU LIMITED
SDKを利用することにより、簡単なインターフェースを実装するだけで、音声認識が実現できます。付属のサンプルアプリケーションを使用して、すぐに音声認識アプリの動作を確認することができます。Android, iOS, Windowsの各種OSに対応しています。
SDK(アプリケーション開発キット)の提供
発話結果は単語の表記、読み に加えて品詞情報なども返却されます。(※日本語のみ対応)
発話結果の活用
クライアント端末ごとに登録した単語を優先的に認識結果候補とすることができます。
端末ごとの辞書の作成
サービスの特長
言語モデルを作成することにより、固有の単語や言い回しを認識させることができます。(今後提供)
言語モデルの作成
業界最高水準の日本語認識率を誇る音声認識エンジンを採用することで、ストレスの無い音声入力や操作が可能です。音声入力の際に専用マイクなどは必要ありません。
業界最高水準の音声認識エンジン
日本語、英語、中国語(簡体字、繁体字)、韓国語の4か国語5種類の言語モデルを利用することができます。
多様な言語モデル
3
Copyright 2017 FUJITSU LIMITED
機能概要 - 音声認識実行環境
音声認識要求アプリケーションは、ライブラリが提供するAPI を使用して利用者の発話情報(音声データ)を音声認識サーバに送信します。
音声認識結果返却音声認識エンジンは、受信した音声データを言語モデルと照合し、音声認識結果(音声データをテキストに置き換えたデータや単語数などの情報をまとめたもの)をアプリケーションに返却します。
Voice Operation
音声認識実行環境
(音声認識エンジン)
言語モデル(辞書)
アプリケーション API
音声データ
発話
利用者
照合
とうきょうと
東京都
“東京都”
返却データ
“東京都” “東京都” 置換/返却
4
Copyright 2017 FUJITSU LIMITED
機能概要 - 音声認識エンジンについて
業界最高水準の認識率を誇るフュートレック社の音声認識エンジンを採用することで、ストレスの無い音声入力や操作が可能です。
■多数の音声データから作成した音響モデル
■大量の文章から情報を収集した言語モデル
Voice Operation
音声認識エンジンは以下のモデルから形成
音響モデル
音の分布を統計的に集計し、入ってきた音の判断が可能な
「音の見本」
言語モデル
言語の文法や単語の並び方のパターンが判断可能な
「文章の見本」
5
Copyright 2017 FUJITSU LIMITED
機能概要 - Voice Operation SDK
「話すだけ」で操作できるアプリケーションの開発キットを提供します。
SDKの内容一覧
内容物 概要
Voice Operation アプリケーション開発ガイド Voice Operation SDKを利用してアプリケーションを開発するための、開発者向けのガイドラインです。ライブラリの組み込み方法やAPIの使用方法などを説明します。
Voice Operation API リファレンス Voice Operation ライブラリが提供するAPIのリファレンスです。
Voice Operation ライブラリ アプリケーションに組み込むVoice Operationのライブラリです。
Voice Operation サンプルアプリケーションソースコード Voice Operation SDKを利用して作成した、サンプルアプリケーションのソースコードです。
Voice Operation SDK
ライブラリ ライブラリ ライブラリ
API API API
Androidアプリケーション
iOSアプリケーション
Windowsアプリケーション
6
Copyright 2017 FUJITSU LIMITED
機能詳細
Voice Operationポータル
「ご利用PaaSサービス管理」からVoice Operationポータルが利用できます。
ポータルでは以下の操作が実施できます。 契約情報の確認
言語モデル 音声認識サーバ接続情報の確認
法人IDテナントID接続先URLポート
開発委託先入力(※) APIキーの管理
APIキーの作成/削除 SDKのダウンロード
APIリファレンスアプリケーション開発者ガイドライブラリサンプルアプリケーション
7
※本サービスで提供されるSDKを組み込んだアプリケーションの設計、開発または製造を第三者に委託する場合、情報を記載します。
Copyright 2017 FUJITSU LIMITED
機能詳細
APIキーの管理
APIキーの管理がポータル上で簡単に実行できます。
ポータルからAPIキーを作成できます。 APIキーに名前をつけて管理できます。 APIキーを削除することで、無効化できます。
※APIキーは最大100個まで作成できます。※削除したAPIキーを復元することはできません。
アプリケーションごと 利用者グループごと 開発・テストなどの用途ごとなどに払い出すことで、APIキーの利用単位で管理することができます。
APIキー BAPIキー A
8
Copyright 2017 FUJITSU LIMITED
機能詳細
サンプルアプリケーション
サンプルアプリケーションでパラメータを調整した場合の動作検証が可能です。
サンプルアプリケーションはソースコードも付属しており、必要な機能の実装方法が容易に確認できます。
対象SDK 機能有無 サンプルコード
Android版 ○ SDK同梱
iOS版 ○ SDK同梱
Windows版 ○ SDK同梱
9
Copyright 2017 FUJITSU LIMITED
機能詳細
サンプルアプリケーションでの提供機能
サンプルアプリケーションでは以下の機能が実装されています。
※特定のOSで利用可能な機能は青字で示しています。
対象SDK サンプルコード
Android版 ・優先単語辞書の登録 / 参照 / 削除 / 更新・PROXY設定(ユーザー名 / パスワード / ホスト / ポート)・詳細設定(フレームサイズ / 有声判定閾値 / 終話検知時間 / 自動発話開始タイムアウト時間)・音声認識の開始 / 停止 (音量補正値、認識経過結果、優先単語辞書利用)・変換結果詳細の表示
iOS版 ・優先単語辞書の登録 / 参照 / 削除 / 更新・PROXY設定(ユーザー名 / パスワード)※ホストは自動取得のみ・詳細設定(フレームサイズ / 有声判定閾値 / 終話検知時間)・音声認識の開始 / 停止 (音量補正値、認識経過結果、優先単語辞書利用)・変換結果詳細の表示
Windows版 ・優先単語辞書の登録 / 参照 / 削除 / 更新・PROXY設定(ユーザー名 / パスワード / ホスト / ポート)・詳細設定(フレームサイズ / 有声判定閾値 / 終話検知時間)・音声認識の開始 / 停止 (音量補正値、認識経過結果、優先単語辞書利用、連続認識)・変換結果詳細の表示
10
Copyright 2017 FUJITSU LIMITED
機能詳細
優先単語辞書
クライアント端末ごとに単語を登録することができる機能です。
アプリケーションにクライアント端末ごとの単語の登録/参照/削除/更新インターフェースを実装することができます。
あらかじめ単語が登録された辞書ファイルをアプリケーションとともに配布することで、言語モデルにない単語を認識させることが出来ます。
提供機能
クライアント端末毎の単語の登録/参照/削除/更新インターフェース
対象SDK 機能有無 サンプルコード
Android版 ○ SDK同梱
iOS版 ○ SDK同梱
Windows版 ○ SDK同梱
ワタナベ ワタナベ
渡辺 渡邊
11
Copyright 2017 FUJITSU LIMITED
機能詳細
PROXY設定
認証PROXYを経由した通信を行うことができます。
提供機能
Basic認証(ユーザーID、パスワード)を使用したPROXY認証機能
端末設定からのPROXY認証設定情報の自動取得機能
インターネット
認証PROXY
FUJITSU Cloud Service for OSSVoice OperationBasic認証
ユーザーID
パスワード
対象SDK 機能有無 サンプルコード
Android版 ○ SDK同梱
iOS版 ○ SDK同梱
Windows版 ○ SDK同梱
12
Copyright 2017 FUJITSU LIMITED
機能詳細
サーバログ削除
クラウド上に音声認識結果のログを一切残さないようにすることができます。
※音声認識環境(専有環境)をお申込の場合に限ります。
提供機能
クラウド上の音声認識結果の削除
クラウド上の音声ファイルの削除
FUJITSU Cloud Service for OSS Voice Operation
サーバ
アクセスログ
認識結果
音声データ
アクセス関連(認証エラー等)の一部のログを除き、すべてのログデータを音声認識完了後に直ちに削除します。
13
Copyright 2017 FUJITSU LIMITED
機能詳細
連続認識(Windows版のみ)
連続認識を利用したアプリケーションが含まれています。
音声認識の評価に、すぐにご利用いただけます。
ソースコードも付属しており、必要な機能の実装方法が容易に確認できます。
※APIキーの作成と設定のみで利用可能です。
対象SDK 機能有無 サンプルコード
Android版 - -
iOS版 - -
Windows版 ○ アプリケーション同梱
14
Copyright 2017 FUJITSU LIMITED
サービスメニュー
Voice Operationサービスメニュー
メニュー 単位 備考
音声認識サービス(共有環境)
完全定額プラン 月 ・ベストエフォートで提供します。・音声認識APIコール数:10,000回/月まで
音声認識サービス(専有環境)
完全定額プラン(同時接続数2) 月 ・同時利用可能な接続数に基づいた音声認識実行環境をお客様の専有環境として提供します。
・音声認識APIコール数:無制限完全定額プラン(同時接続数3) 月
::
月
完全定額プラン(同時接続数50) 月
15
Copyright 2017 FUJITSU LIMITED
音声認識サービス(共有環境)
最大発話時間は10秒となります。
音声認識APIコール数について
•利用月に規定の利用回数を超えた場合、当月の利用はできなくなります。
•利用回数は毎月1日0時(UTC ※)にリセットされます。(※日本時間 毎月1日午前9時)
音声認識サービス(専有環境)
最大発話時間は30秒まで延長可能です。延長をご希望の際はヘルプデスクから個別にご相談ください。
Voice Operationサービスメニュー
16
Copyright 2017 FUJITSU LIMITED
Voice Operationサービスメニュー
選択可能な言語モデル
お申込時に言語モデルを選択することができます。
複数の言語モデルを利用する場合には、それぞれのお申込が必要です。
利用中の言語モデルを変更することはできません。
言語モデル 備考
言語モデル名
標準言語モデル(日本語) 日本語の言語モデルです。例)「ありがとう。」
標準言語モデル(英語) 英語の言語モデルです。例)「thank you」
標準言語モデル(中国語:簡体字) 中国語の言語モデルです。音声認識結果は簡体字で返却されます。例)「谢谢」
標準言語モデル(中国語:繁体字) 中国語の言語モデルです。音声認識結果は繁体字で返却されます。例)「謝謝」
標準言語モデル(韓国語) 韓国語の言語モデルです。例)「고맙 습니다」
17
Copyright 2017 FUJITSU LIMITED
課金の考え方について
選択したプランの月額固定料金で課金されます。
Voice Operationの利用開始時より、当月の課金が発生します。
日割りでの計算はいたしません。
18
Copyright 2017 FUJITSU LIMITED
プラン変更について
共有環境⇔専有環境の変更の場合
プラン変更および環境の引継はできません。ご利用中のサービスを利用終了していただき、新たにサービスの利用申込を行ってください。
お申込から利用開始までにかかる期間については「制限事項・注意事項」をご確認ください。
専有環境の同時接続数変更の場合
プラン変更および環境の引継が可能です。PaaSポータルのご利用サービス画面よりプランの変更が可能です。
お申込のタイミングによりプラン変更適用開始タイミングが異なります。
•当月20日までにプラン変更をお申込の場合 :翌月1日より適用(※)
•当月21日以降にお申し込みの場合 :翌々月1日より適用
※同時接続数が多い(20以上)場合は利用開始までにお時間をいただく場合があります。
19
Copyright 2017 FUJITSU LIMITED
同時接続数の考え方について
お使いになる環境で、同時接続数がどの程度必要かは、以下の手順で概算することができます。
① ピーク時の利用量を想定し、時間当たりの発話時間(呼量)を算出します。
1時間(3600秒)に100人が5秒の音声認識を2回実施する想定の場合100人×5秒×2回 / 3600秒 = 0.28
② 許容する呼損率を決定します。
1.0%⇒2回連続で音声認識要求が受け付けられない確率は
1/100 × 1/100 = 1/10000
③ 同時接続数早見表(次ページ)から、同時接続数を決定します。
呼損率1.0%の列で0.28以上の呼量に対応できる同時接続数を探す⇒同時接続数:3
同時接続数呼損率
0.10% 0.30% 0.50% 1.0% 3.0% 5.0% 10%
2 0.05 0.08 0.11 0.15 0.28 0.38 0.60
3 0.19 0.29 0.35 0.46 0.72 0.90 1.27
4 0.44 0.60 0.70 0.87 1.26 1.52 2.05
20
Copyright 2017 FUJITSU LIMITED
同時接続数の考え方について
同時接続数早見表
同時接続数呼損率
0.10% 0.30% 0.50% 1.0% 3.0% 5.0% 10%
2 0.05 0.08 0.11 0.15 0.28 0.38 0.60
3 0.19 0.29 0.35 0.46 0.72 0.90 1.27
4 0.44 0.60 0.70 0.87 1.26 1.52 2.05
5 0.76 0.99 1.13 1.36 1.88 2.22 2.88
6 1.15 1.45 1.62 1.91 2.54 2.96 3.76
7 1.58 1.95 2.16 2.50 3.25 3.74 4.67
8 2.05 2.48 2.73 3.13 3.99 4.54 5.60
9 2.56 3.05 3.33 3.78 4.75 5.37 6.55
10 3.09 3.65 3.96 4.46 5.53 6.22 7.51
11 3.65 4.27 4.61 5.16 6.33 7.08 8.49
12 4.23 4.90 5.28 5.88 7.14 7.95 9.47
13 4.83 5.56 5.96 6.61 7.97 8.83 10.47
14 5.45 6.23 6.66 7.35 8.80 9.73 11.47
15 6.08 6.91 7.38 8.11 9.65 10.63 12.48
16 6.72 7.61 8.10 8.88 10.51 11.54 13.50
17 7.38 8.32 8.83 9.65 11.37 12.46 14.52
18 8.05 9.03 9.58 10.44 12.24 13.39 15.55
19 8.72 9.76 10.33 11.23 13.11 14.31 16.58
20 9.41 10.50 11.09 12.03 14.00 15.25 17.61
21
Copyright 2017 FUJITSU LIMITED
制限事項・注意事項
以下の機能は今後提供予定です。
言語モデルの作成
本サービスの提供リージョンについては、FUJITSU Cloud Service for OSS公開ホームページのサービス仕様書をご参照ください。
お申込から利用開始までにかかる期間は以下のとおりです。
音声認識サービス(共有環境)PaaSポータルのサービス利用設定申込画面から利用申込後、すぐにご利用いただけます。
音声認識サービス(専有環境)PaaSポータルのサービス利用設定申込画面から利用申込
•当月20日までにお申込の場合 :翌月1日より利用可能(※)
•当月21日以降にお申込の場合 :翌々月1日より利用可能
※同時接続数が多い(20以上)場合は利用開始までにお時間をいただく場合があります。
22
Copyright 2017 FUJITSU LIMITED
適用事例・利用シーン
報告書の作成、メールの作成など、タブレットのキーボードだと操作しづらかった文字入力を音声で実施することができます。
Voice Operation導入前 Voice Operation導入後
ソフトキーボードでの面倒な入力作業 誤変換や修正作業 キーボードがあることにより、入力エリアが狭い
話すだけで簡単に文字が入力できる 利用者固有の専門用語にも対応 ※ 画面を広く使える
Tap! Tap! Tap! 1Tap
煩雑・・・ 簡単!
※言語モデルの作成は今後提供予定です。
23
Copyright 2017 FUJITSU LIMITED
適用事例・利用シーン
音声での文字入力に限らず、APIを組み込むことで、「話すだけ」で操作できるアプリケーションの開発が可能となります。
選択や入力がすべて手作業 画面遷移が煩わしい
会話のみで処理が完結 画面が無い機器にも入力が可能
手作業・・・メニュー
Aを選択
Bを選択
オプション
1 2 3
Aで!オプションは1~3のどれにしますか?
会話で処理が可能!
Voice Operation導入前 Voice Operation導入後
3で!
24