23
Microsoft Cognitive Services の Speech API の概要 を個人的にまとめてみました。 2016-12-20 Cogbot勉強会 #3 session version

Speech API の概要(Microsoft Cognitive Services)

Embed Size (px)

Citation preview

Page 1: Speech API の概要(Microsoft Cognitive Services)

Microsoft Cognitive Services の

Speech API の概要を個人的にまとめてみました。

2016-12-20

Cogbot勉強会 #3session version

Page 2: Speech API の概要(Microsoft Cognitive Services)

自己紹介

@BEACH_SIDE

横浜 篤よこはま あつし

http://beachside.hatenablog.com/

株式会社アイティーブレーン

Edge Technology and Projects部

部長

Using…

C#, ASP.NET, Azure, Machine Learning, Xamarin ….

I’m C#er

Page 3: Speech API の概要(Microsoft Cognitive Services)

2016年12月20日時点の情報です。

アップデートのペースが速いためご注意ください。

フォント:HG行書体

注意事項

Page 4: Speech API の概要(Microsoft Cognitive Services)

1. Cognitive Servicesの概要

2. Speech APIの概要

3. What comes next

Agenda

Bing Speech API

Speaker Recognition API

Custom Recognition Intelligent Service

Page 5: Speech API の概要(Microsoft Cognitive Services)

1. Microsoft Cognitive Services の概要 – 全体像

Vision• Computer Vision

• Content Moderator

• Emotion

• Face

• Video

Speech• Bing Speech

• Custom Recognition

• Speaker Recognition

• Translator Speech

Language• Bing Spell Check

• Language Understanding

• Linguistic Analysis

• Text Analytics

• Translator

• WebLM

Knowledge• Academic

• Entity Linking

• Knowledge Exploration

• QnA Maker

• Recommendations

Search• Bing Autosuggest

• Bing Image Search

• Bing News Search

• Bing Video Search

• Bing Web Search

Give your apps a human side.

Page 6: Speech API の概要(Microsoft Cognitive Services)

Roll your own with REST APIs

Simple to add: just a few lines of code required

Integrate into the language and platform of your choice

Breadth of offerings helps you find the right API for your app

Built by experts in their field from Microsoft Research, Bing, and Azure Machine Learning

Quality documentation, sample code, and community support

Easy Flexible Tested

Why

GET AKEY

Page 7: Speech API の概要(Microsoft Cognitive Services)

1. Cognitive Servicesの概要

2. Speech APIの概要

3. What comes next

Agenda

Bing Speech API

Speaker Recognition API

Custom Recognition Intelligent Service

Page 8: Speech API の概要(Microsoft Cognitive Services)

Speaker Recognition API

Custom Recognition Intelligent ServiceBing Speech API

2-1

1. Cognitive Servicesの概要

2. Speech APIの概要

2-1 Bing Speech

2-2 Speaker Recognition

2-3 CRIS

3. What comes next

Agenda

Page 9: Speech API の概要(Microsoft Cognitive Services)

2 -1 Bing Speech API

2つのAPIがコンポーネントで構成されている。MicrosoftでもCortanaやSkype Translatorといったアプリで使っている。

• Speech Recognition API

音声データをテキストに変換

• Text To Speech API

テキストを音声データに変換

Page 10: Speech API の概要(Microsoft Cognitive Services)

Speech Recognition API

Text To Speech API

DEMO

Speaker Recognition API

Custom Recognition Intelligent ServiceBing Speech API

Page 11: Speech API の概要(Microsoft Cognitive Services)

Agenda

Bing Speech API

Custom Recognition Intelligent Service

Speaker Recognition API

2-2

1. Cognitive Servicesの概要

2. Speech APIの概要

2-1 Bing Speech

2-2 Speaker Recognition

2-3 CRIS

3. What comes next

Agenda

Page 12: Speech API の概要(Microsoft Cognitive Services)

2 -2 Speaker Recognition API

2つのAPIがコンポーネントがあります。対応言語は英語のみ。

• Speaker Verification

音声認証をする。

• Speaker Identification

音声データから話す人を自動的に識別する。

Page 13: Speech API の概要(Microsoft Cognitive Services)

Speaker Identification

DEMO

Bing Speech API

Custom Recognition Intelligent Service

Speaker Recognition API

Page 14: Speech API の概要(Microsoft Cognitive Services)

1. Cognitive Servicesの概

2. Speech APIの概要

2-1 Bing Speech

2-2 Speaker Recognition

2-3 CRIS

3. What comes next

Agenda

Bing Speech API

Speaker Recognition API

Custom Recognition Intelligent Service

2-3

Page 15: Speech API の概要(Microsoft Cognitive Services)

2 -3 Custom Recognition Intelligent Service

「acoustic model」と「language model」をカスタマイズして、最適な音声認識をするためのサービス。日本語未対応。

• acoustic model(音響モデル)のカスタマイズ

例として工場や病院などで使用するアプリを作る場合、環境に応じたノイズ下で音声を正しく音声を認識できるようにする

• language model(言語モデル)のカスタマイズ

例としてMSDNで音声検索をするアプリの場合、”object-oriented”や” namespace”、“dot net”といった専門用語を正しく認知させる

Page 16: Speech API の概要(Microsoft Cognitive Services)

Bing Speech API

Speaker Recognition API

Custom Recognition Intelligent Service

+11. Cognitive Servicesの概要

2. Speech APIの概要

2-1 Bing Speech

2-2 Speaker Recognition

2-3 CRIS

2-4 Translator Speech

3. What comes next

Agenda 2-4

Page 17: Speech API の概要(Microsoft Cognitive Services)

Translator Speech API

Page 18: Speech API の概要(Microsoft Cognitive Services)

2016-12-13発表

「Microsoft Translator introduces the world’s first

personal universal translator」

http://bit.ly/2gVUgUv

Page 19: Speech API の概要(Microsoft Cognitive Services)

Translator Speech API

DEMO

Bing Speech API

Speaker Recognition API

Custom Recognition Intelligent Service

Page 20: Speech API の概要(Microsoft Cognitive Services)

1. Cognitive Servicesの概要

2. Speech APIの概要

3. What comes next

Agenda

Bing Speech API

Speaker Recognition API

Custom Recognition Intelligent Service

Page 21: Speech API の概要(Microsoft Cognitive Services)

TODO

• TODO

TODO。

Get Started!

It’s free. Visit

microsoft.com/cognitive-services

Learn more!

Cognitive Services

microsoft.com/cognitive-services

What to do next…

Page 22: Speech API の概要(Microsoft Cognitive Services)

Developer Resources

Preview Pricinghttps://www.microsoft.com/cognitive-services/en-us/pricing

Documentationhttps://www.microsoft.com/cognitive-services/en-us/documentation

https://azure.microsoft.com/ja-jp/services/cognitive-services/

Join Communityhttps://www.facebook.com/groups/cogbot/

https://stackoverflow.com/questions/tagged/microsoft-cognitive

https://social.msdn.microsoft.com/forums/azure/en-US/home?forum=mlapi

https://cognitive.uservoice.com/

Page 23: Speech API の概要(Microsoft Cognitive Services)

enjoy Cogbot.

Thank you.

2016-12-20

Cogbot勉強会 #3