Upload
takuya-nishimoto
View
576
Download
0
Embed Size (px)
Citation preview
音声認識と新しいComputing
Takuya Nishimoto, Ph.D.Chief Software Architecht
SomniQ, Inc.
2013 年〜現在
• SomniQ, Inc. (シリコンバレー)–在宅でリモートワーク–ステルスモードのスタートアップ
• 使っている技術– Python, JavaScript, C/C++–音声対話、機械学習、デバイス、クラウド
• mindful living computer–新しい Computing の環境
Python で音声認識
• 音声認識エンジンと通信、音声認識エンジンを Python でラップ–Windows 音声認識 , PocketSphinx, Julius
• クラウド API– wit.ai
• 音声認識を Python で実装– scipy, dtw–「実践 機械学習システム」 MFCC 分析
音声認識は何のために?
• 過去の理由–キーボードは難しい– Command Line Interface から音声認識?
• GUI が登場、普及– Graphical User Interface
• 音声認識はやっぱり不要だった–技術も未成熟だったが–そもそも愛されなかった
音声認識マニアの時代
• オープンソース–いつか誰かが必要とする技術
• アクセシビリティ–誰かにとっては必要な技術– IBM の VoiceType は障害者支援技術から
• 何が必要なのか–エンタテインメント?
これが必要だった
• キラーデバイス・キラーアプリ–スマートフォン–インターネット検索エンジン
• 音声認識の技術者に作れたか
音声認識が GUI を捨てられない
• ストレスを取り除けない–歩きスマホ–ガジェット疲れ
• GUI を捨てたらどんな Computing が?–エージェント、ロボット–人間に近づくことが重要か?–不気味の谷
• IoT (Internet of Things)
2004 年
• 全世界で 100 万個以上を出荷• たぶん音声検出しかやってない
バンダイ「うなずきん」 ©rainbow spice!http://www.bandai.co.jp/releases/J2004090201.html
1975 年
https://en.wikipedia.org/wiki/Pet_Rock
• 半年で 500 万個の売上–飼育マニュアル、血統書–人が勝手に感情移入して満足
Computer = 脳の自転車
• マウス–押す、つかむ、動かす
• タッチ–加速度スクロール、ラバーバンド
• 作法が重要–人間の身体の経験–人工的・非現実だが慣れれば自然• アフォーダンス、心理学、認知科学
人間の言語の経験
• 拡張できる–点字–手話
• 文法があるから拡張できる–音声学、言語学–アクセシビリティ
新しい Computing• 新しい作法–新しいデバイス–新しいアプリケーション
• 源泉–オープンソース–アクセシビリティ– Python