Voice Operation ご紹介資料 - Fujitsu...例)「謝謝」 標準言語モデル(韓国語)...

Preview:

Citation preview

「Voice Operation」ご紹介資料

富士通株式会社

FUJITSU Hybrid IT Service FJcloud-O

2020年6月

・本資料の無断複製、転載を禁じます。

・本資料は予告なく内容を変更する場合がございます。 Version 2.00

目次

1. Voice Operationとは

2. サービスの特長

3. 機能概要

4. 音声認識実行環境

5. 音声認識エンジンについて

6. Voice Operation SDK

7. 機能詳細

8. Voice Operationサービスメニュー

9. 課金の考え方について

10.プラン変更について

11.同時接続数の考え方について

12.制限事項・注意事項

13.適用事例・利用シーン1

Voice Operationとは

音声認識を利用したアプリケーションを迅速に開発することができるサービスです。音声認識の実行環境とアプリケーション開発用のSDK(ソフトウェア開発キット)を提供します。

Voice Operation

音声認識実行環境

言語モデル(辞書)

利用者

ユーザー独自の言語モデル

(今後提供)アプリケーション開発者

Voice Operation SDK

開発ガイドAPIリファレンス

ライブラリサンプルアプリケーション

API

ネットワーク

とうきょうと

“東京都”

アプリケーション

音声認識要求

音声認識結果返却

開発

利用

2

SDKを利用することにより、簡単なインターフェースを実装するだけで、音声認識が実現できます。付属のサンプルアプリケーションを使用して、すぐに音声認識アプリの動作を確認することができます。Android, iOS, Windowsの各種OSに対応しています。

SDK(アプリケーション開発キット)の提供

発話結果は単語の表記、読み に加えて品詞情報なども返却されます。(※日本語のみ対応)

発話結果の活用

クライアント端末ごとに登録した単語を優先的に認識結果候補とすることができます。

端末ごとの辞書の作成

サービスの特長

言語モデルを作成することにより、固有の単語や言い回しを認識させることができます。(今後提供)

言語モデルの作成

業界最高水準の日本語認識率を誇る音声認識エンジンを採用することで、ストレスの無い音声入力や操作が可能です。音声入力の際に専用マイクなどは必要ありません。

業界最高水準の音声認識エンジン

日本語、英語、中国語(簡体字、繁体字)、韓国語の4か国語5種類の言語モデルを利用することができます。

多様な言語モデル

3

機能概要 - 音声認識実行環境

◼ 音声認識要求アプリケーションは、ライブラリが提供するAPI を使用して利用者の発話情報(音声データ)を音声認識サーバに送信します。

◼ 音声認識結果返却音声認識エンジンは、受信した音声データを言語モデルと照合し、音声認識結果(音声データをテキストに置き換えたデータや単語数などの情報をまとめたもの)をアプリケーションに返却します。

Voice Operation

音声認識実行環境

(音声認識エンジン)

言語モデル(辞書)

アプリケーション API

音声データ

発話

利用者

照合

とうきょうと

東京都

“東京都”

返却データ

“東京都” “東京都” 置換/返却

4

機能概要 - 音声認識エンジンについて

業界最高水準の認識率を誇るフュートレック社の音声認識エンジンを採用することで、ストレスの無い音声入力や操作が可能です。

■多数の音声データから作成した音響モデル

■大量の文章から情報を収集した言語モデル

Voice Operation

音声認識エンジンは以下のモデルから形成

音響モデル

音の分布を統計的に集計し、入ってきた音の判断が可能な

「音の見本」

言語モデル

言語の文法や単語の並び方のパターンが判断可能な

「文章の見本」

5

機能概要 - Voice Operation SDK

「話すだけ」で操作できるアプリケーションの開発キットを提供します。

SDKの内容一覧

内容物 概要

Voice Operation アプリケーション開発ガイド Voice Operation SDKを利用してアプリケーションを開発するための、開発者向けのガイドラインです。ライブラリの組み込み方法やAPIの使用方法などを説明します。

Voice Operation API リファレンス Voice Operation ライブラリが提供するAPIのリファレンスです。

Voice Operation ライブラリ アプリケーションに組み込むVoice Operationのライブラリです。

Voice Operation サンプルアプリケーションソースコード Voice Operation SDKを利用して作成した、サンプルアプリケーションのソースコードです。

Voice Operation SDK

ライブラリ ライブラリ ライブラリ

API API API

Androidアプリケーション

iOSアプリケーション

Windowsアプリケーション

6

機能詳細

◼ Voice Operationポータル

◼ 「ご利用PaaSサービス管理」からVoice Operationポータルが利用できます。

ポータルでは以下の操作が実施できます。◼ 契約情報の確認

✓言語モデル◼ 音声認識サーバ接続情報の確認

✓法人ID✓テナントID✓接続先URL✓ポート

◼ 開発委託先入力(※)◼ APIキーの管理

✓APIキーの作成/削除◼ SDKのダウンロード

✓APIリファレンス✓アプリケーション開発者ガイド✓ライブラリ✓サンプルアプリケーション

※本サービスで提供されるSDKを組み込んだアプリケーションの設計、開発または製造を第三者に委託する場合、情報を記載します。

7

機能詳細

◼ APIキーの管理

◼ APIキーの管理がポータル上で簡単に実行できます。✓ ポータルからAPIキーを作成できます。✓ APIキーに名前をつけて管理できます。✓ APIキーを削除することで、無効化できます。

※APIキーは最大100個まで作成できます。※削除したAPIキーを復元することはできません。

✓ アプリケーションごと✓ 利用者グループごと✓ 開発・テストなどの用途ごとなどに払い出すことで、APIキーの利用単位で管理することができます。

APIキー BAPIキー A

8

機能詳細

◼ サンプルアプリケーション

◼ サンプルアプリケーションでパラメータを調整した場合の動作検証が可能です。

◼ サンプルアプリケーションはソースコードも付属しており、必要な機能の実装方法が容易に確認できます。

対象SDK 機能有無 サンプルコード

Android版 ○ SDK同梱

iOS版 ○ SDK同梱

Windows版 ○ SDK同梱

9

機能詳細

◼ サンプルアプリケーションでの提供機能

◼ サンプルアプリケーションでは以下の機能が実装されています。

※特定のOSで利用可能な機能は青字で示しています。

対象SDK サンプルコード

Android版 ・優先単語辞書の登録 / 参照 / 削除 / 更新・PROXY設定(ユーザー名 / パスワード / ホスト / ポート)・詳細設定(フレームサイズ / 有声判定閾値 / 終話検知時間 / 自動発話開始タイムアウト時間)・音声認識の開始 / 停止 (音量補正値、認識経過結果、優先単語辞書利用)・変換結果詳細の表示

iOS版 ・優先単語辞書の登録 / 参照 / 削除 / 更新・PROXY設定(ユーザー名 / パスワード)※ホストは自動取得のみ・詳細設定(フレームサイズ / 有声判定閾値 / 終話検知時間)・音声認識の開始 / 停止 (音量補正値、認識経過結果、優先単語辞書利用)・変換結果詳細の表示

Windows版 ・優先単語辞書の登録 / 参照 / 削除 / 更新・PROXY設定(ユーザー名 / パスワード / ホスト / ポート)・詳細設定(フレームサイズ / 有声判定閾値 / 終話検知時間)・音声認識の開始 / 停止 (音量補正値、認識経過結果、優先単語辞書利用、連続認識)・変換結果詳細の表示

10

機能詳細

◼ 優先単語辞書

◼ クライアント端末ごとに単語を登録することができる機能です。

◼ アプリケーションにクライアント端末ごとの単語の登録/参照/削除/更新インターフェースを実装することができます。

◼ あらかじめ単語が登録された辞書ファイルをアプリケーションとともに配布することで、言語モデルにない単語を認識させることが出来ます。

◼ 提供機能

◼ クライアント端末毎の単語の登録/参照/削除/更新インターフェース

対象SDK 機能有無 サンプルコード

Android版 ○ SDK同梱

iOS版 ○ SDK同梱

Windows版 ○ SDK同梱

ワタナベ ワタナベ

渡辺 渡邊

11

機能詳細

◼ PROXY設定

◼ 認証PROXYを経由した通信を行うことができます。

◼ 提供機能

◼ Basic認証(ユーザーID、パスワード)を使用したPROXY認証機能

◼ 端末設定からのPROXY認証設定情報の自動取得機能

インターネット

認証PROXY

FUJITSU Hybrid ITService FJcloud-OVoice Operation

Basic認証ユーザーID

パスワード

対象SDK 機能有無 サンプルコード

Android版 ○ SDK同梱

iOS版 ○ SDK同梱

Windows版 ○ SDK同梱

12

機能詳細

◼ サーバログ削除

◼ クラウド上に音声認識結果のログを一切残さないようにすることができます。

※音声認識環境(専有環境)をお申込の場合に限ります。

◼ 提供機能

◼ クラウド上の音声認識結果の削除

◼ クラウド上の音声ファイルの削除

FUJITSU Hybrid IT Service FJcloud-OVoice Operation

サーバ

アクセスログ

認識結果

音声データ

アクセス関連(認証エラー等)の一部のログを除き、すべてのログデータを音声認識完了後に直ちに削除します。

13

機能詳細

◼ 連続認識(Windows版のみ)

◼ 連続認識を利用したアプリケーションが含まれています。

◼ 音声認識の評価に、すぐにご利用いただけます。

◼ ソースコードも付属しており、必要な機能の実装方法が容易に確認できます。

※APIキーの作成と設定のみで利用可能です。

対象SDK 機能有無 サンプルコード

Android版 - -

iOS版 - -

Windows版 ○ アプリケーション同梱

14

Voice Operationサービスメニュー

◼ サービスメニュー

メニュー 単位 備考

音声認識サービス(共有環境)

完全定額プラン 月 ・ベストエフォートで提供します。・音声認識APIコール数:10,000回/月まで

音声認識サービス(専有環境)

完全定額プラン(同時接続数2) 月 ・同時利用可能な接続数に基づいた音声認識実行環境をお客様の専有環境として提供します。

・音声認識APIコール数:無制限完全定額プラン(同時接続数3) 月

::

完全定額プラン(同時接続数50) 月

15

Voice Operationサービスメニュー

◼ 音声認識サービス(共有環境)

◼ 最大発話時間は10秒となります。

◼ 音声認識APIコール数について

• 利用月に規定の利用回数を超えた場合、当月の利用はできなくなります。

• 利用回数は毎月1日0時(UTC ※)にリセットされます。(※日本時間 毎月1日午前9時)

◼ 音声認識サービス(専有環境)

◼ 最大発話時間は30秒まで延長可能です。延長をご希望の際はヘルプデスクから個別にご相談ください。

16

Voice Operationサービスメニュー

◼ 選択可能な言語モデル

◼ お申込時に言語モデルを選択することができます。

◼ 複数の言語モデルを利用する場合には、それぞれのお申込が必要です。

◼ 利用中の言語モデルを変更することはできません。

言語モデル 備考

言語モデル名

標準言語モデル(日本語) 日本語の言語モデルです。例)「ありがとう。」

標準言語モデル(英語) 英語の言語モデルです。例)「thank you」

標準言語モデル(中国語:簡体字) 中国語の言語モデルです。音声認識結果は簡体字で返却されます。例)「谢谢」

標準言語モデル(中国語:繁体字) 中国語の言語モデルです。音声認識結果は繁体字で返却されます。例)「謝謝」

標準言語モデル(韓国語) 韓国語の言語モデルです。例)「고맙 습니다」

17

課金の考え方について

◼ 選択したプランの月額固定料金で課金されます。

◼ Voice Operationの利用開始時より、当月の課金が発生します。

◼ 日割りでの計算はいたしません。

18

プラン変更について

◼ 共有環境⇔専有環境の変更の場合

◼ プラン変更および環境の引継はできません。ご利用中のサービスを利用終了していただき、新たにサービスの利用申込を行ってください。

◼ お申込から利用開始までにかかる期間については「制限事項・注意事項」をご確認ください。

◼ 専有環境の同時接続数変更の場合

◼ プラン変更および環境の引継が可能です。PaaSポータルのご利用サービス画面よりプランの変更が可能です。

◼ お申込のタイミングによりプラン変更適用開始タイミングが異なります。

• 当月20日までにプラン変更をお申込の場合 :翌月1日より適用(※)

• 当月21日以降にお申し込みの場合 :翌々月1日より適用

※同時接続数が多い(20以上)場合は利用開始までにお時間をいただく場合があります。

19

同時接続数の考え方について

◼ お使いになる環境で、同時接続数がどの程度必要かは、以下の手順で概算することができます。

① ピーク時の利用量を想定し、時間当たりの発話時間(呼量)を算出します。

➢ 1時間(3600秒)に100人が5秒の音声認識を2回実施する想定の場合100人×5秒×2回 / 3600秒 = 0.28

② 許容する呼損率を決定します。

➢ 1.0%⇒2回連続で音声認識要求が受け付けられない確率は

1/100 × 1/100 = 1/10000

③ 同時接続数早見表(次ページ)から、同時接続数を決定します。

➢ 呼損率1.0%の列で0.28以上の呼量に対応できる同時接続数を探す⇒同時接続数:3

同時接続数呼損率

0.10% 0.30% 0.50% 1.0% 3.0% 5.0% 10%

2 0.05 0.08 0.11 0.15 0.28 0.38 0.60

3 0.19 0.29 0.35 0.46 0.72 0.90 1.27

4 0.44 0.60 0.70 0.87 1.26 1.52 2.05

20

同時接続数の考え方について

◼ 同時接続数早見表

同時接続数呼損率

0.10% 0.30% 0.50% 1.0% 3.0% 5.0% 10%

2 0.05 0.08 0.11 0.15 0.28 0.38 0.60

3 0.19 0.29 0.35 0.46 0.72 0.90 1.27

4 0.44 0.60 0.70 0.87 1.26 1.52 2.05

5 0.76 0.99 1.13 1.36 1.88 2.22 2.88

6 1.15 1.45 1.62 1.91 2.54 2.96 3.76

7 1.58 1.95 2.16 2.50 3.25 3.74 4.67

8 2.05 2.48 2.73 3.13 3.99 4.54 5.60

9 2.56 3.05 3.33 3.78 4.75 5.37 6.55

10 3.09 3.65 3.96 4.46 5.53 6.22 7.51

11 3.65 4.27 4.61 5.16 6.33 7.08 8.49

12 4.23 4.90 5.28 5.88 7.14 7.95 9.47

13 4.83 5.56 5.96 6.61 7.97 8.83 10.47

14 5.45 6.23 6.66 7.35 8.80 9.73 11.47

15 6.08 6.91 7.38 8.11 9.65 10.63 12.48

16 6.72 7.61 8.10 8.88 10.51 11.54 13.50

17 7.38 8.32 8.83 9.65 11.37 12.46 14.52

18 8.05 9.03 9.58 10.44 12.24 13.39 15.55

19 8.72 9.76 10.33 11.23 13.11 14.31 16.58

20 9.41 10.50 11.09 12.03 14.00 15.25 17.61

21

制限事項・注意事項

◼ 以下の機能は今後提供予定です。

◼ 言語モデルの作成

◼ 本サービスの提供リージョンについては、FUJITSU Hybrid IT Service FJcloud-O 公開ホームページのサービス仕様書をご参照ください。

◼ お申込から利用開始までにかかる期間は以下のとおりです。

◼ 音声認識サービス(共有環境)PaaSポータルのサービス利用設定申込画面から利用申込後、すぐにご利用いただけます。

◼ 音声認識サービス(専有環境)PaaSポータルのサービス利用設定申込画面から利用申込

• 当月20日までにお申込の場合 :翌月1日より利用可能(※)

• 当月21日以降にお申込の場合 :翌々月1日より利用可能

※同時接続数が多い(20以上)場合は利用開始までにお時間をいただく場合があります。

22

適用事例・利用シーン

報告書の作成、メールの作成など、タブレットのキーボードだと操作しづらかった文字入力を音声で実施することができます。

Voice Operation導入前 Voice Operation導入後

✓ ソフトキーボードでの面倒な入力作業✓ 誤変換や修正作業✓ キーボードがあることにより、入力エリアが狭い

✓ 話すだけで簡単に文字が入力できる✓ 利用者固有の専門用語にも対応 ※✓ 画面を広く使える

Tap! Tap! Tap! 1Tap

煩雑・・・ 簡単!

※言語モデルの作成は今後提供予定です。

23

適用事例・利用シーン

音声での文字入力に限らず、APIを組み込むことで、「話すだけ」で操作できるアプリケーションの開発が可能となります。

✓ 選択や入力がすべて手作業✓ 画面遷移が煩わしい

✓ 会話のみで処理が完結✓ 画面が無い機器にも入力が可能

手作業・・・メニュー

Aを選択

Bを選択

オプション

1 2 3

Aで!オプションは1~3のどれにしますか?

会話で処理が可能!

Voice Operation導入前 Voice Operation導入後

3で!

24

Recommended