技術の概要
複数登録話者の音声特徴が類似する場合の誤認識を抑制します。発話履歴に基づく係数で認識対象を絞り、類似グループ情報を活用して混同を回避します。車載機器などの現場で有効です。
ユースケース
- 車載機器における音声コマンド認識の誤認識抑制
- 複数登録話者が共存する環境での話者認識の精度向上
- 発話履歴と補助情報を用いた認識対象者の動的選択
- 同一グループ内の複数候補を適切に扱うUI修正機能
- クラウド/外部ストレージと連携する発話履歴管理
本技術は、登録話者の音声情報が似ている場合の誤認識を抑制します。まず、登録情報から話者同士の特徴が近いグループ情報を算出します。次に、各話者の発話履歴を用いて発話履歴係数を算出します。係数の高い順に認識対象を所定人数だけ選び、出力部が認識対象者情報を提示します。認識対象に同一グループの複数名が含まれる場合は、グループ情報を用いて除外の判断や通知を行います。認識前の絞り込みとグループ情報の活用により、誤認識を低減します。補助情報として発話頻度や曜日・時間帯も考慮します。
本発明は、車載機器等の音声認識環境において、複数登録話者の音声特徴が類似するケースでの誤認識を低減する技術である。登録情報データベースから話者間の特徴量の類似度を算出し、類似話者をグループ情報として管理する類似話者算出部を備える。グループ情報算出部は、特徴量ベクトル間の類似度を評価し、似た話者を同一グループとしてグループ番号を付与する。補助情報取得部は話者の発話頻度や発話時間帯等を取得し、発話履歴係数算出部が各話者の係数を算出する。係数は、長期・短期の発話割合と曜日・時間帯の一致度を統合し、現在時刻に近い期間に発話が多いほど高くなるよう設計する。認識対象者選択部は、係数の高い順に所定数を選択し、同一グループ内の複数名が含まれる場合には、係数差が閾値以上、または下限値を超える وغيرの条件を適用して除外する。出力部は、認識対象者情報を提示するだけでなく、同一グループが複数存在する旨を通知する情報を付与する。修正はUIを介して追加・削除が可能である。発話履歴はクラウド等の外部ストレージにも蓄積可能で、更新後の履歴に基づき係数を再算出する。本技術により、同乗者が複数いる車載環境などで誤認識を抑制しつつ、ユーザ修正の柔軟性を維持できる。
