説明

音声処理装置

【課題】音声認識の誤認識が生じた場合に、操作者が容易かつ確実に取り消すことができるようにする。
【解決手段】操作者はマイクロフォンから音声を入力して音響装置14を操作する。音声認識部/装置制御部12の音声認識結果が誤りである場合、操作者は手を左右に振る等の特定の動きを行う。動体検出部18は操作者の手の動きを非接触で検出し、特定の手の動きを検出した場合に直前の動作状態に戻す。手を左から右に振った場合に取り消し、手を右から左に振った場合に音声認識開始としてもよい。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声処理装置、特に音声認識結果の取消に関する。
【背景技術】
【0002】
操作者の発話により機器の動作を制御する技術が公知であるが、当該機器がDVDドライブやカーオーディオ装置、カーナビゲーションシステム等の音声を出力する機器である場合、操作者の発話と当該機器からの音声が混在することになるため誤認識が生じやすい。このため、誤認識が生じた場合には操作者が容易かつ確実に認識結果を取り消せることが望まれる。
【0003】
下記の特許文献1には、音声認識から所定時間経過しない間に無効指示が入力された場合に、音声認識結果を無効にすることが開示されており、無効指示として「チガウ」等の音声入力、キーボードやマウス等からの入力が例示されている。
【0004】
また、下記の特許文献2にも、「チガウ」、「トリケシ」、「ムコウ」等の音声入力により直前の音声コマンドを無効とすることが開示されている。
【0005】
【特許文献1】特開平7−219583号公報
【特許文献2】特開平7−219591号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、操作者の発話と当該機器からの音声が混在するため誤認識が生じやすい状況において、操作者の「チガウ」あるいは「トリケシ」等の音声で取消あるいは無効化する場合、その取消あるいは無効のための発話自体が誤認識されるおそれがある。一方、キーボードやマウス等からコマンドを入力することで取消あるいは無効化する方法では、操作者はこれらの入力デバイスを操作することを余儀なくされるため、音声認識により機器を操作する利点が失われるだけでなく、操作者がこれらの入力デバイスを操作できない場合には取り消すことができない問題がある。もちろん、音声認識自体は正しくても操作者が意思を変える場合もあり、この場合にも迅速に取り消せることが望ましい。
【0007】
本発明の目的は、音声認識の誤認識等が生じた場合に、容易かつ確実に認識結果を取り消す(あるいは無効とする)ことができる装置を提供することにある。
【課題を解決するための手段】
【0008】
本発明は、操作者の音声を認識して音声出力処理を含む処理を実行する音声処理装置であって、前記操作者の音声を認識する音声認識手段と、前記操作者の手の動きを非接触で検出する動体検出手段と、音声認識後に前記動体検出手段で前記操作者の手の第1の動きを検出した場合に前記音声認識手段による直前の音声認識結果を取り消す制御手段とを有することを特徴とする。
【0009】
本発明の1つの実施形態では、前記制御手段は、前記動体検出手段で前記操作者の手の第2の動きを検出した場合に前記音声認識手段による音声認識を開始させる。
【0010】
また、本発明の他の実施形態では、前記制御手段は、音声認識後に前記動体検出手段で前記操作者の手の第3の動きを検出した場合に前記音声認識手段による直前の音声認識結果を確定する。
【発明の効果】
【0011】
本発明によれば、音声の誤認識等が生じた場合に、容易かつ迅速にこれを取り消すことができる。
【発明を実施するための最良の形態】
【0012】
以下、図面に基づき本発明の実施形態について説明する。
【0013】
図1に、本実施形態における音声処理装置の構成ブロック図を示す。マイクロフォン10は、操作者(ユーザ)からの発話を入力し、電気信号に変換して音声認識部/装置制御部12に出力する。
【0014】
音声認識部/装置制御部12は、マイクロフォン10からの操作者の発話を解析して音声認識し、認識結果に応じて制御用コマンドを音響装置14に出力する。音声認識は公知の技術を用いることができ、予め音声データベースを記憶しておき、入力された発話と音声データベースとを照合して音声認識を行ってもよい。
【0015】
音響装置14はDVDプレーヤやカーオーディオ、カーナビゲーション、ゲーム機、通信端末装置等の各種機器であって、少なくとも音声を出力する機器である。音声認識部/装置制御部12からの制御用コマンドは例えば再生コマンド、停止コマンド、早送りコマンド、録音/録画コマンド、スクロールコマンド、トレイ開閉コマンド等である。音響装置14からの音声信号はスピーカ16に供給され音声出力される。
【0016】
動体検出部18は、操作者の手の動きを非接触で検出し、手の動きに応じて異なる検出信号を音声認識部/装置制御部12及び動作メモリ部20に出力する。動体検出部18は、手の動きを例えば赤外線検知器を用いて検出する。操作者の手の動きは、操作者が容易に実現できる手の動きであり、手の開閉や手の左右の振りである。本実施形態では、手の左右の振りを検出する場合を例示する。動体検出部18は、手の左右の振りを検出するが、手を左から右に振った場合、手を右から左に振った場合とを互いに区別して検出する。そして、手を左から右に振った場合を音声認識を開始させるトリガ信号として音声認識部/装置制御部12に出力し、手を右から左に振った場合を音声認識を取り消す(UNDO)取消信号(あるいは戻り信号)として動作メモリ部20に出力する。
【0017】
動作メモリ部20は、音声認識結果に応じて新たな動作を行う前の音響装置14の動作状態を記憶する。そして、動体検出部18から取消信号が供給された場合、動作メモリ部20は直前の動作状態を音声認識部/装置制御部12に出力して現在のコマンド、すなわち音声認識結果に応じたコマンドを取り消して直前の動作状態に復帰する。例えば、音響装置14が再生中であるときに音声認識の結果停止コマンドが出力された場合、動作メモリ部20は直前の動作状態として再生状態を音声認識部/装置制御部12に供給する。音声認識部/装置制御部12は、これに応じて再生コマンドを音響装置14に出力する。
【0018】
図2に、動体検出部18の構成を示す。動体検出部18は、2個の赤外線検知器30、32及び方向検知器34を含んで構成される。2個の赤外線検知器30は、左右方向に所定距離だけ離間して近接配置され、それぞれ赤外線を検出して方向検知器34に出力する。
【0019】
方向検知器34は、2個のコンパレータ36、38及び2個のフリップフロップ40、42を含んで構成される。コンパレータ36の一方の入力端子(+)には赤外線検知器30が接続され、他方の入力端子(−)は所定の電圧(しきい値電圧)が印加される。コンパレータ36は、赤外線検知器30の出力を所定のしきい電圧と比較しその大小関係に応じてHiあるいはLowの2値信号をフリップフロップ40、42に出力する。また、コンパレータ38の一方の入力端子(+)には赤外線検知器32が接続され、他方の入力端子(−)は所定の電圧(しきい値電圧)が印加される。コンパレータ38は、赤外線検知器32の出力を所定のしきい電圧と比較しその大小関係に応じてHiあるいはLowの2値信号をフリップフロップ40、42に出力する。
【0020】
フリップフロップ40、42はD型フリップフロップである。フリップフロップ40のD端子にはコンパレータ38の出力が供給され、クロック(CK)端子にはコンパレータ36の出力が供給される。また、フリップフロップ42のD端子にはコンパレータ36の出力が供給され、クロック(CK)端子にはコンパレータ38の出力が供給される。従って、コンパレータ38のHi出力はコンパレータ36のHi出力のタイミングで出力されることとなり、コンパレータ36のHi出力はコンパレータ38のHi出力のタイミングで出力されることになる。コンパレータ36は赤外線検知器30で操作者の手から発する赤外線を検知したときにHi出力となり、コンパレータ38は赤外線検知器32で操作者の手から発する赤外線を検知したときにHi出力となる。結局、図中Aで示すように操作者がまず赤外線検知器30の前に手をかざし、次に赤外線検知器32の前に手をかざすように手を振った場合にフリップフロップ42からHi出力が動作メモリ部20に供給され、図中Bに示すように操作者がまず赤外線検知器32の前に手をかざし、次に赤外線検知器30の前に手をかざすように手を振った場合にフリップフロップ40からHi出力が装置制御部12に供給される。フリップフロップ40のHi出力を音声認識のトリガ信号とし、フリップフロップ42のHi出力を取消信号とすると、図中A方向に手を振った場合に取消、B方向に手を振った場合に音声認識トリガ/決定を指示できることになる。図中A方向を右から左への手の振り方向、図中B方向を左から右への手の振り方向に対応させると、操作者は単に手の振り方向を変えることで音声認識開始と取消とを区別して指示できることになる。
【0021】
図3に、本実施形態の全体処理フローチャートを示す。装置を起動すると、音声認識部/装置制御部12は、操作者が手を左から右に振ったか否かを判定する(S101)。具体的には、動体検出部18から手を左から右に振った場合の検出信号を受信したか否かを判定する。手を左から右に振った場合の検出信号を受信した場合、音声認識部/装置制御部12は所定の音声認識処理を開始し(S102)、マイクロフォン10から入力された操作者の音声を解析して認識する(S103、S104)。手を左から右に振った場合の検出信号を受信しない場合、音声認識は開始しない。
【0022】
音声認識を開始した場合、動作メモリ部20は音声認識を開始する前、あるいは音声認識を開始したときの動作状態(これらを総称して直前状態とする)を記憶する(S105)。例えば、音声認識を開始したときに停止状態であればその停止状態を記憶する。音声認識を開始したときに再生状態であればその再生状態を記憶する。再生位置をさらに記憶してもよい。現在の状態を記憶するのはコンピュータ等におけるレジューム機能として公知である。直前の動作状態を記憶した後、音声認識部/装置制御部12は音声認識結果に応じた制御用コマンドを音響装置14に出力し、音響装置13は当該コマンドに応じた動作を行う(S106)。
【0023】
音響装置14がコマンドに応じた動作を行った後、操作者が手を右から左に振ったか否かを判定する(S107)。具体的には、動体検出部18から手を右から左に振った場合の検出信号を受信したか否かを判定する。手を右から左に振った場合の検出信号を受信した場合、音声認識部/装置制御部12はS106で実行したコマンドを取り消し、動作メモリ部20に記憶された直前の動作状態を読み出して音響装置14を直前の動作状態に復帰させる(S108)。一方、手を右から左に振った場合の検出信号を受信しなかった場合、S106で実行したコマンドを引き続き実行する。
【0024】
ここで、S107の判定をS106で音声認識の結果新たなコマンド実行を開始してから所定時間内に行ってもよい。つまり、新たなコマンド実行を開始してから所定時間以内に操作者が手を右から左に振ったか否かを判定する。所定時間内に操作者が手を右から左に振った場合にのみコマンドを取り消し、所定時間を経過した場合には操作者は取り消す意思がないものとみなして引き続きコマンドを実行する。あるいは、S107でNOと判定された場合、さらに操作者が手を左から右に振ったか否かを判定してもよい。具体的には、S101の判定と同様に動体検出部18から手を左から右に振った場合の検出信号を受信したか否かを判定する。そして、操作者が手を右から左に振らず、左から右に振った場合には、S106で実行したコマンドを操作者が肯定したものとしてS106で実行したコマンドを確定し引き続きコマンドを実行する。このように、音声認識結果に対して操作者が手を右から左に振った場合に取り消し、手を左から右に振った場合に決定(あるいは確定)とすることで、操作者は単に手を振るだけで済むことになる。単に手を振るだけで音声認識の結果の取り消し/決定を指示できる利点は、音声認識の結果に応じたコマンドにより音響装置14から音声出力された場合に顕著となる。すなわち、音響装置14から音声出力されている状況で音声により取り消しあるいは決定を指示することは誤認識の可能性が高くなるため困難であるが、手を振る動作であればこのような問題は生じない。
【0025】
本実施形態では、動体検出部18として互いに左右に近接配置された2個の赤外線検知器30、32を用いているが、これに限定されないのは言うまでもなく、赤外線以外の波長の光を検出する光検知器、超音波を検出する超音波検知器、画像を検出するカメラ等、操作者の手の動きを非接触で検出できる任意の検知器が含まれる。
【0026】
また、本実施形態では手の動きとして操作者の手の振りを例示したが、手を開閉する、指を振る、指を移動する、指を特定の形状にする等も含まれる。例えば、人差し指を振ることで取り消し、親指を立てることで決定を指示するように構成することも可能である。
【図面の簡単な説明】
【0027】
【図1】実施形態の構成ブロック図である。
【図2】図1の動体検出部の構成ブロック図である。
【図3】実施形態の処理フローチャートである。
【符号の説明】
【0028】
10 マイクロフォン、12 音声認識部/装置制御部、14 音響装置、16 スピーカ、18 動体検出部、20 動作メモリ部。

【特許請求の範囲】
【請求項1】
操作者の音声を認識して音声出力処理を含む処理を実行する音声処理装置であって、
前記操作者の音声を認識する音声認識手段と、
前記操作者の手の動きを非接触で検出する動体検出手段と、
音声認識後に前記動体検出手段で前記操作者の手の第1の動きを検出した場合に前記音声認識手段による直前の音声認識結果を取り消す制御手段と、
を有することを特徴とする音声処理装置。
【請求項2】
請求項1記載の装置において、
前記制御手段は、前記動体検出手段で前記操作者の手の第2の動きを検出した場合に前記音声認識手段による音声認識を開始させることを特徴とする音声処理装置。
【請求項3】
請求項1、2のいずれかに記載の装置において、
前記制御手段は、音声認識後に前記動体検出手段で前記操作者の手の第3の動きを検出した場合に前記音声認識手段による直前の音声認識結果を確定することを特徴とする音声処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2009−69202(P2009−69202A)
【公開日】平成21年4月2日(2009.4.2)
【国際特許分類】
【出願番号】特願2007−234443(P2007−234443)
【出願日】平成19年9月10日(2007.9.10)
【出願人】(000003676)ティアック株式会社 (339)
【Fターム(参考)】