説明

終話検出方法及び装置並びに連続音声認識方法及び装置

【目的】 連続音声認識の性能向上のために、文の途中に長い無音区間があっても、ユーザの発声が終了したと判断することなく、正しく終話を検出すること。
【構成】 入力音声と単語標準パタンとの単語照合結果7Aより部分文生成部9が部分文照合結果9Aとして得た各部分文とその照合スコアから、終話検出部13において、文法規則5Aに受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べ、且つ、無音の標準パタンと一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べ、これら第1の条件と第2の条件がともに満たされた時点を発声の終了時点と判断して、単語予測部6及び認識結果出力部10に終話検出信号13Aを送る。

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は連続に発声された音声を認識するための技術に関し、特に、音声言語によるマン・マシン・インタフェースにおける音声認識の精度向上に有用な終話時点の検出技術に関する。
【0002】
【従来の技術】従来の連続音声認識装置では、音声信号が入力された際に、入力音声のパワーを基にして音声区間を検出し、その結果得られた音声区間において、単語標準パタンを文法規則に基づいて、連続的に入力音声と照合することにより、連続に発声された音声を認識するようになっている。
【0003】図9に示すように、この種の従来の連続音声認識装置は、音響分析部1と、音響分析結果遅延部2と、発話検出部3と、終話検出部4と、文法規則格納部5と、単語予測部6と、単語照合部7と、単語標準パタン格納部8と、部分文生成部9と、認識結果出力部10と、音声区間検出用スイッチ11と、音声パワー計算部12から構成され、主として中央処理装置(CPU)とソフトウェアにより実現されている。
【0004】図9において、連続音声認識装置の文法規則格納部5には認識に用いる各種の文法規則を予め格納し、また単語標準パタン格納部8には各種単語の標準パタンを予め格納し、更にスイッチ11は予め発話検出部3側に接続しておく。このような前提の下で、連続音声認識装置は、以下に示す手順に従って認識を行う。
【0005】(1)音声パワー計算部12は入力音声のパワーを時々刻々に計算し、その結果12Aをスイッチ11を通して発話検出部3に送る。ここでスイッチ11は、前述の如く最初発話検出部3に接続しておくものとし、以後発話検出部3から発話検出信号3Aを受け取った時点で終話検出部4側に接続し、終話検出部4から終話検出信号4Aを受け取った時点で発話検出部3側に接続を戻し、それぞれ接続された側に音声パワーの計算結果12Aを送る。
【0006】(2)発話検出部3は音声パワー計算部12から送られてくる音声パワーを図7に示すようにしきい値TH1 と比較し、しいき値TH1 を越えた状態が予め定めた時間t1 以上継続した時点で、発話検出信号3Aをスイッチ11及び単語予測部6に送る。
【0007】(3)一方、終話検出部4は音声パワー計算部12から送られてくる音声パワーを図10に示すようにしきい値TH2 と比較し、しきい値TH2 以下の値をとる状態が予め定めた時間t2 以上継続した時点で、音声パワーが最初にしきい値以下となった時点までの照合を行うように、終話検出信号4Aをスイッチ11,単語予測部6及び認識結果出力部10に送る。
【0008】(4)音響分析部1は入力音声の特徴パラメータを抽出するための音響分析を時々刻々に行い、その結果1Aを音響分析結果遅延部2に送る。
【0009】(5)音響分析結果遅延部2は音響分析部1から送られてくる音響分析結果1Aを、発話検出部3において実際にユーザが発話してから発話検出信号3Aが送出されるまでに要する時間t1 分だけ遅延させ、その結果2Aを単語照合部7に送る。
【0010】(6)単語予測部6は部分文生成部9から送られてくる部分文照合結果(部分文とその照合スコア)9Aと、文法規則格納部5に格納されている文法規則5Aとから、次に単語照合部7で照合すべき単語即ち照合単語6Aを1つまたは複数求め、単語照合部7に送る。この単語予測部6の処理は、発話検出部3より発話検出信号3Aを受け取った時点から開始され、終話検出部4より終話検出信号4Aを受け取るまで継続する。
【0011】(7)単語照合部7は単語予測部6から受け取った照合単語6Aに対応する単語標準パタン即ち照合単語標準パタン8Aを単語標準パタン格納部8から読み出して、遅延された音響分析結果2Aと得られた照合単語標準パタン8Aとを照合し、単語標準パタンの終りまで照合を行った単語についてその単語照合結果7Aを、部分文生成部9に送る。
【0012】なお、単語照合部7において照合の際に用いる照合スコアの計算法としては、周知の如くDPマッチング法や、隠れマルコフモデル(HMM)を用いる方法等がある。(中川聖一著「確率モデルによる音声認識」(社団法人 電子情報通信学会)参照)
【0013】(8)部分文生成部9は、単語照合部7より送られてくる単語照合結果7Aから各部分文とその照合スコアを求め、その結果9Aを単語予測部6及び認識結果出力部10に送る。
【0014】(9)認識結果出力部10は終話検出部4から終話検出信号4Aを受け取った後に、部分文生成部9から送られてきた全ての部分文照合結果9Aのうちで、照合スコアの最も高い文を認識結果10Aとして出力する。
【0015】
【発明が解決しようとする課題】しかし、上述した従来の技術では音声区間を音声パワーのしきい値により決定しているため、入力音声のレベルが低い場合には音声区間の検出誤りが生じ易くなり、これにより音声認識の性能が低下する。
【0016】また、音声パワーがしきい値以下の値をとる状態が予め定めた一定時間t2 以上継続した場合に発声が終了したと判断して終話検出信号を出力するため、発声した文中に長い無音区間が生じると、文の途中であっても音声区間が終了したと判断してしまい、入力した文の一部を誤って文全体の標準パタンと照合することとなり、音声の認識性能が低下する。
【0017】本発明は上記問題点を解決した終話検出方法及び終話検出装置並びに連続音声認識方法及び装置を提供することを目的とする。
【0018】
【課題を解決するための手段】上記目的を達成する第1の発明に係る終話検出方法は、入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを用いて、発声の終了を判断することを特徴とするものである。特に、第2の発明に係る終話検出方法は、文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べること;無音の標準パタンと一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べること;及び、前記第1の条件と第2の条件がともに満たされた時点を発声の終了時点と判断すること;を特徴とする。
【0019】次に、第3の発明に係る終話検出装置は、入力音声と単語標準パタンとの照合結果より得られる部分文から、文法規則で受理される部分文を探索する構文解析手段と;入力音声と単語標準パタンとの照合結果より得られる部分文の照合スコアから、文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるか否かを判定する照合スコア比較手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、発声が終了したと判断する発声終了判断手段とを具備することを特徴とするものである。これに対し、第4の発明に係る終話検出装置は、入力音声と単語標準パタンとの照合結果より得られる部分文とその照合スコアから、照合スコアが最大の部分文を探索する照合スコア比較手段と;照合スコアが最大の部分文が文法規則に受理される文か否かを解析する構文解析手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;照合スコアが最大の部分文が文法規則に受理される文であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、発声が終了したと判断する発声終了判断手段と;を具備することを特徴とする。
【0020】一方、第5の発明に係る連続音声認識方法は、入力音声の音声パワーがしきい値を越えた状態が予め定めた一定時間以上継続したときに、音声認識を開始すること;入力音声と単語標準パタンとの照合結果より得られる各部分文とその照合スコアから、前記文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べること;入力音声と単語標準パタンとの照合結果から、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べること;及び、第1の条件と第2の条件が満たされた時点で、音声認識を終了すること;を特徴とするものである。また、第6の発明に係る連続音声認識方法は、連続音声認識装置が起動したときに、音声認識を開始すること;入力音声と単語標準パタンとの照合結果より得られる各部分文とその照合スコアから、前記文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べること;入力音声と単語標準パタンとの照合結果から、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べること;及び、第1の条件と第2の条件が満たされた点で、音声認識を終了すること;を特徴とする。
【0021】次に、第7の発明に係る連続音声認識装置は、入力音声の音声パワーがしきい値を越えた状態が予め定めた一定時間以上継続するか否かを判定し、一定時間以上継続したときに発話検出信号を出力する発話検出手段と;入力音声と単語標準パタンとの照合結果より得られる部分文から、文法規則で受理される部分文を探索する構文解析手段と;入力音声と単語標準パタンとの照合結果より得られる部分文の照合スコアから、文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるか否かを判定する照合スコア比較手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、発話検出信号の出力により音声認識を開始し終話検出信号の出力により音声認識を終了することを特徴とするものである。これに対し、第8の発明に係る連続音声認識装置は、入力音声の音声パワーがしきい値を越えた状態が予め定めた一定時間以上継続するか否かを判定し、一定時間以上継続したときに発話検出信号を出力する発話検出手段と;入力音声と単語標準パタンとの照合結果より得られる部分文とその照合スコアから、照合スコアが最大の部分文を探索する照合スコア比較手段と;照合スコアが最大の部分文が文法規則に受理される文か否かを解析する構文解析手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;照合スコアが最大の部分文が文法規則に受理される文であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、発話検出信号の出力により音声認識を開始し終話検出信号の出力により音声認識を終了することを特徴とする。
【0022】一方、第9の発明に係る連続音声認識装置は、入力音声と単語標準パタンとの照合結果より得られる部分文から、文法規則で受理される部分文を探索する構文解析手段と;入力音声と単語標準パタンとの照合結果より得られる部分文の照合スコアから、文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるか否かを判定する照合スコア比較手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、装置が起動したときから終話検出信号が出力されるまでの間音声認識を行うことを特徴とするものである。これに対し、第10の発明に係る連続音声認識装置は、入力音声と単語標準パタンとの照合結果より得られる部分文とその照合スコアから、照合スコアが最大の部分文を探索する照合スコア比較手段と;照合スコアが最大の部分文が文法規則に受理される文か否かを解析する構文解析手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;照合スコアが最大の部分文が文法規則に受理される文であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、装置が起動したときから終話検出信号が出力されるまでの間音声認識を行うことを特徴とする。
【0023】
【作用】ユーザの発声が終了すると無音状態が続くので、文末に無音を有する文法規則を用いて、単語標準パタンを連続的に入力音声と照合すると、単語の予測と照合が進むにつれて各時刻で部分文とその照合スコアが得られ、ユーザの発声が終了した時は、文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大となり、且つ無音の標準パタンと一致すると判断される入力音声が所定時間以上継続する。
【0024】そこで、入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを用いて、発声の終了を判断することができる。これにより、発声した文の途中に長い無音区間があっても、音声区間の終了と誤検出することが減る。また、具体的には、文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べ、且つ、無音の標準パタンと一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べることにより、第1の条件と第2の条件がともに満たされた時点を発声の終了時点と判断することができる。第1の条件が満たされか否かは、入力音声と単語標準パタンとの照合結果より得られる部分文から、文法規則で受理される部分文を探索し、次いで、入力音声と単語標準パタンとの照合結果より得られる部分文の照合スコアから、文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるか否かを判定することによっても、あるいは入力音声と単語標準パタンとの照合結果より得られる部分文とその照合スコアから、照合スコアが最大の部分文を探索し、次いで照合スコアが最大の部分文が文法規則に受理される文か否かを解析することによっても調べることができ、両者は等価であると言える。
【0025】上述した終話検出方法または装置を連続音声認識に適用することにより、文中に長い無音区間があっても音声認識を継続できるので、連続音声認識の性能が向上する。なお、音声パワーに基づく従来の発話検出は行っても良く、あるいは行わずに装置が起動された時点から単語の予測や照合等の音声認識処理を開始しても良い。後者の発話検出を行わない場合は、入力音声のレベルが低い場合に従来生じていた発話検出誤りによる認識性能の劣化を回避することができる。
【0026】
【実施例】以下、図面を参照して本発明をその実施例とともに説明する。図面中、図1には本発明の第1実施例に係る連続音声認識装置の構成が示され、図2には文法規則の一例が示され、図3と図4にはそれぞれ終話検出装置の構成例が示され、図5には本発明の第2実施例に係る連続音声認識装置の構成が示され、図6には部分文の照合スコア計算の説明が示され、図7には部分文と照合スコアの関係が示され、図8には無音継続時間計算の説明が示されている。
【0027】<第1実施例>図1に示された連続音声認識装置は、発話は入力音声のパワーを用いて検出するが、発声の終了(終話)は、入力音声と単語標準パタンと照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを利用して判断する音声区間検出方法を適用したものである。即ち、同装置は音響分析部1と、音響分析結果遅延部2と、発話検出部3と、終話検出部13と、文法規則格納部5と、単語予測部6と、単語照合部7と、単語標準パタン格納部8と、部分文生成部9と、認識結果出力部10と、音声区間検出用スイッチ11と、音声パワー計算部12から構成され、主としてCPUとソフトウェアにより実現される。
【0028】図1に示された連続音声認識装置において、文法規則格納部5には認識に用いる各種の文の末尾に無音部分を有する文法規則が予め用意されて格納される。例えば、内線電話受付システムであれば、図2に示すような「総務部の矢野さんお願いします(無音)」を表わす文法規則が種々用意される。なお、図2の例では文法規則がネットワークを用いて示されている。
【0029】単語標準パタン格納部8には従来と同様、各種文法規則に表われる全単語(図2の例では「総務部」,「の」,「矢野」,「さん」,「お願いします」及び「(無音)」の標準パタンが予め用意されて格納される。
【0030】また、スイッチ11は最初、即ち装置の起動時に予め発話検出部3に接続しておくものとし、発話検出部3より発話検出信号3Aを受け取った時点で発話検出部3との接続を断ち、終話検出部13より終話検出信号13Aを受け取った時点で発話検出部3に接続するものである。
【0031】音声認識の手順に沿って、図1に示された連続音声認識装置の各部の機能を以下に説明する。
【0032】音声パワー計算部12は従来と同様入力音声のパワーを時々刻々に計算し、その結果12Aをスイッチ11に送る。
【0033】スイッチ11は前述の如く最初発話検出部3に接続されており、音声パワー計算部12より送られてくる音声パワーの計算結果12Aを発話検出部3に送る。以後、発話検出部3より発話検出信号3Aを受け取った時点で発話検出部3との接続を断ち、終話検出部13より終話検出信号13Aを受け取った時点で発話検出部3に接続し同発話検出部3に再び音声パワーの計算結果12Aを送る。
【0034】発話検出部3は従来と同様、スイッチ11を通して音声パワー計算部12から送られてくる音声パワーを図10に示したようにしきい値TH1 と比較し、しきい値TH1 を越えた状態が予め定めた一定時間t1 以上継続した時点で、発話検出信号3Aをスイッチ11と単語予測部6に送る。
【0035】音響分析部1は入力音声の特徴パラメータを抽出するための音響分析を時々刻々に用い、その結果1Aを音響分析結果遅延部2に送る。
【0036】音響分析結果遅延部2は認識開始時点を発話時点に一致させるように、音響分析部1から送られてくる音響分析結果1Aを、発話検出部3において実際にユーザが発話してから発話検出信号3Aが送出されるまでに要する時間t1 だけ遅延させて、その結果2Aを単語照合部7に送る。
【0037】単語予測部6は部分文生成部9から送られてくる部分文照合結果(部分文とその照合スコア)9Aと、文法規則格納部5に格納されている文法規則5Aとから、単語照合部7で次に照合すべき単語、即ち照合単語6Aを1つまたは複数個予測して求め、単語照合部7に送る。なお、単語には無音も含まれる。この照合単語6Aを求める処理は、発話検出信号3Aを受け取った時点から開始され、終話検出部13より終話検出信号13Aを受け取るまで継続し、終了する。
【0038】単語照合部7は単語予測部6より受け取った照合単語6Aに対応する単語標準パタン即ち照合単語標準パタン8Aを単語標準パタン格納部8から取り出して、遅延された音響分析結果2Aと照合単語標準パタン8Aとを照合し、照合単語標準パタン8Aの終りまで照合を行った照合単語6Aについて、その単語照合結果7Aを部分文生成部9に送る。
【0039】なお、単語照合部7において照合の際に用いる照合スコア計算法としては、従来と同様、周知のDPマッチング法や隠れマルコフモデル(HMM)を用いた方法等がある。
【0040】照合スコアの計算に隠れマルコフモデルを用いた場合は、照合スコアは数1(式(1))により計算される。
【0041】
【数1】


【0042】照合スコアの計算にDPマッチング法を用いた場合は、照合スコアは数2(式(2))により計算される。
【0043】
【数2】


【0044】部分文生成部9では、単語照合部7より送られてくる単語照合結果7Aから、各部分文とその照合スコアを求め、その結果9Aを単語予測部6,終話検出部13及び認識結果出力部10に送る。ここで、図2に例示した文法規則について言えば、部分文として、「総務部」,「総務部の」,「総務部の矢野」,「総務部の矢野さん」,「総務部の矢野さんお願いします」及び「総務部の矢野さんお願いします(無音)」の6つの文があり、それぞれについて照合スコアが求められる。
【0045】ここで、HMM(隠れマルコフモデル)を用いた場合を例にとって部分文の生成とその照合スコアの計算について説明する。まず、照合スコアについては、例えば部分文「総務部の」から「矢野」が予測された場合には、各単語のHMM「総務部」「の」「矢野」を接続して部分文「総務部の矢野」のHMMを作り、数1の計算を行うことにより、当該部分文「総務部の矢野」の照合スコアが求めることができる。また、「総務部」「の」「矢野」という単語列を記憶しておくことにより、部分文「総務部の矢野」を生成することができる。
【0046】数1では、上述した照合スコアの計算処理を単語別に書いてある。つまり、図6(a)において例えば「総務部の矢野」という部分文のHMMを単語HMMを繋いで作る代りに、図6(b)の如く3つの単語HMMを使って書くと、単語間では、例えば単語「の」と「矢野」との間では、各時間tで単語「の」の終了状態Bに遷移した際のスコアと、単語「矢野」の先頭状態Cか同状態Cに自己遷移した際のスコアとを比べて大きい方を単語「矢野」の先頭状態Cの照合スコアとする。この処理は時刻t+1,t+2,t+3…と何度も行われるので、再び単語「矢野」の照合が要求される都合、スコアの比較により大きい方がとられる。
【0047】但し、最初に単語「矢野」の照合が要求された場合は、その先頭状態Cはまだ照合されていないので、無条件に単語「の」の終了状態Bのスコアを単語「矢野」の先頭状態Cのスコアとして与える。また、単語「矢野」の他の状態D,E,Fのスコアは初期化のため、−∞とする。
【0048】このようにスコアの計算を行うことにより、部分文「総務部」のスコアは単語HMM「総務部」の終了状態Aにおける照合スコアとなり、部分文「総務部の」の照合スコアは単語HMM「の」の終了状態Bにおける照合スコアとなり、部分文「総務部の矢野」の照合スコアは単語HMM「矢野」の終了状態Fにおける照合スコアとなる。
【0049】上述した照合スコアの計算を行うことにより、部分文生成部9が実際に行う必要があるのは、部分文とその照合スコアとの対応付けだけで十分であり、例えば図7に示す例では、部分文「総務部の矢野」とその照合スコアの対応付け、部分文「総務部矢野」とその照合スコアの対応付けを行う。
【0050】但し、部分文は必ずしも実際の単語列として保持する必要はなく、単語予測に用いるのに使い易い形で保持するのが好ましい。単語予測に用いられる手法としては、「Early法」、「LR法」、「参考文献:野村浩郷著、自然言語処理の基礎技術、電子情報通信学会編」などが一般に広く用いられている。
【0051】上述した説明はHMMを用いた場合の処理についてであるが、DPマッチング法を用いた数2による照合スコアの計算においても、同様に部分文の生成とその照合スコアの計算が行われる。
【0052】終話検出部13は、入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを用いて、発声の終了を判断するものであり、具体的には以下に示す2つの条件を定め、これら2つの条件が満たされるか否かを常時調べ、満たされた時点でユーザの発声が終了したものと判断して、終話検出信号13Aを単語予測部6及び認識結果出力部10に送る。
【0053】第1の条件:この条件は、認識用文法規則で受理される部分文(例えば図2の例では「総務部の矢野さんお願いします(無音)」)の照合スコアが、全ての部分文の照合スコアのうちで最大であること。
【0054】第2の条件:この条件は、無音の標準パタンに一致すると判断される入力音声の継続時間が、予め定めた所定時間以上であること。
【0055】終話検出部13の具体的な装置構成としては、図3または図4に例示するものがあり、図3の例では構文解析部14と、照合スコア比較部15と、無音継続時間判定部16と、発声終了判断部17から構成され、図4の例では照合スコア比較部18と、構文解析部19と、無音継続時間判定部16と、発声終了判断部17から構成される。
【0056】図3に例示した終話検出部13では、入力音声と照合単語標準パタンとの単語照合結果7Aより部分文生成部9で得た部分文照合結果9Aの各部分文を、まず構文解析部14が解析して、文法規則5Aで受理される部分文(図2の例では、「総務部の矢野さんお願いします(無音)」)を常時探索し、その結果14Aを照合スコア比較部15に送る。次に、照合スコア比較部15が構文解析部14の探索により文法規則で受理されると判定された部分文について、当該部分文の照合スコアが部分文照合結果9Aの全ての部分文の照合スコアのうちで最大であるか否かを、照合スコアどうしを比較して判定し、その結果15Aを発声終了判断部17に送る。これら構文解析部14と照合スコア比較部15により、前述した第1の条件が満たされたか否かが調べられる。
【0057】図4に例示した終話検出部13では、入力音声と照合単語標準パタンとの単語照合結果7Aより部分文生成部9で得た部分文照合結果9Aの各部分文とその照合スコアから、まず照合スコア比較部18が照合スコアどうしを比較して、全ての部分文のうちで最大の照合スコアを持つ部分文を常時探索し、その結果18Aを構文解析部19に送る。次に、構文解析部19が照合スコア比較部18により探索された最大の照合スコアを持つ部分文が文法規則5Aで受理される文(図2の例では「総務部の矢野さんお願いします(無音)」)であるか否かを解析し、その結果19Aを発声終了判断部17に送る。これら照合スコア比較部18と構文解析部19により、前述した第1の条件が満たされるか否かが調べられる。即ち、照合スコアが最大の部分文が文法規則に受理されるものであれば、第1の条件が満たされる。
【0058】図3,図4いずれの場合も、無音継続時間判定部16は入力音声と照合単語標準パタンとの単語照合結果7Aより部分文生成部9で得た部分文照合結果9Aから、第2の条件が満たされるか否か、即ち無音の標準パタンに一致すると判断される入力音声(図2の例では、文末の「(無音)」に相当するもの)の継続時間が所定時間以上であるか否かを常時判定し、その結果16Aを発声終了判断部17に送る。なお、無音の継続時間の求め方については、後で説明する。
【0059】発声終了判断部17は、図3と図4いずれの場合も、第1の条件と第2の条件がともに満たされた時に、ユーザの発話が終了したと判断し、終話検出信号13Aを出力する。
【0060】次に、無音の継続時間の求め方を説明する。まず、単語照合部7において隠れマルコフモデル(HMM)を用いて照合スコアを計算する場合は(数1参照)、数3(式(3))と数4(式(4))により無音の標準パタンに一致する入力音声の継続時間を計算することができる。
【0061】
【数3】


【0062】
【数4】


【0063】単語照合部7においてDPマッチング法を用いて照合スコアを計算する場合は(数2参照)、数5(式(5))と数6(式(6))により無音の標準パタンに一致する入力音声の継続時間を計算することができる。
【0064】
【数5】


【0065】
【数6】


【0066】なお、数4(式(4))には無音の標準パタンの「終了状態」、数6(式(6))には無音の標準パタン列の「最後」なる文言があるが、無音モデルは単一の状態または単一のパタンで表わすだけでなく、「複数状態」や「複数個のパタン」で表わすこともあるから、このような式となっている。
【0067】ここで、図8の例でHMMを用いた場合の無音継続時間の計算例を説明する。図9に示す経路20で照合したスコアが一番高かったとすると、この場合は、時刻t+5で無音HMMの状態4までの照合が、何時開始されたかを求めれば良い。
【0068】まず、無音の先頭状態1を考えると、前単語からの遷移Aのスコアが自分自身からの遷移Bのスコアより高い場合には、その時刻t+1を記憶する。即ち、begin(t+1,状態1)=t+1である。
【0069】先頭状態1以外については、一番高い照合スコアを与える状態遷移元に保持されている時刻を引き継ぐ。例えば、begin(t+3,状態2)=begin(t+2,状態2)となる。
【0070】この処理を繰り返すことにより、各時刻で無音HMMの状態4まで照合を行った場合の一番高い照合スコアを与える経路20で何時照合を開始したかを知ることができる。このことから、図8の例では、時刻t+5における無音の継続時間は〔t+5−begin(t+5,状態4)〕となる。
【0071】上述した無音継続時間の計算例はHMMを用いた場合の処理についてであるが、DPマッチング法を用いた場合の数5,数6による計算においても同様の考えで処理される。
【0072】認識結果出力部10は終話検出部13から終話検出信号13Aを受け取った後例えば受信時点に、部分文生成部9から送られてきた全ての部分文照合結果9Aのうちで、照合スコアの最も高い文を認識結果10Aとして出力する。
【0073】以上説明した第1実施例では、発話の検出には音声パワーのしきい値を利用しているが、終話の検出には音声パワーのしきい値ではなく、入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを利用しているので、文中に長い無音区間が生じる場合に音声区間が終了したと判断する検出誤りを削減することが可能となり、これにより連続音声認識の性能が向上する。
【0074】ここで、図2に示した文法規則を例にとって、第1実施例(図1)の連続音声認識装置の動作を説明する。前述の通り、図2は「総務部の矢野さんお願いします(無音)」を表わす文法規則をネットワークを用いて示したものである。
【0075】装置起動後、入力音声の音声パワーが一定時間しきい値を継続して越えると、発話検出信号3Aが単語予測部6とスイッチ11に送られ、図2の文法規則を用いて照合単語の予測が行われる。この文法規則を用いた場合、文頭では単語「総務部」が予測され、続いて、部分文「総務部」からそれに続く単語「の」、部分文「総務部の」からそれに続く単語「矢野」、部分文「総務部の矢野」からそれに続く単語「さん」、部分文「総務部の矢野さん」からそれに続く単語「お願いします」が順次予測され、最終的には、部分文「総務部の矢野さんお願いします」から「(無音)」が予測される。また、図2の文法規則では、部分文「総務部の矢野さんお願いします(無音)」のみが、受理可能となっている。
【0076】そして、図2の文法規則を用いて連続音声認識を行った場合、単語の予測と照合が進むと、各時刻で部分文生成部9にて、部分文「総務部」、「総務部の」、「総務部の矢野」、「総務部の矢野さん」、「総務部の矢野さんお願いします」、「総務部の矢野さんお願いします(無音)」と、それぞれの照合スコアが得られる。
【0077】部分文とその照合スコアが得られる各時刻で、終話を検出するために、<第1の条件> 文法規則で受理される部分文「総務部の矢野さんお願いします(無音)」の照合スコアが全部分文の照合スコアのうちで最大になっているか、更に、<第2の条件> 部分文「総務部の矢野さんお願いします(無音)」の文末の「(無音)」の標準パタンと一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるか、という2つの条件を調べ、ともに条件が満たされた場合にユーザの発声が終了したものと判断し、終話検出信号13Aが出力されて単語予測部6,認識結果出力部10及びスイッチ11に送られる。
【0078】終話検出信号13Aが出力されると、単語予測及び単語照合が終了され、且つ、認識結果出力部10にて部分文照合結果9Aのうちで照合スコアの最も高い部分文が認識結果10Aとして出力される。これにより、連続音声認識が終了する。また、同時にスイッチ11が発話検出部3に接続し、次の入力音声に対する連続音声認識開始を待機する。
【0079】<第2の実施例>図5に示された連続音声認識装置は、発話検出は行わず、その代りに装置起動時から単語の予測や照合などの音声認識処理を開始し、終話検出を入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを利用して行い、終話検出が行れた時点で処理中の音声認識を終了すると共に、次の入力音声に対する音声認識処理を開始するようにしたものである。
【0080】そのため図1に示した第1実施例の連続音声認識装置と比較すると、図5に示した第2実施例の装置は音声区間検出用スイッチ11,発話検出部3及び音響分析結果遅延部2が無く、音響分析部1で得た音響分析結果1Aがそのまま単語照合部7に送られる。
【0081】即ち、図5において連続音声認識装置は、音響分析部1と、終話検出部13と、文法規則格納部5と、単語予測部6と、単語照合部7と、単語標準パタン格納部8と、部分文生成部9と、認識結果出力部10から構成され、主としてCPUとソフトウェアにより実現される。
【0082】図5において、第1実施例と同様、文法規則格納部5には認識に用いる各種の文の末尾に無音部分を有する文法規則が予め用意されて格納する。また、単語標準パタン格納部8には従来と同様、各種文法規則に表われる全単語の標準パタンが予め用意されて格納される。
【0083】音声認識の手順に沿って、図5に示された連続音声認識装置の各部の機能を以下に説明する。
【0084】音響分析部1は入力音声の特徴パラメータを抽出するための音響分析を時々刻々に用い、その結果1Aを単語照合部7に送る。
【0085】単語予測部6は装置の起動と同時に単語の予測を開始し、部分文生成部9から送られてくる部分文照合結果(部分文とその照合スコア)9Aと、文法規則格納部5に格納されている文法規則5Aとから、単語照合部7で次に照合すべき単語、即ち照合単語6Aを1つまたは複数個予測して求め、単語照合部7に送る。なお、終話検出部13より終話検出信号13Aを受け取ると、今までの単語予測を終了し、次の入力音声について単語予測を開始する。単語には無音も含まれる。
【0086】単語照合部7は第1実施例と同様、単語予測部6より受け取った照合単語6Aに対応する単語標準パタン即ち照合単語標準パタン8Aを単語標準パタン格納部8から取り出して、音響分析結果1Aと照合単語標準パタン8Aとを照合し、照合単語標準パタン8Aの終りまで照合を行った照合単語6Aについて、その単語照合結果7Aを部分文生成部9に送る。
【0087】なお、単語照合部7において照合の際に用いる照合スコア計算法としては、従来と同様、周知のDPマッチング法や隠れマルコフモデル(HMM)を用いた方法等がある。照合スコアの計算に隠れマルコフモデルを用いた場合は、照合スコアは前述の数1(式(1))により計算される。また、照合スコアの計算にDPマッチング法を用いた場合は、照合スコアは前述の数2(式(2))により計算される。
【0088】部分文生成部9では、第1実施例と同様、単語照合部7より送られてくる単語照合結果7Aから、各部分文とその照合スコアを求め、その結果9Aを単語予測部6,終話検出部13及び認識結果出力部10に送る。
【0089】終話検出部13は、第1実施例と同様、入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを用いて、発声の終了を判断するものであり、具体的には以下に示す2つの条件を定め、これら2つの条件が満たされるか否かを常時調べ、満たされた時点でユーザの発声が終了したものと判断して、終話検出信号13Aを単語予測部6及び認識結果出力部10に送る。
【0090】第1の条件:この条件は、認識用文法規則で受理される部分文(例えば図2の例では「総務部の矢野さんお願いします(無音)」)の照合スコアが、全ての部分文の照合スコアのうちで最大であること。
【0091】第2の条件:この条件は、無音の標準パタンに一致すると判断される入力音声の継続時間が、予め定めた所定時間以上であること。
【0092】終話検出部13の具体的な装置構成としては、図3または図4に例示するものがあり、これらの構成及び作用は第1実施例にて説明した通りである。
【0093】無音の継続時間の求め方も第1実施例と同様である。まず、単語照合部7において隠れマルコフモデル(HMM)を用いて照合スコアを計算する場合は(数1参照)、前述した数3(式(3))と数4(式(4))により無音の標準パタンに一致する入力音声の継続時間を計算することができる。単語照合部7においてDPマッチング法を用いて照合スコアを計算する場合は(数2参照)、前出の数5(式(5))と数6(式(6))により無音の標準パタンに一致する入力音声の継続時間を計算することができる。
【0094】認識結果出力部10は第1実施例と同様、終話検出部13から終話検出信号13Aを受け取った後に、部分文生成部9から送られてきた全ての部分文照合結果9Aのうちで、照合スコアの最も高い文を認識結果10Aとして出力する。
【0095】以上説明したように第2実施例では、音声パワーを基にした発話検出を行わず、装置が起動された時点から単語の予測、照合等の認識処理を開始するので、第1実施例に比較すると、入力音声のレベルが低い場合に生じる発話検出誤りによる認識性能の劣化を回避することができ、認識性能がより向上する。そのうえ、第1実施例と同様、第2実施例でも、入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを利用しているので、文中に長い無音区間が生じる場合に音声区間が終了したと判断する検出誤りを削減することが可能となり、これにより連続音声認識の性能が向上する。なお、発話検出を行わないので、文の発声開始前に、咳、息あるいは雑音等が低レベルで入力された場合にも、その音声の照合を行い誤った認識結果を出力する可能性があり得る。
【0096】ここで、図2に示した文法規則を例にとって、第2実施例(図5)の連続音声認識装置の動作を説明する。前述の通り、図2は「総務部の矢野さんお願いします(無音)」を表わす文法規則をネットワークを用いて示したものである。
【0097】装置起動後の時点から、図2の文法規則を用いて照合単語の予測が行われる。この文法規則を用いた場合、文頭では単語「総務部」が予測され、続いて、部分文「総務部」からそれに続く単語「の」、部分文「総務部の」からそれに続く単語「矢野」、部分文「総務部の矢野」からそれに続く単語「さん」、部分文「総務部の矢野さん」からそれに続く単語「お願いします」が順次予測され、最終的には、部分文「総務部の矢野さんお願いします」から「(無音)」が予測される。また、図2の文法規則では、部分文「総務部の矢野さんお願いします(無音)」のみが、受理可能となっている。
【0098】そして、図2の文法規則を用いて連続音声認識を行った場合、単語の予測と照合が進むと、各時刻で部分文生成部9にて、部分文「総務部」、「総務部の」、「総務部の矢野」、「総務部の矢野さん」、「総務部の矢野さんお願いします」、「総務部の矢野さんお願いします(無音)」と、それぞれの照合スコアが得られる。
【0099】部分文とその照合スコアが得られる各時刻で、終話を検出するために、<第1の条件> 文法規則で受理される部分文「総務部の矢野さんお願いします(無音)」の照合スコアが全部分文の照合スコアのうちで最大になっているか、更に、<第2の条件> 部分文「総務部の矢野さんお願いします(無音)」の文末の「(無音)」の標準パタンと一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるか、という2つの条件を調べ、ともに条件が満たされた場合にユーザの発声が終了したものと判断し、終話検出信号13Aが出力されて単語予測部6及び認識結果出力部10に送られる。
【0100】終話検出信号13Aが出力されると、単語予測及び単語照合が終了され、且つ、認識結果出力部10にて部分文照合結果9Aのうちで照合スコアの最も高い部分文が認識結果10Aとして出力される。これにより、連続音声認識が終了する。また、同時に単語予測部6が、次の入力音声に対する連続音声認識のための予測を開始する。
【0101】
【発明の効果】請求項1及び2の終話検出方法並びに請求項3及び4の終話検出装置によれば、入力音声の音声パワーによらず、入力音声と単語標準パタンとの照合結果を利用してユーザの発声が終了したと判断することにより終話を検出するので、従来入力音声のレベルが低い場合に生じ易い音声区間の検出誤り、特に文中に長い音声区間が生じると文の途中であっても音声区間が終了したと判断する終話検出誤りを削減することができる。
【0102】また、請求項5の連続音声認識方法並びに請求項7及び8の連続音声認識装置によれば、入力音声の音声パワーに基づき発話を検出して音声認識処理を開始し、入力音声と単語標準パタンとの照合結果を利用して終話を検出するので、発声した文中に長い無音区間があっても、従来入力した文の一部を文全体の標準パタンと照合する誤りがなくなり、連続音声認識の性能が向上する。
【0103】更に、請求項6の連続音声認識方法並びに請求項9及び10の連続音声認識装置によれば、入力音声の音声パワーに基づく発話検出は行わず、装置が起動された時点から音声認識を開始し、入力音声と単語標準パタンを利用して終話を検出するまで音声認識を続けるので、従来入力音声のレベルが低い場合に生じる発話検出誤りにより音声認識性能の劣化を回避することができ、しかも、発声した文中に長い無音区間があっても、従来入力した文の一部を文全体の標準パタンと照合する誤りがなくなり、連続音声認識の性能が一層向上する。
【図面の簡単な説明】
【図1】本発明の第1実施例に係る連続音声認識装置の構成を示す図。
【図2】文法規則の一例をネットワークを用いて示す図。
【図3】終話検出装置の構成の一実施例を示す図。
【図4】終話検出装置の構成の他の実施例を示す図。
【図5】本発明の第2実施例に係る連続音声認識装置の構成を示す図。
【図6】部分文と照合スコア計算の説明図。
【図7】部分文と照合スコアの関係を示す図。
【図8】無音継続時間計算の説明図。
【図9】従来の連続音声認識装置の構成を示す図。
【図10】音声パワーを用いた発話検出及び終話検出の例を示す図。
【符号の説明】
1 音響分析部
1A 音響分析結果
2 音響分析結果遅延部
2A 遅延された音響分析結果
3 発話検出部
3A 発話検出信号
5 文法規則格納部
5A 文法規則
6 単語予測部
6A 照合単語
7 単語照合部
7A 単語照合結果
8 単語標準パタン格納部
8A 照合単語標準パタン
9 部分文生成部
9A 部分文照合結果
10 認識結果出力部
10A 認識結果
11 音声区間検出用スイッチ
12 音声パワー計算部
12A 音声パワー計算結果
13 終話検出部
13A 終話検出信号
14,18 構文解析部
15,19 照合スコア比較部
16 無音継続時間判定部
17 発声終了判断部

【特許請求の範囲】
【請求項1】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:入力音声と単語標準パタンとの照合結果より得られる、部分文の照合スコア及び構文解析結果と、無音の標準パタンに一致すると判断される入力音声の継続時間とを用いて、発声の終了を判断することを特徴とする終話検出方法。
【請求項2】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合すること;この入力音声と単語標準パタンとの照合結果より、各部分文とその照合スコアを求めること;前記文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べること;無音の標準パタンと一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べること;及び、前記第1の条件と第2の条件がともに満たされた時点を発声の終了時点と判断すること;を特徴とする終話検出方法。
【請求項3】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において;入力音声と単語標準パタンとの照合結果より得られる部分文から、文法規則で受理される部分文を探索する構文解析手段と;入力音声と単語標準パタンとの照合結果より得られる部分文の照合スコアから、文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるか否かを判定する照合スコア比較手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、発声が終了したと判断する発声終了判断手段とを具備することを特徴とする終話検出装置。
【請求項4】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:入力音声と単語標準パタンとの照合結果より得られる部分文とその照合スコアから、照合スコアが最大の部分文を探索する照合スコア比較手段と;照合スコアが最大の部分文が文法規則に受理される文か否かを解析する構文解析手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;照合スコアが最大の部分文が文法規則に受理される文であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、発声が終了したと判断する発声終了判断手段と;を具備することを特徴とする終話検出装置。
【請求項5】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:入力音声の音声パワーがしきい値を越えた状態が予め定めた一定時間以上継続したときに、音声認識を開始すること;入力音声と単語標準パタンとの照合結果より得られる各部分文とその照合スコアから、前記文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べること;入力音声と単語標準パタンとの照合結果から、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べること;及び、第1の条件と第2の条件が満たされた時点で、音声認識を終了すること;を特徴とする連続音声認識方法。
【請求項6】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:連続音声認識装置が起動したときに、音声認識を開始すること;入力音声と単語標準パタンとの照合結果より得られる各部分文とその照合スコアから、前記文法規則に受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるという第1の条件が満たされるか否かを調べること;入力音声と単語標準パタンとの照合結果から、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上であるという第2の条件が満たされるか否かを調べること;及び、第1の条件と第2の条件が満たされた時点で、音声認識を終了すること;を特徴とする連続音声認識方法。
【請求項7】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:入力音声の音声パワーがしきい値を越えた状態が予め定めた一定時間以上継続するか否かを判定し、一定時間以上継続したときに発話検出信号を出力する発話検出手段と;入力音声と単語標準パタンとの照合結果より得られる部分文から、文法規則で受理される部分文を探索する構文解析手段と;入力音声と単語標準パタンとの照合結果より得られる部分文の照合スコアから、文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるか否かを判定する照合スコア比較手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、発話検出信号の出力により音声認識を開始し終話検出信号の出力により音声認識を終了することを特徴とする連続音声認識装置。
【請求項8】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:入力音声の音声パワーがしきい値を越えた状態が予め定めた一定時間以上継続するか否かを判定し、一定時間以上継続したときに発話検出信号を出力する発話検出手段と;入力音声と単語標準パタンとの照合結果より得られる部分文とその照合スコアから、照合スコアが最大の部分文を探索する照合スコア比較手段と;照合スコアが最大の部分文が文法規則に受理される文か否かを解析する構文解析手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;照合スコアが最大の部分文が文法規則に受理される文であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、発話検出信号の出力により音声認識を開始し終話検出信号の出力により音声認識を終了することを特徴とする連続音声認識装置。
【請求項9】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:入力音声と単語標準パタンとの照合結果より得られる部分文から、文法規則で受理される部分文を探索する構文解析手段と;入力音声と単語標準パタンとの照合結果より得られる部分文の照合スコアから、文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であるか否かを判定する照合スコア比較手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;文法規則で受理される部分文の照合スコアが全ての部分文の照合スコアのうちで最大であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、装置が起動したときから終話検出信号が出力されるまでの間音声認識を行うことを特徴とする連続音声認識装置。
【請求項10】 単語標準パタンを文法規則に基づき、連続的に入力音声と照合することにより、連続に発声された音声を認識する連続音声認識装置において:入力音声と単語標準パタンとの照合結果より得られる部分文とその照合スコアから、照合スコアが最大の部分文を探索する照合スコア比較手段と;照合スコアが最大の部分文が文法規則に受理される文か否かを解析する構文解析手段と;入力音声と単語標準パタンとの照合結果より、無音の標準パタンに一致すると判断される入力音声の継続時間が予め定めた所定時間以上か否かを判定する無音継続時間判定手段と;照合スコアが最大の部分文が文法規則に受理される文であると判定され、且つ、無音継続時間が所定時間以上であると判定されたとき、終話検出信号を出力する発声終了判断手段と;を具備し、装置が起動したときから終話検出信号が出力されるまでの間音声認識を行うことを特徴とする連続音声認識装置。

【図2】
image rotate


【図1】
image rotate


【図3】
image rotate


【図6】
image rotate


【図8】
image rotate


【図4】
image rotate


【図7】
image rotate


【図5】
image rotate


【図9】
image rotate


【図10】
image rotate


【公開番号】特開平8−115093
【公開日】平成8年(1996)5月7日
【国際特許分類】
【出願番号】特願平6−251773
【出願日】平成6年(1994)10月18日
【出願人】(000001214)国際電信電話株式会社 (10)