音声検索装置、音声検索方法及びプログラム

【課題】検索精度が高い音声検索装置、音声検索方法及びプログラムを提供する。
【解決手段】検索対象取得部６２は、検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素と後側直近の音素とを含むトライフォンが時系列順に配列されたトライフォン列Ａを取得する。入力部６４は、音声データに対して検索する検索語を入力する。検索語取得部６６は、入力部６４によって入力された検索語を音素列に変換し、トライフォン列Ｂを取得する。探索部６７は、トライフォン列Ｂの最初及び最後のバイフォンを除くトライフォン列であるトライフォン列Ｃとトライフォン列Ａに含まれる部分列との類似度を算出し、算出された類似度が所定の条件を満たす部分列を、トライフォン列Ａから抽出する。出力部６９は、探索部６７によって抽出された部分列の音声データにおける再生開始時間を表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声検索装置、音声検索方法及びプログラムに関する。
【背景技術】
【０００２】
音声データに含まれる音声をキーワードで検索する場合、音声データをモデル化するのが一般的である。このようなモデルの１つにトライフォンがある（例えば、特許文献１及び２参照）。トライフォンは、３音素の音素モデルである。トライフォンは、音声データに含まれる各音素を中心音素とし、中心音素と、その中心音素の前側直近の音素と、後側直近の音素とを含む。最終的に、音声データは、トライフォンが時系列順に並べられたトライフォン列にモデル化される。
【０００３】
トライフォン列に変換された音声データに含まれる音声をキーワードで検索する場合には、キーワードもトライフォン列にモデル化する必要がある。キーワードのトライフォン列は、音声データのトライフォン列の一部と比較される。比較の結果、キーワードのトライフォン列と類似度の高い部分が音声データのトライフォン列から検索される。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００６−１１２５７号公報
【特許文献２】特開２０１１−３９４６８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
キーワードの最初の音素には、前側に音素がないため、最初の音素を中心音素とする音素モデルは、トライフォンではなく、２音素のバイフォンとなる。同様に、キーワードの最後の音素には、後側に音素がないため、最後の音素を中心音素とする音素モデルは、バイフォンとなる。すなわち、キーワードのトライフォン列の最初及び最後の音素モデルは、バイフォンとなる。
【０００６】
音声データのトライフォン列とキーワードのトライフォン列との比較は、すべてがトライフォンであるトライフォン列と、一部にバイフォンを含むトライフォン列との比較となる。キーワードのトライフォン列に含まれるバイフォンは、両者の類似度を下げる要因となり、検索におけるノイズとなる。この結果、キーワードの検索精度が低下する。
【０００７】
本発明は、上記実情に鑑みてなされたものであり、検索精度が高い音声検索装置、音声検索方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
上記目的を達成するため、本発明に係る音声検索装置は、
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルを除く音素モデル列である第３の音素モデル列と前記第１の音素モデル列に含まれる部分列との第１の類似度を算出し、算出された前記第１の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部と、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部と、
を備える。
【発明の効果】
【０００９】
本発明によれば、検索精度が高くなる。
【図面の簡単な説明】
【００１０】
【図１】本発明の実施形態１に係る音声検索装置のハードウェア構成を示すブロック図である。
【図２】本発明の実施形態１に係る音声検索装置の機能構成を示すブロック図である。
【図３】検索対象の音声データに基づいて生成されたトライフォン列Ａを示す図である。
【図４】検索語に基づいて生成された音素列、トライフォン列Ｂ及びトライフォン列Ｃを示す図である。
【図５】２つのトライフォン列で定義されるノードを示す図である。
【図６】トライフォン間距離テーブルの内容を示す図である。
【図７】連続ＤＰマッチングで用いる漸化式を説明する図である。
【図８】部分列の抽出方法を説明する図である。
【図９】本発明の実施形態１に係る音声検索処理のフローチャートである。
【図１０】本発明の実施形態１に係る探索処理のフローチャートである。
【図１１】本発明の実施形態２に係る探索処理のフローチャートである。
【図１２】本発明の実施形態３に係る探索処理のフローチャートである。
【図１３】本発明の実施形態４に係る探索処理のフローチャートである。
【発明を実施するための形態】
【００１１】
（実施形態１）
本発明の実施形態１について、図面を参照して詳細に説明する。まず、図１を参照して、本実施形態に係る音声検索装置１００のハードウェア構成について説明する。図１に示すように、音声検索装置１００は、ＲＯＭ１（Read Only Memory）と、ＲＡＭ２（Random Access Memory）と、外部記憶装置３と、入力装置４と、出力装置５と、ＣＰＵ６（Central Processing Unit）とを備える。
【００１２】
ＲＯＭ１は、各種初期設定、ハードウェアの検査、プログラムのロード等を行うための初期プログラムを記憶する。ＲＡＭ２は、ＣＰＵ６が実行する各種ソフトウェアプログラム、これらのソフトウェアプログラムの実行に必要なデータ等を一時的に記憶する。外部記憶装置３は、例えば、ハードディスク等であって、各種ソフトウェアプログラム、データ等を記憶する。これらソフトウェアプログラムの中には、アプリケーションソフトウェアプログラムやＯＳ（Operating System）のような基本ソフトウェアプログラムなどが含まれている。
【００１３】
各種データには、音声データが含まれる。音声データは、例えば、ニュース放送等の音声、録音された会議の音声、映画の音声等に係る音声データである。
【００１４】
入力装置４は、例えば、キーボード等である。入力装置４は、ユーザがキーボードを用いて操作入力したテキストデータ等をＣＰＵ６に入力する。出力装置５は、例えば、液晶ディスプレイ等の画面、スピーカ等を備える。出力装置５は、ＣＰＵ６によって出力されたテキストデータを画面に表示し、音声データをスピーカから出力する。
【００１５】
ＣＰＵ６は、外部記憶装置３に記憶されたソフトウェアプログラムをＲＡＭ２に読み出して、そのソフトウェアプログラムを実行制御することにより、以下の機能構成を実現する。
【００１６】
次に、図２を参照して、音声検索装置１００の機能構成を説明する。音声検索装置１００は、音声データ記憶部６１、検索対象取得部６２、トライフォン列記憶部６３、入力部６４、変換テーブル記憶部６５、検索語取得部６６、探索部６７、トライフォン間距離記憶部６８、出力部６９を備える。音声データ記憶部６１、トライフォン列記憶部６３、変換テーブル記憶部６５及びトライフォン間距離記憶部６８は、外部記憶装置３の記憶領域に構築されている。
【００１７】
音声データ記憶部６１は、検索対象の音声データを記憶する。検索対象取得部６２は、音声データ記憶部６１に記憶された検索対象の音声データに基づくトライフォン列Ａ（第１の音素モデル列）を取得する。トライフォンとは、中心音素とその音素の前側直近の音素と後側直近の音素とを含む音素モデルである。トライフォン列Ａは、検索対象の音声データに含まれる各音素を中心音素とするトライフォンが時系列順に配列されたものである。トライフォン列Ａは、音響モデルとして、例えば、トライフォンＨＭＭ（Hidden Markov Model）を用いて生成される。検索対象取得部６２は、トライフォンＨＭＭを利用してトライフォン列Ａを生成するトライフォン音韻認識エンジンとして機能する。
【００１８】
トライフォンは、「前側直近の音素−中心音素＋後側直近の音素」で表現される。トライフォンを時系列順に配列したものがトライフォン列となる。例えば、図３に示すように、音声データに基づいて生成されたトライフォン列Ａの一部は、「ａ−ｏ＋Ｎ」、「ｏ−Ｎ＋ｓ」、「Ｎ−ｓ＋ｅ」、「ｓ−ｅ：＋ｓｈ」、「ｅ−ｓｈ＋ｉ」、「ｓｈ−ｉ＋Ｎ」、「ｉ−Ｎ＋ｇ」、「Ｎ−ｇ＋ｏ」、「ｇ−ｏ：＋ｓｈ」、「ｏ−ｓｈ＋ｏ」、「ｓｈ−ｏ＋ｒ」、「ｏ−ｒ＋ｉ」、「ｒ−ｉ＋ｋ」、「ｉ−ｋ＋ｏ」、「ｋ−ｏ：＋ｚ」、「ｏ−ｚ＋ａ」、「ｚ−ａ＋ｇ」となる。
【００１９】
検索対象取得部６２は、音声データに基づいてトライフォン列Ａを予め生成しておき、トライフォン列記憶部６３に記憶させる。このとき、検索対象取得部６２は、生成した各トライフォンと、そのトライフォンに対応する音声データの再生開始時間とが対応付けられた情報テーブルを作成し、トライフォン列記憶部６３に記憶させる。また、検索対象取得部６２は、生成した各トライフォンに対応する音声データを、情報テーブルの再生開始時間に対応付けてトライフォン列記憶部６３に記憶させる。
【００２０】
入力部６４は、音声データに対して検索する検索語を入力する。より詳細には、入力部６４は、入力装置４が備えるキーボードを用いてユーザが操作入力した検索語、例えば「信号処理」のテキストデータを検索語取得部６６に入力する。
【００２１】
変換テーブル記憶部６５は、テキストデータと音素とが対応付けられた変換テーブルを記憶する。検索語取得部６６は、入力部６４によって入力された検索語に基づくトライフォン列Ｂ（第２の音素モデル列）を取得する。より詳細には、まず、検索語取得部６６は、入力部６４によって入力された検索語を音素列に変換する。検索語の音素列への変換では、検索語取得部６６は、変換テーブル記憶部６５に記憶された変換テーブルを参照し、テキストデータを音素に変換する。続いて、検索語取得部６６は、変換した音素を時系列順に配列し、音素列に変換する。
【００２２】
検索語取得部６６は、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素と後側直近の音素とを含むトライフォンが時系列順に配列されたトライフォン列Ｂ（第２の音素モデル列）を生成する。
【００２３】
例えば、入力部６４によって入力された検索語が「信号処理」の場合には、図４に示すように、検索語取得部６６は、「信号処理」を、音素列「ｓｈ」、「ｉ」、「Ｎ」、「ｇ」、「ｏ：」、「ｓｈ」、「ｏ」、「ｒ」、「ｉ」に変換する。続いて、検索語取得部６６は、変換された音素列に基づいて、トライフォン列Ｂとして、「ｓｈ＋ｉ」、「ｓｈ−ｉ＋Ｎ」、「ｉ−Ｎ＋ｇ」、「Ｎ−ｇ＋ｏ」、「ｇ−ｏ：＋ｓｈ」、「ｏ−ｓｈ＋ｏ」、「ｓｈ−ｏ＋ｒ」、「ｏ−ｒ＋ｉ」、「ｒ−ｉ」を生成する。上述のように、生成されたトライフォン列Ｂは、最初及び最後にバイフォンを含む。
【００２４】
探索部６７は、トライフォン列Ｂの最初及び最後のトライフォンを除くトライフォン列であるトライフォン列Ｃ（第３の音素モデル列）とトライフォン列Ａに含まれる部分列との類似度を算出する。探索部６７は、検索語取得部６６から出力されたトライフォン列Ｂに基づいてトライフォン列Ｃを生成する。トライフォン列Ｃは、図４に示すように、トライフォン列Ｂの最初のバイフォン「ｓｈ＋ｉ」と、最後のバイフォン「ｒ−ｉ」が除かれて、「ｓｈ−ｉ＋Ｎ」、「ｉ−Ｎ＋ｇ」、「Ｎ−ｇ＋ｏ」、「ｇ−ｏ：＋ｓｈ」、「ｏ−ｓｈ＋ｏ」、「ｓｈ−ｏ＋ｒ」、「ｏ−ｒ＋ｉ」となる。
【００２５】
探索部６７は、類似度をトライフォン列Ａとトライフォン列Ｃとの連続ＤＰ（Dynamic Programming）マッチングで算出する。連続ＤＰマッチングは、既知の任意の方法を用いてよいが、本実施形態では、探索部６７は、以下の方法で連続ＤＰマッチングを実行する。
【００２６】
まず、探索部６７は、トライフォン列Ｃに含まれる各トライフォンに対応する行と、トライフォン列Ａに含まれる各トライフォンに対応する列とで構成されるノードの集合を定義する。以下では、一例として図５に示すように、ノードがトライフォン列Ｃの７個のトライフォンに対応する７行、トライフォン列Ａに含まれる１０個のトライフォンに対応する１０列に配置された場合を説明する。なお、ｉ行ｊ列に位置するノードをノード（ｉ，ｊ）とし、図５に示すノードの集合を探索テーブルとする。
【００２７】
次に、探索部６７は、各ノード（ｉ，ｊ）についてコストＸ（ｉ，ｊ）を定義する。コストＸ（ｉ，ｊ）は、トライフォン列Ｃの最初のトライフォンに対応するノード（ｉ＝１のノード）からノード（ｉ，ｊ）までたどった場合に、たどったノードに対応するトライフォン列Ｃとトライフォン列Ａの部分列とのマッチングの誤差、すなわち類似度を示す。
【００２８】
コストＸ（ｉ，ｊ）は、以下のように更新される。まず、探索部６７は、探索テーブルの１行目のノード（ノード（１，１）からノード（１，１０））のコストＸ（コストＸ（１，１）からコストＸ（１，１０））に、それぞれトライフォン列Ｃの最初のトライフォンと、それに対応するトライフォン列Ａのトライフォンとの距離を初期値として代入する。
【００２９】
より詳細には、トライフォン列Ｃのｉ番目のトライフォンとトライフォン列Ａのｊ番目のトライフォンとの距離をｄ（ｉ，ｊ）とすると、探索部６７は、コストＸ（１，ｊ）にｄ（１，ｊ）を代入する。また、探索部６７は、ノード（１，１）を除く１列目のノード（ノード（２，１）からノード（７，１））のコストＸ（コストＸ（２，１）からコストＸ（７，１））に、想定されるコストＸの最大値より十分に大きな値を初期値として代入する。
【００３０】
距離ｄ（ｉ，ｊ）は、トライフォン間距離記憶部６８に記憶されたトライフォン間距離テーブルを参照して求められる。図６に示すように、トライフォン間距離テーブルは、トライフォン同士の全ての組み合わせについて実験的に求められた距離ｄを格納している。図６の例では、「ａ−ａ＋ａ」に対する「ａ−ａ＋ｉ」、「ａ−ａ＋ｕ」、「ｏ−ｗ＋ｏ」の距離ｄは、それぞれ「５」、「７」、「１００」である。「ａ−ａ＋ｉ」に対する「ａ−ａ＋ｕ」、「ｏ−ｗ＋ｏ」との距離ｄは、それぞれ「２０」、「９９」である。また、「ａ−ａ＋ｕ」に対する「ｏ−ｗ＋ｏ」の距離ｄは、「９８」である。また、同一のトライフォン間の距離ｄは「０」である。
【００３１】
トライフォン間の距離ｄは、例えば、そのトライフォンに含まれる３つの音素間の距離の平均であってもよい。この場合、音素間の距離は、音響モデルを用いて各音素の特徴量からあらかじめ求められている。音素の特徴量は、例えば、音素の波形データの周波数帯域における短時間スペクトルである。
【００３２】
初期値が代入されたノード同士は、トライフォンの一致又は置換、挿入及び脱落に対応するパスで互いに接続される。ここで、図７を参照して、一致又は置換、挿入及び脱落について詳細に説明する。図７に示すように、一致又は置換は、ノード（ｉ−１，ｊ−１）とノード（ｉ，ｊ）との接続である。挿入は、ノード（ｉ−１，ｊ−２）とノード（ｉ，ｊ）との接続である。脱落は、ノード（ｉ−２，ｊ−１）とノード（ｉ，ｊ）との接続である。
【００３３】
次に、探索部６７は、コストＸ（ｉ，ｊ）を、一致又は置換、挿入及び脱落それぞれに対応する次の漸化式で更新する。
【００３４】
【数１】

【００３５】
上記漸化式の上段は、一致又は置換の場合に対応する。この場合、探索部６７は、コストＸ（ｉ−１，ｊ−１）にｄ（ｉ，ｊ）を加算する。上記漸化式の中段は、挿入の場合に対応する。この場合、探索部６７は、コストＸ（ｉ−１，ｊ−２）にｄ（ｉ，ｊ−１）及びｄ（ｉ，ｊ）の平均を加算し、さらに挿入コストαを加算する。上記漸化式の下段は脱落の場合に対応する。この場合、探索部６７は、コストＸ（ｉ−２，ｊ−１）にｄ（ｉ，ｊ）及びｄ（ｉ−１，ｊ）を加算し、さらに脱落コストβを加算する。なお、挿入コストα及び脱落コストβはあらかじめ設定された定数である。
【００３６】
なお、上記漸化式は、例えば２つのトライフォン列を挿入する場合に対応する式として、コストＸ（ｉ−１，ｊ−３）にｄ（ｉ，ｊ−２）とｄ（ｉ，ｊ−１）とｄ（ｉ，ｊ）の平均を加算し、さらに挿入コストγを加算する式を漸化式に加える等の任意の変形が可能である。
【００３７】
探索部６７は、上記のようにＸ（ｉ，ｊ）を更新する。次に、探索部６７は、ｉ＝７の各ノードのうち、コストＸ（７，ｊ）が最も小さいノードを選択する。以下、コストＸ（７，９）が最も小さい場合を例にとって説明する。
【００３８】
図８に示すように、探索部６７は、選択されたコストＸ（７，９）が算出された経路を遡ることによって、トライフォン列Ｃの１番目のトライフォンにマッチングされたトライフォン列Ａの３番目のトライフォンを特定する。この結果、探索部６７は、トライフォン列Ａの３番目から９番目までを含む部分列を抽出する。このとき、コストＸ（７，９）は、トライフォン列Ｃとトライフォン列Ａに含まれる部分列との類似度に相当する。
【００３９】
このように、連続ＤＰマッチングを実行することによって、探索部６７は、算出されたコストＸが、所定の条件として最も小さい部分列をトライフォン列Ａから抽出する。
【００４０】
なお、探索部６７は、コストＸが最も小さいノードを選択したが、コストＸが所定の閾値未満であること及びコストＸが小さい順に所定順位内にあることのいずれかを所定の条件として、ノードを選択することによって、部分列を抽出するようにしてもよい。
【００４１】
部分列を抽出した探索部６７は、抽出された部分列に対応する音声データに関する情報を出力する。抽出された部分列に対応する音声データに関する情報は、例えば、抽出された部分列の最初のトライフォンに対応する再生開始時間及び抽出された部分列に対応する音声データである。探索部６７は、トライフォン列記憶部６３に記憶された情報テーブルを参照して、当該再生開始時間と音声データとを取得し、当該再生開始時間と音声データとを出力部６９に出力する。
【００４２】
出力部６９は、探索部６７によって抽出された部分列に対応する音声データに関する情報を出力装置５に出力する。より具体的には、出力部６９は、探索部６７から出力された再生開始時間を、出力装置５が備える画面を介して表示する。ここで、ユーザによって入力装置４を介して抽出された部分列に対応する音声データの再生の指示が入力されると、出力部６９は、探索部６７から出力された音声データを、スピーカを介して出力するようにしてもよい。
【００４３】
次に、図９を参照しながら、本実施形態における音声検索装置１００による音声検索処理のフローについて詳細に説明する。前提として、トライフォン列記憶部６３には、図３に示すトライフォン列Ａがすでに記憶されているものとする。
【００４４】
入力部６４は、検索語「信号処理」に対応するテキストデータを検索語取得部６６に入力する（ステップＳ１）。検索語取得部６６は、入力されたテキストデータに基づいてトライフォン列Ｂを生成する（ステップＳ２）。続いて、探索部６７は、トライフォン列Ｃから部分列を抽出する探索処理を実行する（ステップＳ３）。
【００４５】
ここで、図１０を参照しながら、探索処理（ステップＳ３）を詳細に説明する。探索部６７は、トライフォン列Ｂの最初及び最後のバイフォンを除いたトライフォン列Ｃを生成する（ステップＳ１１）。続いて、探索部６７は、トライフォン列Ｃとトライフォン列Ａとで連続ＤＰマッチングを実行する（ステップＳ１２）。続いて、探索部６７は、連続ＤＰマッチングの結果から、コストＸが最も小さい部分列を抽出する（ステップＳ１３）。次に、図９に戻って、出力部６９は、抽出された部分列に対応する再生開始時間を、画面を介して表示する（ステップＳ４）。そして、音声検索装置１００は、音声検索処理を終了する。
【００４６】
以上詳細に説明したように、本実施形態に係る音声検索装置１００は、トライフォン列Ｂの最初及び最後のバイフォンを除いたトライフォン列Ｃを用いて連続ＤＰマッチングを実行する。そのため、バイフォンを含むトライフォン列Ｂを用いて上記連続ＤＰマッチングを実行した場合と比較して、バイフォンの音素数がトライフォンの音素数と一致しないことによるコストＸの増加を防ぐことができる。これにより、検索精度が高くなる。
【００４７】
（実施形態２）
次に、本発明の実施形態２について、詳細に説明する。本実施形態における音声検索装置１００のハードウェア構成及び機能構成は、上記実施形態１と同じであるが、探索部６７の機能が異なる。検索語が短い、すなわちトライフォン列Ｂを構成するトライフォンの数が少ない場合には、バイフォンを削除するとトライフォン列Ｃを構成するトライフォンの数が少なくなって、検索語に係るデータ量が極端に少なくなることがある。この結果、検索精度がかえって低下することがある。
【００４８】
そこで、探索部６７は、トライフォン列Ｂを構成するトライフォンの数が閾値未満である場合には、トライフォン列Ｂとトライフォン列Ａに含まれる部分列とのコストＹ（第２の類似度）を算出する。そして、探索部６７は、算出されたコストＹが最も小さい部分列を、トライフォン列Ａから抽出する。一方、探索部６７は、トライフォン列Ｂを構成するトライフォンの数が閾値以上である場合には、トライフォン列Ｃとトライフォン列Ａに含まれる部分列とのコストＸ（第１の類似度）を算出する。
【００４９】
本実施形態における音声検索装置１００による音声検索処理のフローについて詳細に説明する。本実施形態に係る音声検索処理のフローは、上記実施形態１に係る音声検索処理における探索処理（ステップＳ３）が異なる。以下では、図１１を参照しながら、本実施形態の探索処理について上記実施形態１と異なる部分を主に説明する。
【００５０】
探索部６７は、トライフォン列Ｂを構成するトライフォンの数が閾値以上であるか否かを判定する（ステップＳ２１）。トライフォン列Ｂを構成するトライフォンの数が閾値以上の場合（ステップＳ２１；Ｙｅｓ）、探索部６７は、上記実施形態１のステップＳ１１からステップＳ１３と同様に、ステップＳ２２からステップＳ２４を実行する。続いて、音声検索装置１００は、音声検索処理に戻り、ステップＳ４を実行して、音声検索処理を終了する。
【００５１】
一方、トライフォン列Ｂを構成するトライフォンの数が閾値未満の場合（ステップＳ２１；Ｎｏ）、探索部６７は、トライフォン列Ｂとトライフォン列Ａとで連続ＤＰマッチングを行う（ステップＳ２５）。続いて、探索部６７は、コストＹが最も小さい部分列を抽出する（ステップＳ２４）。そして、音声検索装置１００は、音声検索処理に戻り、ステップＳ４を実行して、音声検索処理を終了する。
【００５２】
以上詳細に説明したように、本実施形態によれば、トライフォン列Ｂを構成するトライフォンの数に応じて、トライフォン列Ｃを用いてコストＸを算出するか、トライフォン列Ｂを用いてコストＹを算出するかが選択される。こうすることで、トライフォン列Ｂのトライフォンの数が少ない場合に、トライフォン列Ｂの最初及び最後のバイフォンを除くことによってデータ量が極端に少なくなるのを防ぐことができる。この結果、検索精度が高くなる。
【００５３】
（実施形態３）
次に、本発明の実施形態３について、詳細に説明する。本実施形態における音声検索装置１００のハードウェア構成及び機能構成は、上記実施形態１と同じであるが、探索部６７の機能が異なる。探索部６７は、コストＸ（第１の類似度）及びコストＹ（第２の類似度）を両方算出し、コストＸ、Ｙが最も小さい部分列を抽出する。
【００５４】
本実施形態における音声検索装置１００による音声検索処理のフローについて詳細に説明する。本実施形態に係る音声検索処理のフローは、上記実施形態１に係る音声検索処理における探索処理（ステップＳ３）が異なる。以下では、図１２を参照しながら、本実施形態の探索処理について、上記実施形態１と異なる部分を主に説明する。
【００５５】
探索部６７は、トライフォン列Ｂとトライフォン列Ａとで連続ＤＰマッチングを行う（ステップＳ３１）。続いて、探索部６７は、トライフォン列Ｃを生成する（ステップＳ３２）。続いて、探索部６７は、トライフォン列Ｃとトライフォン列Ａとで連続ＤＰマッチングを行う（ステップＳ３３）。そして、探索部６７は、コストＸ、Ｙが最も小さい部分列を抽出する（ステップＳ３４）。続いて、音声検索装置１００は、音声検索処理に戻り、ステップＳ４を実行して、音声検索処理を終了する。
【００５６】
以上詳細に説明したように、本実施形態によれば、トライフォン列Ｂを構成するトライフォンの数が少なく、バイフォンを除くことによってデータ量が極端に少なくなる場合には、コストＹに基づいて部分列が抽出される。一方、トライフォンの数が十分あって、バイフォンを除くことが有利な場合には、コストＸに基づいて部分列が抽出される。このように、トライフォンの数に柔軟に対応して部分列を抽出することができるので、検索精度をさらに向上させることができる。
【００５７】
（実施形態４）
次に、本発明の実施形態４について、詳細に説明する。本実施形態における音声検索装置１００のハードウェア構成及び機能構成は、上記実施形態１と同じであるが、探索部６７の機能が異なる。探索部６７は、トライフォン列Ｂの最初及び最後のバイフォンの重みを、トライフォン列Ｂを構成する残りのトライフォンより軽減して、トライフォン列Ｂとトライフォン列Ａに含まれる部分列とのコストＺを算出し、算出されたコストＺが最も小さい部分列を、トライフォン列Ａから抽出する。
【００５８】
例えば、探索部６７は、トライフォン列Ｂの最初のバイフォン「ｓｈ＋ｉ」と、これに対応するトライフォン列Ａのトライフォンとの距離ｄに１／２を乗じた値と、トライフォン列Ｂの最後のバイフォン「ｒ−ｉ」と、これに対応するトライフォン列Ａのトライフォンの距離ｄに１／２を乗じた値を算出する。探索部６７は、この算出した値を用いて、連続ＤＰマッチングを行う。そして、探索部６７は、トライフォン列Ｂとトライフォン列Ａに含まれる部分列とのコストＺを算出し、算出されたコストＺが最も小さい部分列を抽出する。
【００５９】
次に、本実施形態における音声検索装置１００による音声検索処理のフローについて詳細に説明する。本実施形態に係る音声検索処理のフローは、上記実施形態１に係る音声検索処理における探索処理（ステップＳ３）が異なる。以下では、図１３を参照しながら、本実施形態の探索処理について、上記実施形態１と異なる部分を主に説明する。
【００６０】
探索部６７は、トライフォン列Ｂとトライフォン列Ａとで連続ＤＰマッチングを行う（ステップＳ４１）。ただし、コストＺの算出では、探索部６７は、トライフォン列Ｂの最初及び最後のバイフォンとトライフォン列Ａのトライフォンとの距離ｄに１／２を乗じる。続いて、探索部６７は、コストＺが最も小さい部分列を抽出する（ステップＳ４２）。そして、音声検索装置１００は、音声検索処理に戻り、ステップＳ４を実行して、音声検索処理を終了する。
【００６１】
以上説明したように、本実施形態によれば、コストの算出における、トライフォン列Ｂの最初及び最後のバイフォンとトライフォン列Ａのトライフォンとの距離の重みを軽減する。こうすることで、トライフォン列Ｂの最初及び最後のバイフォンの音素数がトライフォン列Ａのトライフォンの音素数と一致しないことによるコストＺの増加を小さくすることができる。この結果、検索精度が高まる。
【００６２】
また、上記各実施形態において、探索部６７は、コストが所定の閾値未満であること及びコストが小さい順に所定順位内にあることのいずれかを所定の条件として、部分列を抽出してもよいとした。こうすることで、検索語に合致又は類似する部分列が複数抽出され場合には、ユーザは複数の検索結果を確認できる。
【００６３】
また、上記各実施形態では、類似度を連続ＤＰマッチングで算出するようにした。これにより、類似度を効率的に算出できる。
【００６４】
また、上記各実施形態では、音素モデルをトライフォンとした。トライフォンを用いずに、音素で表現すると、例えば音素「ｒ」は、前側直近と後側直近の音素に関わらず「ｒ」と表現される。一方、トライフォンを用いると、同じ音素「ｒ」でも、例えば「ｏ−ｒ＋ｉ」のように、前側直近の音素が「ｏ」、前側直近の音素が「ｉ」であるという情報を含めて表現することができる。このように、トライフォンは、より多くのデータ量を含むため、より精密に音素を表現することができ、検索精度が向上する。
【００６５】
なお、音声データ記憶部６１に記憶される検索対象の音声データは、ＣＰＵ６がＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等の媒体から読み込むようにしてもよいし、インターネット回線を介してサーバ等からダウンロードするようにしてもよい。また、音声データのデータ形式は、ＷＡＶＥ形式、ＡＩＦＦ（Audio Interchange File Format）形式等であってもよい。
【００６６】
なお、検索語は、「信号処理」等の単語に限らず、複数の単語を含むキーワード、語句等であってもよい。
【００６７】
なお、探索部６７は、トライフォン列Ｂの最初及び最後のバイフォンのいずれか一方を除いたトライフォン列をトライフォン列Ｃとして生成してもよい。
【００６８】
なお、上記実施形態２における、トライフォン列Ｂを構成するトライフォンの数の閾値は、十個以上二十個未満が好ましく、十数個がより好ましい。
【００６９】
また、入力部６４は、入力装置４を介して入力された検索語としての音声データに対して音声認識処理等をしてもよい。入力部６４は、音声認識処理によって音声データが変換されたテキストデータを検索語取得部６６に入力する。より具体的には、入力装置４は、例えば、マイクロフォンを備え、入力部６４は、マイクロフォンに対してユーザが発声した「信号処理」に対応する音声データを、音声認識処理によってテキストデータに変換して、検索語取得部６６に入力する。こうすることで、ユーザは、検索語を発声して入力することができるので、さらに利便性が向上する。
【００７０】
なお、上記各実施形態では、探索部６７は、抽出された部分列を構成するトライフォンの内、最初のトライフォンの再生開始時間を出力部６９に出力するようにした。こうすることで、ユーザが、表示された再生開始時間を指定して音声データの再生を指示することによって、検索語に合致する部分から音声データを再生することができる。また、探索部６７は、トライフォン列記憶部６３に記憶された情報テーブルを参照して、抽出された部分列とその前後数秒とを含む音声データをトライフォン列記憶部６３から取得し、当該音声データを出力部６９に出力してもよい。この場合、出力部６９は、探索部６７から出力された音声データを、出力装置５が備えるスピーカを介して出力する。こうすることで、ユーザは、検索結果を確認する上で、検索語に合致する音声の前後を含めて確認できるので、利便性がさらに高まる。
【００７１】
また、探索部６７は、抽出された部分列とその前後数秒とを含む音声データとともに抽出された部分列における最初のトライフォンの再生開始時間を出力部６９に出力してもよい。この場合、探索部６７は、所定の条件を満たす複数の部分列における最初のトライフォンの再生開始時間を出力してもよい。探索部６７は、コストＸが小さい上位、例えば、５つの部分列の再生開始時間、及び各再生開始時間に対応付けられたその部分列とその前後数秒とを含む音声データを出力部６９に出力してもよい。この場合、出力部６９によって、上位５つの部分列の再生開始時間が画面に表示される。さらに、出力部６９は、標示された上位５つの部分列の再生開始時間のうち、ユーザによって選択された再生開始時間に対応する音声データを出力するようにしてもよい。
【００７２】
また、探索部６７は、検索対象の音声データが複数であった場合に、抽出された部分列を含む音声データのデータ名を音声データ記憶部６１から取得して、出力部６９に出力してもよい。この場合、出力部６９は、探索部６７から出力された音声データのデータ名を、画面に表示する。
【００７３】
また、探索部６７は、経路を遡る処理を省略し、ｉ＝７の各ノードのうち、コストＸが最も小さいノードから所定数のノードに対応するトライフォンを含む部分列を抽出してもよい。このように経路を遡る処理を省略すると、部分列を概略的に抽出することになるが、部分列の抽出に要する計算量を抑えることができる。
【００７４】
なお、上記各実施形態では、音素の特徴量を、音素の波形データの周波数帯域における短時間スペクトルとしたが、音素の特徴量は、音素の周波数帯域における短時間スペクトルの対数値等であってもよい。
【００７５】
また、検索対象取得部６２、検索語取得部６６は、検索対象の音声データ及び検索語が変換された音素列に基づいてバイフォン列をそれぞれ生成してもよい。この場合、最初の音素の前側直近、及び最後の音素の後側直近に音素がないため、最初及び最後の音素モデルは、「ｓｈ」と「ｉ」のように１音素のみのモノフォンとなる。探索部６７は、検索語のバイフォン列の最初及び最後のモノフォン（「ｓｈ」、「ｉ」）を除いたバイフォン列と検索対象のバイフォン列に含まれる部分列とで連続ＤＰマッチングを行えばよい。
【００７６】
また、上記各実施形態では、トライフォン間の距離ｄを、そのトライフォンに含まれる３つの音素間の距離の平均としたが、トライフォンの中心音素間の距離の重みを大きくして算出した３つの音素間の距離の重み付け平均としてもよい。
【００７７】
なお、音声検索装置１００は、テレビ受像機、地上デジタル放送受信機、録画装置、録音装置、ＰＣ（Personal Computer）、携帯電話機等の携帯端末、ＰＨＳ（Personal Handy-phone System）、ＰＤＡ（Personal Digital Assistant又はPersonal Data Assistance）、ゲーム機等であってもよい。
【００７８】
なお、上記各実施形態において、実行されるソフトウェアプログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory）、ＤＶＤ、ＭＯ（Magneto-Optical disc）等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのソフトウェアプログラムをインストールすることにより、上述の処理を実行するシステムを構成することとしてもよい。
【００７９】
また、ソフトウェアプログラムをインターネット等の通信ネットワーク上の所定のサーバ装置が有するディスク装置等に格納しておき、例えば、搬送波に重畳させて、ダウンロード等するようにしてもよい。
【００８０】
また、上述の機能を、ＯＳが分担して実現する場合又はＯＳとアプリケーションソフトウェアプログラムとの協働により実現する場合等には、ＯＳ以外の部分のみを媒体に格納して配布してもよく、また、ダウンロード等してもよい。
【００８１】
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲が含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
【００８２】
（付記１）
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルを除く音素モデル列である第３の音素モデル列と前記第１の音素モデル列に含まれる部分列との第１の類似度を算出し、算出された前記第１の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部と、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部と、
を備える音声検索装置。
【００８３】
（付記２）
前記探索部は、
前記第２の音素モデル列を構成する前記音素モデルの数が閾値未満である場合には、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との第２の類似度を算出し、算出された前記第２の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する、
ことを特徴とする付記１に記載の音声検索装置。
【００８４】
（付記３）
前記探索部は、
前記第１の類似度及び前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との第２の類似度を両方算出し、前記第１、第２の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する、
ことを特徴とする付記１に記載の音声検索装置。
【００８５】
（付記４）
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルの重みを、前記第２の音素モデル列を構成する残りの音素モデルより軽減して、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との類似度を算出し、算出された前記類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部と、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部と、
を備える音声検索装置。
【００８６】
（付記５）
前記探索部は、
前記類似度が所定の閾値以上であること及び前記類似度が高い順に所定順位内にあることのいずれかを前記所定の条件として、前記部分列を抽出する、
ことを特徴とする付記１乃至４のいずれかに記載の音声検索装置。
【００８７】
（付記６）
前記探索部は、
前記類似度を連続ＤＰマッチングで算出する、
ことを特徴とする付記１乃至５のいずれかに記載の音声検索装置。
【００８８】
（付記７）
前記音素モデルは、
中心音素とその中心音素の前側直近の音素と後側直近の音素とを含むトライフォンである、
ことを特徴とする付記１乃至６のいずれかに記載の音声検索装置。
【００８９】
（付記８）
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得工程と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得工程と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルを除く音素モデル列である第３の音素モデル列と前記第１の音素モデル列に含まれる部分列との第１の類似度を算出し、算出された前記第１の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索工程と、
前記探索工程において抽出された前記部分列に対応する前記音声データに関する情報を出力する出力工程と、
を含む音声検索方法。
【００９０】
（付記９）
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得工程と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得工程と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルの重みを、前記第２の音素モデル列を構成する残りの音素モデルより軽減して、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との類似度を算出し、算出された前記類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索工程と、
前記探索工程において抽出された前記部分列に対応する前記音声データに関する情報を出力する出力工程と、
を含む音声検索方法。
【００９１】
（付記１０）
コンピュータを、
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルを除く音素モデル列である第３の音素モデル列と前記第１の音素モデル列に含まれる部分列との第１の類似度を算出し、算出された前記第１の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部、
として機能させるプログラム。
【００９２】
（付記１１）
コンピュータを、
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルの重みを、前記第２の音素モデル列を構成する残りの音素モデルより軽減して、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との類似度を算出し、算出された前記類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部、
として機能させるプログラム。
【符号の説明】
【００９３】
１…ＲＯＭ、２…ＲＡＭ、３…外部記憶装置、４…入力装置、５…出力装置、６…ＣＰＵ、６１…音声データ記憶部、６２…検索対象取得部、６３…トライフォン列記憶部、６４…入力部、６５…変換テーブル記憶部、６６…検索語取得部、６７…探索部、６８…トライフォン間距離記憶部、６９…出力部、１００…音声検索装置

【特許請求の範囲】
【請求項１】
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルを除く音素モデル列である第３の音素モデル列と前記第１の音素モデル列に含まれる部分列との第１の類似度を算出し、算出された前記第１の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部と、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部と、
を備える音声検索装置。
【請求項２】
前記探索部は、
前記第２の音素モデル列を構成する前記音素モデルの数が閾値未満である場合には、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との第２の類似度を算出し、算出された前記第２の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する、
ことを特徴とする請求項１に記載の音声検索装置。
【請求項３】
前記探索部は、
前記第１の類似度及び前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との第２の類似度を両方算出し、前記第１、第２の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する、
ことを特徴とする請求項１に記載の音声検索装置。
【請求項４】
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルの重みを、前記第２の音素モデル列を構成する残りの音素モデルより軽減して、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との類似度を算出し、算出された前記類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部と、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部と、
を備える音声検索装置。
【請求項５】
前記探索部は、
前記類似度が所定の閾値以上であること及び前記類似度が高い順に所定順位内にあることのいずれかを前記所定の条件として、前記部分列を抽出する、
ことを特徴とする請求項１乃至４のいずれか一項に記載の音声検索装置。
【請求項６】
前記探索部は、
前記類似度を連続ＤＰマッチングで算出する、
ことを特徴とする請求項１乃至５のいずれか一項に記載の音声検索装置。
【請求項７】
前記音素モデルは、
中心音素とその中心音素の前側直近の音素と後側直近の音素とを含むトライフォンである、
ことを特徴とする請求項１乃至６のいずれか一項に記載の音声検索装置。
【請求項８】
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得工程と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得工程と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルを除く音素モデル列である第３の音素モデル列と前記第１の音素モデル列に含まれる部分列との第１の類似度を算出し、算出された前記第１の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索工程と、
前記探索工程において抽出された前記部分列に対応する前記音声データに関する情報を出力する出力工程と、
を含む音声検索方法。
【請求項９】
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得工程と、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得工程と、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルの重みを、前記第２の音素モデル列を構成する残りの音素モデルより軽減して、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との類似度を算出し、算出された前記類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索工程と、
前記探索工程において抽出された前記部分列に対応する前記音声データに関する情報を出力する出力工程と、
を含む音声検索方法。
【請求項１０】
コンピュータを、
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルを除く音素モデル列である第３の音素モデル列と前記第１の音素モデル列に含まれる部分列との第１の類似度を算出し、算出された前記第１の類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部、
として機能させるプログラム。
【請求項１１】
コンピュータを、
検索対象の音声データに含まれる各音素を中心音素とし、中心音素とその音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第１の音素モデル列を取得する検索対象取得部、
前記音声データに対して検索する検索語を音素列に変換し、変換した音素列を構成する各音素を中心音素とし、中心音素とその中心音素の前側直近の音素及び後側直近の音素の少なくとも一方とを含む音素モデルが時系列順に配列された第２の音素モデル列を取得する検索語取得部、
前記第２の音素モデル列の最初及び最後の少なくとも一方の音素モデルの重みを、前記第２の音素モデル列を構成する残りの音素モデルより軽減して、前記第２の音素モデル列と前記第１の音素モデル列に含まれる部分列との類似度を算出し、算出された前記類似度が所定の条件を満たす部分列を、前記第１の音素モデル列から抽出する探索部、
前記探索部により抽出された前記部分列に対応する前記音声データに関する情報を出力する出力部、
として機能させるプログラム。

【図１】