説明

音声認証装置

【課題】 より認証性能を高める。
【解決手段】 第1の音響分析部102からの特徴パラメータを使用し、正規化用話者HMM音響モデル作成部114において、所定のアルゴリズムに従って、HMM音響モデルの学習が行われ、2次元空間写像部115により、2次元音響空間に写像され、ゾーン分割部116によりゾーン分割される。そして、正規化用ゾーンHMM音響モデル作成部117により、各ゾーンについて、そのゾーンに属する正規化用話者の特徴パラメータが正規化用話者特徴パラメータ記憶部113から読み出され、所定のアルゴリズムに従って、HMM音響モデルの作成が行われ、正規化用HMM音響モデル記憶部104に記憶される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声に基づき認証を行う音声認証装置に関する。
【背景技術】
【0002】
従来から、本人かどうかを、話者が発声した音声に含まれる特徴パラメータと、登録話者の特徴パラメータの標準パターンとの類似度に基づき判定することが行われており、この方法においては、話者の音声を入力するためのマイクロホンや、音声信号を伝送するための伝送系が異なると、この類似度が変動することがあるので、この影響を低減するため、例えば、本人とは別の話者の予め用意した標準パターン(以下「正規化用標準パターン」という。)との類似度を用いて本人の類似度を正規化することが行われている。従来法の処理フローの一例を図2に示す。
【0003】
図2において、201は認証用話者の音声データ、202はID等の話者を特定する情報、204は予め用意された正規化用標準パターン、205は予め登録された話者の標準パターンである。
【0004】
203において音響分析が行われ、音声波形は一定時間間隔で分析されて例えばケプストラム等の短時間の音響的特長をあらわす特徴パラメータに変換される。206において、正規化用標準パターン204と特徴パラメータに変換された認証用話者音声データから、正規化用標準パターンに対する認証用話者音声データの類似度である正規化用類似度が計算される。また、207において、ID等の個人情報202と、登録話者標準パターン205と、特徴パラメータに変換された認証用話者の音声データから、登録話者標準パターンに対する認証用話者音声データの類似度である登録話者類似度が計算される。
【0005】
208において登録話者類似度は正規化用類似度で正規化され、209において正規化された類似度と予め定めた閾値とが比較され、登録した本人かどうか判定される。
【0006】
図2に示した従来法において、認証用話者音声データに対してより高い類似度を示す標準パターンを正規化用標準パターンとすることで、音声認証性能が安定することが知られており、いくつかの方式が提案されている。(例えば、特許文献1、特許文献2参照。)
【0007】
特許文献1による方法を図3に示す。登録者を含めた複数の話者の音声データを正規化用話者音声データ301とし、全ての正規化用話者毎に、第1の音響分析302により特徴パラメータに変換された音声データから、303、304において正規化用標準パターン305を作成して記憶する。認証用話者音声データが入力される毎に、第1の音響分析302と同様の第2の音響分析306により特徴パラメータに変換し、307において、全ての正規化用標準パターン305との類似度を計算してこれを正規化用類似度とする。
【0008】
また、207において、ID等の個人情報202と、登録話者標準パターン205と、特徴パラメータに変換された認証用話者の音声データから、登録話者標準パターンに対する認証用話者音声データの類似度である登録話者類似度を計算する。308において前記正規化用類似度の上位n位(nは1以上)から平均類似度を計算して、この平均類似度により登録話者類似度を正規化し、209において正規化された類似度と予め定めた閾値と比較して登録した本人かどうか判定する。
【0009】
特許文献2による方法を図4に示す。全ての登録者の音声データを正規化用話者音声データ401とし、第1の音響分析402により特徴パラメータに変換された全ての登録者の音声データから、403、404において全ての登録者に対応した正規化用標準パターン405を1つ作成して記憶する。認証用話者音声データが入力される毎に、第1の音響分析402と同様の第2の音響分析406により特徴パラメータに変換し、407において全ての登録者に対応した1つの正規化用標準パターン405との類似度を計算してこれを正規化用類似度とする。また、207において、ID等の個人情報202と、登録話者標準パターン205と、特徴パラメータに変換された認証用話者の音声データから、登録話者標準パターンに対する認証用話者音声データの類似度である登録話者類似度を計算する。408において前記正規化用類似度により登録話者類似度を正規化し、209において正規化された類似度と予め定めた閾値と比較して登録した本人かどうか判定する。
【0010】
【特許文献1】特許第3113408号公報
【特許文献2】特開平7−271392号公報
【非特許文献1】古井著「音声情報処理」森北出版
【非特許文献2】中川著「確率モデルによる音声認識」電子情報通信学会
【発明の開示】
【発明が解決しようとする課題】
【0011】
特許文献1による方法では、正規化用話者の数を増やすことにより、認証性能の向上が期待できるが、正規化に要する計算量も正規化用話者の数に比例するため、このような方法を、CPU能力に制約がありかつ実時間性が要求される組み込み機器、例えば、携帯電話、家電製品、ICカードリーダーなどの用途に適応するのは困難である。
【0012】
一方、特許文献2による方法では、正規化用話者の音響的特徴を表現する1つの代表的な標準パターンを作成してこれを正規化用標準パターンとして使用するため、正規化用話者の数をNとすると、正規化に要する計算量は特許文献1の方法に比べ1/Nとなるが、1つの代表的な正規化用標準パターンで、多様な正規化用話者の音響的特徴を表現することは困難であり、認証性能を高めることができなかった。
【0013】
そこで、本発明は、標準パターンとしてHMM(Hidden Markov Model)音響モデルを用い、類似度として入力音声に対するHMM音響モデルの尤度を用いた場合において、上記のような問題点を解決し、実時間性を有しつつ、多様な音声の特徴を十分に表現でき、より認証性能を高めることができる音声認証装置を提供することを目的とする。
【課題を解決するための手段】
【0014】
請求項1の発明は、少なくとも、
認証対象である話者を識別するための個人情報を入力するための個人情報入力部と、前記認証対象である話者の音声を入力するための認証用音声データ入力部と、
該認証用音声データ入力部からの音声波形を一定時間間隔で分析して短時間の音響的特徴を表す特徴パラメータに変換する音響分析部と、
予め登録された話者のHMM音響モデルが記憶されている登録話者HMM音響モデル記憶部と、
該登録話者HMM音響モデル記憶部からのHMM音響モデルと、前記個人情報入力部からの認証対象である話者の個人情報と、前記音響分析部からの特徴パラメータとから、登録話者尤度を計算する登録話者尤度計算部と、
予め正規化用話者音声を分析して正規化用HMM音響モデルを作成する正規化用HMM音響モデル作成部と、
該正規化用HMM音響モデル作成部で作成された正規化用HMM音響モデルを記憶する正規化用HMM音響モデル記憶部と、
該正規化用HMM音響モデル記憶部からのHMM音響モデルと、前記音響分析部からの特徴パラメータとから、正規化用尤度を計算する正規化用尤度計算部と、
前記登録話者尤度計算部で計算された登録話者尤度を、前記正規化用尤度計算部で計算された正規化用尤度で正規化する尤度正規化部と、
該尤度正規化部で計算された正規化尤度と予め与えられた閾値とを比較することにより、登録した本人かどうか判定を行う判定部と、
を備える音声認証装置において、
前記正規化用HMM音響モデルが2次元空間上で分割された複数のゾーン毎の正規化用HMM音響モデルであることを特徴とする。
【0015】
請求項1の発明において、前記正規化用HMM音響モデル作成部は、音響分析された正規化用話者音声データから作成された正規化用話者毎のHMM音響モデルを2次元空間に写像する2次元空間写像部と、該2次元空間写像部の写像された正規化用特定話者HMM音響モデルの分布を基に、2次元空間を予め定めた複数のゾーンに分割するゾーン分割部とを有することを特徴とする。
【0016】
請求項1又は2の発明において、2次元空間への写像をSammon法により行うことができる。
【0017】
請求項1又は2の発明において、尤度正規化部は、2次元空間上で分割された複数のゾーン毎に正規化用HMM音響モデルを使用して計算された複数の正規化用尤度の中で、最大のものを選択して、前記登録話者尤度計算部からの登録話者尤度を正規化することができる。
【0018】
請求項1乃至4のいずれかの発明において、正規化用HMM音響モデル作成部から出力される正規化用HMM音響モデルのうち、無音に対応したHMM音響モデルを除く、全HMM音響モデルの分散値に、スケールファクタとして1から2の間の実数を乗じる分散値調整部を備えることができる。
【発明の効果】
【0019】
請求項1に係る発明によれば、2次元空間上における正規化用話者の分布を基に複数のゾーンに分割し、分割されたゾーン毎に、ゾーンに含まれる正規化用話者の特徴パラメータに変換された音声データを学習データとして、正規化用HMM音響モデルの生成を行うことにより、少ない正規化用HMM音響モデルで、効率的で精度よく正規化用話者全体手の特徴を表現することができ、少ない計算量で、性能よく、本人かどうかの認証を行うことができる。
【0020】
また、請求項2に係る発明によれば、上記のように構成したので、少ない正規化用HMM音響モデルで、さらに広い正規化用話者音響空間を表現することができる。
【発明を実施するための最良の形態】
【0021】
以下、本発明の実施の形態を図面を参照して詳細に説明する。
【0022】
<第1の実施の形態>
図1は本発明の第1の実施の形態を示す。これは音声認証装置の例である。図1において、101は正規化用話者音声データ入力部であって、マイクロホンを有するものであり、このマイクロホンに、正規化用HMM音響モデルを作成するための音声が入力される。102は第1の音響分析部であり、正規化用話者音声データ入力部101からの音声波形を、一定時間間隔で分析し、例えば非特許文献1に記載のケプストラム等の短時間の音響的特徴を表す特徴パラメータに変換するものである。
【0023】
103は正規化用HMM音響モデル作成部であり、第1の音響分析部102からの特徴パラメータを使用して、例えば非特許文献2に記載のForward-Backwardアルゴリズムに従って、正規化用HMM音響モデルを作成する。ここで、正規化用HMM音響モデル作成部103の内部構成について説明する。
【0024】

【0025】
【数1】

【0026】
【数2】

【0027】

【0028】
116はゾーン分割部であり、2次元空間写像部115により写像された正規化用話者の分布を基に、例えば、統計処理を使用して、各ゾーンがほぼ同数の正規化用話者を含むように、2次元音響空間を複数のゾーンに分割するものである。2次元音響空間がゾーン1ないしゾーン5の5つのゾーンに分割された例を図6に示す。この統計的処理においては、1つの正規化用話者が複数のゾーンに属することを禁止するものではないから、1つの正規化用話者が複数のゾーンに属することもあり、この場合、隣り合うゾーンどうしが重なり合うことになる。その例を図7に示す。
【0029】
117は正規化用ゾーンHMM音響モデル作成部であり、ゾーン分割部116により分割された各ゾーンごとに、そのゾーンに属する正規化用話者の特徴パラメータを正規化用話者特徴パラメータ記憶部113から読み出し、例えば非特許文献2に記載のForward-backwardアルゴリズムに従って、HMM音響モデルを作成するものである。104は正規化用HMM音響モデル記憶部であり、正規化用HMM音響モデル学習部103により作成された正規化用HMM音響モデルを記憶するものである。
【0030】
105は認証用音声データ入力部であって、マイクロホンを有するものであり、このマイクロホンに話者の音声が入力される。106は個人ID入力部であり、話者を特定する情報、例えばIDを入力するためのものである。
【0031】
107は第2の音響分析部であって、その構成が音響分析部102と同様であり、認証用音声データ入力部105からの音声波形を、一定時間間隔で分析し、例えば非特許文献1に記載されているケプストラム等の短時間の音響的特徴を表す特徴パラメータに変換するものである。なお、第1の音響分析部102と第2の音響分析部107を1つにまとめても良い。108は登録話者HMM音響モデル記憶部であり、予め登録された話者のHMM音響モデルを記憶するものである。
【0032】
109は正規化用尤度計算部であり、正規化用HMM音響モデル記憶部104から、各分割ゾーンに対応したHMM音響モデルを読み出し、第2の音響分析部107からの特徴パラメータとの尤度である正規化用尤度を計算するものである。110は登録話者尤度計算部であり、個人ID入力部106からの話者を特定する情報に基づき、登録話者HMM音響モデル記憶部108から、指定された登録話者の尤度計算に必要なHMM音響モデルを読み出し、第2の音響分析部107からの特徴パラメータとの尤度である登録話者尤度を計算する。
【0033】
111は尤度正規化部であり、正規化用尤度計算部109からの正規化用尤度の中で最大のものを選択し、登録話者尤度計算部110により計算された登録話者尤度を、選択された最大の正規化用尤度で正規化するものである。尤度正規化部111においては尤度が対数値の場合は差分をとり、尤度が対数値でない場合は比をとる。112は判定部であり、尤度正規化部111により正規化された尤度と、予め定めた閾値との比較し、比較結果に基いて、登録した本人かどうかを判定するものである。
【0034】
次に、音声認証装置の動作を説明する。まず、正規化用HMM音響モデルの作成について説明すると、この正規化用HMM音響モデルの作成においては、例えば1171名近くの話者が、ATR5240の単語セット中の176単語からなる複数の単語セットを発声するものとし、その発声は、正規化用話者音声データ入力部101のマイクロホンに向けて行われる。
【0035】
これら話者の音声波形は、正規化用話者音声データ入力部101を介して、第1の音響分析部102に供給され、第1の音響分析部102において、一定時間間隔で分析され、例えば非特許文献1に記載のケプストラム等の短時間の音響的特徴を表す特徴パラメータに変換され、特徴パラメータに変換された正規化用話者音声データは、正規化用話者特徴パラメータ記憶部113に記憶されるとともに、正規化用話者HMM音響モデル作成部114に供給される。
【0036】

【0037】
【数3】

【0038】
【数4】

【0039】

【0040】
この2次元音響空間は、写像された正規化用話者の分布を基に、統計的処理を使用して、各ゾーンに属する正規化用話者の人数がほぼ同数になるように、ゾーン分割部116によりゾーン分割される。例えば、2次元音響空間に写像された正規化用話者の分布が図5に示したようになっている場合には、この2次元音響空間は例えば図6に示したように5つのゾーンに分割されることになる。
【0041】
そして、正規化用ゾーンHMM音響モデル作成部117により、ゾーン分割部116により分割された各ゾーン、例えば図6に示した5つのゾーンについて、それぞれ、そのゾーンに属する正規化用話者の特徴パラメータが正規化用話者特徴パラメータ記憶部113から読み出され、例えば非特許文献2に記載のForward-backwardアルゴリズムに従って、正規化用HMM音響モデルが作成され、正規化用HMM音響モデル記憶部104に記憶される。
【0042】
次に、本音声認証装置による音声認証方法を説明する。個人ID入力部106からIDが入力され、認証の対象となる音声が認証用音声データ入力部105を介して入力されると、認証用話者音声データ入力部105を介して入力された音声波形が、一定時間間隔で分析され、例えば非特許文献1に記載されているケプストラム等の短時間の音響的特徴を表す特徴パラメータに変換される。
【0043】
一方で、正規化用尤度計算部109により、正規化用HMM音響モデル記憶部104から、各分割ゾーンに対応した、尤度計算に必要なHMM音響モデルが読み出されて、第2の音響分析部107からの特徴パラメータとの尤度である正規化用尤度が計算される。
【0044】
他方で、登録話者尤度計算部110により、個人ID入力部106からの話者を特定する情報に基づき、登録話者HMM音響モデル記憶部108から、指定された登録話者の尤度計算に必要なHMM音響モデルが読み出されて、第2の音響分析部107からの特徴パラメータとの尤度である登録話者尤度が計算される。
【0045】
そして、尤度正規化部111において、まずゾーン分割数分の正規化用尤度の中で最大のものが選択され、次に登録話者尤度計算部110により計算された登録話者尤度が、前記の選択された正規化用尤度で正規化され、正規化された尤度と、予め定めた閾値とが、判定部112により比較され、比較結果に基いて、登録した本人かどうかが判定される。
【0046】
<第2の実施の形態>
図8は本発明の第2の実施の形態を示す。本実施の形態は、第1の実施の形態との比較でいえば、正規化用HMM音響モデル作成部103により計算されたHMM音響モデルの分散値を調整して、認証性能をさらに向上させるようにした点が異なる。
【0047】
すなわち、本実施の形態においては、正規化用HMM音響モデル作成部103により計算された全HMM音響モデルのうちの、無音に対応したHMM音響モデルを除いた残りのHMM音響モデルの分散値に、分散値調整部801により、スケールファクタ(1から2の間の実数)を乗じ、得られた正規化用HMM音響モデルを正規化用HMM音響モデル記憶部104に記憶するようにした。ここで、スケールファクタは、例えばゾーン分割部116により設定されたゾーンの2次元全音響空間に対するカバー率を基に設定される。ここで、カバー率とは、当該ゾーンの面積の2次元全音響空間の面積に対する比をいう。
【0048】
正規化用HMM音響モデル作成部103により計算された全HMM音響モデルのうちの、無音に対応したHMM音響モデルを除いた残りのHMM音響モデルが、例えば図9に示すようになっていた場合に、これらHMM音響モデルの分散値に、分散値調整部801により、スケールファクタ(1から2の間の実数)を乗じると、例えば図10に示すようになる。
【実施例】
【0049】
認証評価を次のようにして行った。図11はこの認証評価に用いた音声データの諸元をテーブルにして示し、図12は正規化用HMM音響モデルの作成に用いた諸元をテーブルにして示す。
【0050】
正規化用話者HMM音響モデルを、男女別に、高次元空間上のベクトル情報の相互距離の総和と、低次元空間上の写像位置座標の相互ユークリッド距離の総和の差が最小となるように、最急降下法などの最適化手法により低次元空間上の写像位置座標を最適化する手法であるSammon法により、2次元音響空間に写像した後、図7に示したように、4つのゾーンに分割し、正規化用HMM音響モデルを作成した。これを以下「正規化用音響モデル3」という。
【0051】
比較用に、男女ごとに正規化用話者の全音声データを使用して学習した正規化用HMM音響モデル(以下「正規化用音響モデル1」という。)と、正規化用話者を男女ごとに乱数的に4グループに分け、グループごとに正規化用話者の音声データを使用して学習した正規化用HMM音響モデル(以下「正規化用音響モデル2」という。)を用意した。
【0052】
また、第2の実施の形態に係る方法の評価用に、無音に対応したHMM音響モデルを除く正規化用音響モデル3の全HMM音響モデルの分散値にスケールファクタとして1.6を乗じた正規化用HMM音響モデルを作成した。これを以下「正規化用音響モデル4」という。
【0053】
認証方式は、データセット1を用いて登録話者HMM音響モデルを作成し、図11のデータセット2とデータセット3を認証用話者音声データとして、閾値と本人棄却率(本人の音声を棄却する誤り率)、詐称者受理率(他人の音声を受理する誤り率)の関係を求め、等誤り率(本人棄却率と詐称者受理率が等しくなる閾値における誤り率)で評価を行った。
【0054】
このようにして得られた評価結果は、図13に示すようになり、正規化用HMM音響モデルの数を2から8に増やした方が認証性能が向上し、さらに、同一数の正規化用HMM音響モデルでも、第1の実施の形態に係る正規化用HMM音響モデルを使用した方が、認証性能が良くなった。
【図面の簡単な説明】
【0055】
【図1】本発明の第1の実施の形態を示すブロック図である。
【図2】従来の方法の一例を示す図である。
【図3】従来の方法の別の例を示す図である。
【図4】従来の方法のさらに別の例を示す図である。
【図5】ゾーン分割の一例を示す図である。
【図6】ゾーン分割の別の例を示す図である。
【図7】本発明の第2の実施の形態を示すブロック図である。
【図8】複数の正規化用話者HMM音響モデルの2次元平面への写像を説明するための説明図である。
【図9】分散値調整前のHMM音響モデルの分散例を示す図である。
【図10】分散値調整後のHMM音響モデルの分散例を示す図である。
【図11】認証評価に用いた音声データの諸元をテーブルにして示す図である。
【図12】正規化用HMM音響モデル作成に用いた音声データの諸元をテーブルにして示す図である。
【図13】正規化用HMM音響モデルと等誤り率との関係の一例を示す図である。
【図14】2次元音響空間において、複数の正規化用話者HMM音響モデルを、1つの不特定話者HMM音響モデルを使用して表現した一例を示す図である。
【符号の説明】
【0056】
101 正規化用話者音声データ入力部
102 第1の音響分析部
103 正規化用HMM音響モデル作成部
104 正規化用HMM音響モデル記憶部
105 認証用音声データ入力部
106 個人ID入力部
107 第2の音響分析部
108 登録話者HMM音響モデル記憶部
109 正規化用尤度計算部
110 登録話者尤度計算部
111 尤度正規化部
112 判定部
113 正規化用話者特徴パラメータ記憶部
114 正規化用話者HMM音響モデル作成部
115 2次元空間写像部
116 ゾーン分割部
117 正規化用ゾーンHMM音響モデル作成部
201 認証用音声データ
202 個人ID
801 分散値調整部

【特許請求の範囲】
【請求項1】
少なくとも
認証対象である話者を識別するための個人情報を入力するための個人情報入力部と、
前記認証対象である話者の音声を入力するための認証用音声データ入力部と、
該認証用音声データ入力部からの音声波形を一定時間間隔で分析して短時間の音響的特徴を表す特徴パラメータに変換する音響分析部と、
予め登録された話者のHMM(Hidden Markov Model)音響モデルが記憶されている登録話者HMM音響モデル記憶部と、
該登録話者HMM音響モデル記憶部からのHMM音響モデルと、前記個人情報入力部からの認証対象である話者の個人情報と、
前記音響分析部からの特徴パラメータとから、登録話者尤度を計算する登録話者尤度計算部と、
予め正規化用話者音声を分析して正規化用HMM音響モデルを作成する正規化用HMM音響モデル作成部と、
該正規化用HMM音響モデル作成部で作成された正規化用HMM音響モデルを記憶する正規化用HMM音響モデル記憶部と、
該正規化用HMM音響モデル記憶部からのHMM音響モデルと、
前記音響分析部からの特徴パラメータとから、正規化用尤度を計算する正規化用尤度計算部と、
前記登録話者尤度計算部で計算された登録話者尤度を、前記正規化用尤度計算部で計算された正規化用尤度で正規化する尤度正規化部と、
該尤度正規化部で計算された正規化尤度と予め与えられた閾値とを比較することにより、登録した本人かどうか判定を行う判定部と、
を備える音声認証装置において、
前記正規化用HMM音響モデルが2次元空間上で分割された複数のゾーン毎の正規化用HMM音響モデルであることを特徴とする音声認証装置。
【請求項2】
請求項1に記載の音声認証装置において、前記正規化用HMM音響モデル作成部は、
音響分析された正規化用話者音声データから作成された正規化用話者毎のHMM音響モデルを2次元空間に写像する2次元空間写像部と、
該2次元空間写像部の写像された正規化用特定話者HMM音響モデルの分布を基に、2次元空間を予め定めた複数のゾーンに分割するゾーン分割部と
を有することを特徴とする音声認証装置。
【請求項3】
請求項1又は2に記載の音声認証装置において、2次元空間への写像をSammon法により行うことを特徴とする音声認証装置。
【請求項4】
請求項1又は2に記載の音声認証装置において、前記尤度正規化部は、2次元空間上で分割された複数ゾーン毎の正規化用HMM音響モデルから計算された複数の正規化用尤度の中で最大のものを選択して、登録話者尤度計算部からの登録話者尤度の正規化に使用することを特徴とする音声認証装置。
【請求項5】
請求項1乃至4のいずれかに記載の音声認証装置において、前記正規化用HMM音響モデル作成部から出力される正規化用HMM音響モデルのうち、無音に対応したHMM音響モデルを除く、全HMM音響モデルの分散値に、スケールファクタとして1から2の間の実数を乗じる分散値調整部を備えたことを特徴とする音声認証装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2006−3452(P2006−3452A)
【公開日】平成18年1月5日(2006.1.5)
【国際特許分類】
【出願番号】特願2004−177439(P2004−177439)
【出願日】平成16年6月15日(2004.6.15)
【出願人】(000000033)旭化成株式会社 (901)
【Fターム(参考)】