音声信号処理装置及び方法
【課題】楽曲の音楽性を損ねることなく、聴感的に聞き取りやすい再生音を得ることができる音声信号処理装置を提供する。
【解決手段】帯域分割フィルタ2a〜2eは、第1の音声信号を複数の周波数帯域に分割して、複数の周波数帯域毎の第2の音声信号を出力する。音圧レベル増幅部3a〜3eは、第2の音声信号を、低音圧レベル領域と高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを低音圧レベル領域側から中間音圧レベル領域内の中間点まで順次大きくし、中間点から高音圧レベル領域側まで順次小さくする増幅特性で増幅する。加算部5は、アンプ4a〜4eの出力を加算して第3の音声信号とする。
【解決手段】帯域分割フィルタ2a〜2eは、第1の音声信号を複数の周波数帯域に分割して、複数の周波数帯域毎の第2の音声信号を出力する。音圧レベル増幅部3a〜3eは、第2の音声信号を、低音圧レベル領域と高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを低音圧レベル領域側から中間音圧レベル領域内の中間点まで順次大きくし、中間点から高音圧レベル領域側まで順次小さくする増幅特性で増幅する。加算部5は、アンプ4a〜4eの出力を加算して第3の音声信号とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号を処理する音声信号処理装置及び方法に係り、特に、聴感的に聞き取りやすい再生音を得ることができる音声信号処理装置及び方法に関する。
【背景技術】
【0002】
聴取者が音声信号を聴取する際、スピーカまたはヘッドホンから発せられる再生音が聴感的に聞き取りやすければ、聴取者は聞き疲れしにくい。従って、音声信号を再生するオーディオ機器としては、聴取者が聞き取りやすいと感じる音を再生することが好ましい。このとき、聞き取りやすい音であったとしても、聴取する楽曲の音楽性を損ねることは好ましくない。
【0003】
従来の音声信号処理装置としては、例えば、特許第3373103号公報(特許文献1),特開2002−281599号公報(特許文献2),特開2000−22469号公報(特許文献3)に記載のものがある。なお、特許文献1,2には音声信号を帯域分割フィルタによって複数の帯域に分割して信号処理を施すことが記載されている。特許文献3には音声信号の過渡応答特性を改善した音声信号処理装置が記載されている。
【特許文献1】特許第3373103号公報
【特許文献2】特開2002−281599号公報
【特許文献3】特開2000−22469号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記特許文献1〜3に記載の発明は、聴感的な聞き取りやすさをある程度改善することはできるが、楽曲の音楽性を損ねてしまうという問題点がある。そこで、楽曲の音楽性を損ねることなく、聴感的に聞き取りやすい再生音を得ることができる音声信号処理装置及び方法の登場が望まれていた。
【0005】
本発明はこのような問題点に鑑みなされたものであり、楽曲の音楽性を損ねることなく、聴感的に聞き取りやすい再生音を得ることができる音声信号処理装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上述した従来の技術の課題を解決するため、第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力する帯域分割フィルタ(2a〜2e)と、前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅する音圧レベル増幅部(3a〜3e)と、前記音圧レベル増幅部によって増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力する加算部(5)とを備えることを特徴とする音声信号処理装置を提供する。
ここで、前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせることが好ましい。
前記音圧レベル増幅部は、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくすることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくすることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定することが好ましい。
さらに、前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、前記音圧レベル増幅部は、複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることが好ましい。
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、前記音圧レベル増幅部は、前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることが好ましい。
前記音圧レベル増幅部は、前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記複数の聴取モードを選択するための操作部と、前記操作部によって選択した聴取モードに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることが好ましい。
さらにまた、前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することが好ましい。
このとき、前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することが好ましい。
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界でよく、好ましくは、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界である。
【0007】
また、本発明は、上述した従来の技術の課題を解決するため、第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力し、前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅し、増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力することを特徴とする音声信号処理方法を提供する。
ここで、前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせることが好ましい。
最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させることが好ましい。
前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくすることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくすることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定することが好ましい。
さらに、前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えることが好ましい。
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えることが好ましい。
前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記複数の聴取モードのいずれかを選択し、選択した聴取モードに応じて前記増幅度の組を切り換えることが好ましい。
さらにまた、前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することが好ましい。
ここで、前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することが好ましい。
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界でよく、好ましくは、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界である。
【発明の効果】
【0008】
本発明の音声信号処理装置及び方法によれば、楽曲の音楽性を損ねることなく、聴感的に聞き取りやすい再生音を得ることができる。聴取者は聞き疲れしにくいので、楽曲の聴取を十分に楽しむことができるオーディオ機器を提供することが可能となる。
【発明を実施するための最良の形態】
【0009】
以下、本発明の音声信号処理装置及び方法の各実施形態について、添付図面を参照して説明する。各実施形態をハードウェア構成のブロック図を用いて説明するが、各実施形態の一部をソフトウェアとして構成してもよい。ソフトウェアとして構成することが可能な部分を全てソフトウェアで構成してもよく、ハードウェアとソフトウェアの使い分けは任意でよい。
【0010】
<第1実施形態>
図1は本発明の音声信号処理装置の第1実施形態を示すブロック図である。第1実施形態の音声信号処理装置100は本発明の音声信号処理装置の各実施形態における基本的な構成を示すものである。図1において、入力端子1に入力されたデジタル音声信号(第1の音声信号)は帯域分割フィルタ2a〜2eに供給される。帯域分割フィルタ2a〜2eは互いの通過周波数帯域が異なる。人間の可聴範囲を20Hz〜20kHzとすると、帯域分割フィルタ2aは例えば20Hz〜200Hzの低域を通過させるフィルタであり、帯域分割フィルタ2bは例えば200Hz〜600Hzの中低域を通過させるフィルタである。帯域分割フィルタ2cは例えば600Hz〜1.8kHzの中域を通過させるフィルタであり、帯域分割フィルタ2dは例えば1.8kHz〜5.4kHzの中高域を通過させるフィルタである。帯域分割フィルタ2eは例えば5.4kHz〜20kHzの高域を通過させるフィルタである。
【0011】
200Hz〜600Hzの中低域は音声の基本波を含む帯域であり、600Hz〜1.8kHzの中域はホルマントを含む帯域であり、1.8kHz〜5.4kHzの中高域は子音成分を含む帯域である。帯域分割フィルタの個数、即ち、音声信号をいくつの帯域に分割するかは任意であり、図1に示す5分割に限定されるものではない。例えば音声信号を3つの帯域に分割する場合は、20Hz〜200Hzの低域と、200Hz〜5.4kHzの中域と、5.4kHz〜20kHzの高域とに分割するのが好ましい。
【0012】
帯域分割フィルタ2a〜2eの後段には、帯域分割フィルタ2a〜2eそれぞれに対応するよう音圧レベル増幅部3a〜3eが設けられている。音圧レベル増幅部3a〜3eとしては、一般的にダイナミックレンジ制御回路(DRC(Dynamic Range Control)回路)と称されている回路を用いることができる。音圧レベル増幅部3a〜3eは帯域分割フィルタ2a〜2eより出力されたそれぞれの音声信号(第2の音声信号)の音圧レベルを後に詳述するよう増幅する。音圧レベル増幅部3a〜3eの内部構成は互いに同一であるが、音圧レベルを増幅する際の増幅特性を音圧レベル増幅部3a〜3eそれぞれで個別に設定している。但し、音圧レベル増幅部3a〜3eにおける増幅特性の全てが互いに異なっている必要はなく、一部で重複した増幅特性であってもよい。
【0013】
音圧レベル増幅部3a〜3eの後段には、音圧レベル増幅部3a〜3eそれぞれに対応するようアンプ4a〜4eが設けられている。アンプ4a〜4eは音圧レベル増幅部3a〜3eより出力されたそれぞれの音声信号を予め定められたゲインで増幅して出力する。アンプ4a〜4eにおけるゲインは基本的には同一でよいが、所望の再生音を得るため一部のアンプのゲインを異ならせてもよいし、周波数帯域毎に異なるゲインを設定してもよい。アンプ4a〜4eは場合によっては削除可能である。アンプ4a〜4eより出力された音声信号は加算部5に入力されて加算され、出力端子6より出力される。加算部5より出力された音声信号(第3の音声信号)は、ここでは図示していないスピーカまたはヘッドホンによって聴取者に聴取される。
【0014】
ここで、図2を用いて音圧レベル増幅部3a〜3eの具体的構成について説明する。図2において、帯域分割フィルタ2a〜2eのいずれかから出力された音声信号はレベル検出部31及び遅延部39に入力される。音圧レベル増幅部3a〜3eに入力される音声信号は、図3に示すように、−100dBFS〜0dBFSの範囲の音圧レベルを有するものとする。FSとはフル・スケールを意味する。レベル検出部31は入力された音声信号が最小音圧レベルの−100dBFSから最大音圧レベルの0dBFSまでのいずれの音圧レベルであるかを検出する。レベル検出部31で検出された入力信号の音圧レベルは動作範囲設定部32及び倍率発生部33に入力される。
【0015】
図3に示すように、最小音圧レベルから最大音圧レベルまでの範囲の内、最小音圧レベルから所定の範囲(例えば−80dBFSまで)の低音圧レベル領域R1と、最大音圧レベルから所定の範囲(例えば−25dBFSまで)の高音圧レベル領域R2とにおいては、入力信号を増幅させない非増幅領域とすることが好ましい。低音圧レベル領域R1と高音圧レベル領域R2とを非増幅領域とすることにより、楽曲の音楽性をほとんど損ねることがない。これは、低音圧レベル領域R1を増幅するとノイズが目立ちやすくなり、高音圧レベル領域R2を増幅すると歪みが発生しやすく、しかも大きな音圧レベルであるので聴感的に目立ちやすいからである。但し、楽曲の音楽性を損ねない程度に、低音圧レベル領域R1と高音圧レベル領域R2で入力信号を増幅させてもよい。
【0016】
低音圧レベル領域R1と高音圧レベル領域R2との間の中間音圧レベル領域R3においては、破線で示す非増幅の状態を実線で示す特性で増幅させた状態とする増幅領域としている。動作範囲設定部32は、どの範囲を非増幅領域とし、どの範囲を増幅領域とするかを設定している。後述するように、音圧レベル増幅部3a〜3eそれぞれの動作範囲設定部32で設定している非増幅領域・増幅領域は同一ではなく、それぞれの動作範囲設定部32で最適な非増幅領域・増幅領域を設定している。
【0017】
図2に戻り、増幅特性設定部34は、変曲点設定部341と増幅度設定部342と増幅特性保持部343とを備えている。図3に示すように、増幅領域である中間音圧レベル領域R3においては、低音圧レベル領域R1の高音圧レベル側の端部である点P1から中間音圧レベル領域R3内の中間点である変曲点Piまでは入力信号の音圧レベルが大きくなるに従って増幅度を順次大きくし、変曲点Piから高音圧レベル領域R2の低音圧レベル側の端部である点P2までは入力信号の音圧レベルが大きくなるに従って増幅度を順次小さくする特性となっている。図3では、点P1から変曲点Piまで線形に増幅度を大きくし、変曲点Piから点P2まで線形に増幅度を小さくする例を示している。変曲点設定部341は、入力信号の音圧レベルのどの位置を変曲点Piとするのかを設定するものである。増幅度設定部342は、変曲点Piの位置における増幅度Gaを設定するものである。
【0018】
増幅特性保持部343には、変曲点設定部341からの変曲点設定データと増幅度設定部342からの増幅度設定データとが入力される。変曲点設定データは変曲点Piの位置(入力音圧レベル)を示す位置情報であり、増幅度設定データは増幅度Gaを決める情報である。本実施形態においては、増幅度設定データは、変曲点Piの位置において、入力信号の音圧レベルを何倍にするのかという倍率を表すデータである。増幅特性保持部343は、変曲点Piよりも低音圧レベル側と高音圧レベル側の増幅特性の傾きデータを有している。増幅特性保持部343は、傾きデータと変曲点設定データと増幅度設定データとを用いて中間音圧レベル領域R3における増幅特性を得るための倍率データを計算により求めて保持している。
【0019】
倍率発生部33は、増幅特性保持部343に保持された倍率データを参照して、レベル検出部31より供給された入力信号の音圧レベルに応じた倍率値を発生する。この倍率値はスイッチ35の端子aに供給される。固定倍率発生部36は1.0の固定倍率値を発生してスイッチ35の端子bに供給する。スイッチ35には動作範囲設定部32から、どの範囲を非増幅領域とし、どの範囲を増幅領域とするかを示す動作範囲設定データが入力される。スイッチ35は動作範囲設定データが非増幅領域を示す場合は端子bを選択し、増幅領域を示す場合は端子aを選択する。これによって、スイッチ35からは最小音圧レベルから最大音圧レベルまでの範囲で入力信号をどのように増幅するかを決める増幅度を示すデータが発生されることとなる。
【0020】
本実施形態においては、好ましい構成例として、スムージングフィルタ37とアタックタイム・リリースタイム設定部38とを設けている。スムージングフィルタ37及びアタックタイム・リリースタイム設定部38を設けることは必須ではないが、設けることが好ましい。アタックタイム・リリースタイム設定部38は後述するアタックタイムとリリースタイムを設定するための設定データを保持している。スムージングフィルタ37はスイッチ35から入力される増幅度に対してアタックタイム及びリリースタイムの設定データに基づいたスムージング処理を施して出力する。このスムージング処理の具体的な動作については後に詳述する。
【0021】
アンプ40には、遅延部39によって遅延された音声信号とスムージングフィルタ37より出力されたスムージング処理が施された増幅度が入力される。アンプ40は、入力された音声信号をスムージングフィルタ37からの増幅度に基づいて増幅して出力する。遅延部39は入力された音声信号を、レベル検出部31からスムージングフィルタ37までの処理に要する時間だけ遅延させてアンプ40に供給する。なお、遅延部39を設けることが望ましいが、遅延部39は必ずしも必要ではない。遅延部39を設けない構成でも、加算部5より出力される音声信号の聴感的な劣化は少ない。
【0022】
以上のようにして、音圧レベル増幅部3a〜3eはそれぞれの周波数帯域の音声信号を音圧レベル増幅部3a〜3eそれぞれの増幅特性に基づいて増幅する。
【0023】
ここで、帯域分割フィルタ2a〜2eにおける低域,中低域,中域,中高域,高域について説明する。図4は人間の標準的な聴力特性(音圧レベルの可聴範囲)を示しており、最小可聴限界と最大可聴限界との間の音圧レベルが音として聞こえる範囲である。図4より分かるように、最小可聴限界の音圧レベルは音声信号の周波数によって異なる。最小可聴限界の音圧レベルが最も小さい部分は、1.8kHz〜5.4kHzの中高域の範囲に含まれている。本実施形態は、周波数帯域によって最小可聴限界を示す音圧レベルが異なることを考慮して、音圧レベル増幅部3a〜3eにおける増幅特性をそれぞれ設定している。
【0024】
図5は、音圧レベル増幅部3a〜3eにおける増幅特性の好適な例を示している。図5(A)は、音声信号における20Hz〜200Hzの低域部分の増幅特性を制御する音圧レベル増幅部3aに設定している増幅特性を示している。図5(A)において、点P1は−80dBFS、点P2は−25dBFS、変曲点Piは−66dBFSに位置している。図5(B)は、音声信号における200Hz〜600Hzの中低域部分の増幅特性を制御する音圧レベル増幅部3bに設定している増幅特性を示している。図5(B)において、点P1は−80dBFS、点P2は−25dBFS、変曲点Piは−63dBFSに位置している。
【0025】
図5(C)は、音声信号における600Hz〜1.8kHzの中域部分の増幅特性を制御する音圧レベル増幅部3cに設定している増幅特性を示している。図5(C)において、点P1は−80dBFS、点P2は−20dBFS、変曲点Piは−60dBFSに位置している。図5(D)は、音声信号における1.8kHz〜5.4kHzの中高域部分の増幅特性を制御する音圧レベル増幅部3dに設定している増幅特性を示している。図5(D)において、点P1は−80dBFS、点P2は−18dBFS、変曲点Piは−57dBFSに位置している。図5(E)は、音声信号における5.4kHz〜20kHzの高域部分の増幅特性を制御する音圧レベル増幅部3eに設定している増幅特性を示している。図5(E)において、点P1は−80dBFS、点P2は−25dBFS、変曲点Piは−63dBFSに位置している。ここでは、点P1を全て−80dBFSとしたが、周波数帯域毎に異ならせてもよい。
【0026】
図5(A)〜(E)に示すように、変曲点Piの位置は音圧レベル増幅部3a〜3eに対して共通ではなく、それぞれで最適な位置に設定している。音圧レベル増幅部3aにおける変曲点Piが最も低音圧レベル側に位置し、音圧レベル増幅部3b,3eにおける変曲点Piが次に低音圧レベル側に位置している。なお、ここでは音圧レベル増幅部3b,3eにおける変曲点Piを共通としているが、若干異ならせてもよい。音圧レベル増幅部3cにおける変曲点Piは音圧レベル増幅部3a,3b,3eにおける変曲点Piと比較して高音圧レベル側に位置している。音圧レベル増幅部3dにおける変曲点Piは最も高音圧レベル側に位置している。
【0027】
このように、周波数帯域を5分割した本実施形態においては、最小可聴限界の音圧レベルが最も小さい部分が含まれる中高域では、変曲点Piを最も高音圧レベル側に位置させることが好ましい。また、低域では変曲点Piを最も低音圧レベル側に位置させることが好ましい。中低域では変曲点Piを低域における変曲点Piよりも高音圧レベル側に位置させることが好ましい。中域では変曲点Piを中低域おける変曲点Piよりも高音圧レベル側で、中高域における変曲点Piよりも低音圧レベル側に位置させることが好ましい。高域では変曲点Piを中域及び中高域における変曲点Piよりも低音圧レベル側に位置させ、低域における変曲点Piよりも高音圧レベル側に位置させることが好ましい。低域,中低域,中域,中高域,高域における変曲点Piの相対的な位置関係は、最も低音圧レベル側,低音圧レベル側,高音圧レベル側,最も高音圧レベル側,低音圧レベル側とすることが好ましい。
【0028】
さらに、変曲点Piの位置における増幅度Gaは音圧レベル増幅部3a〜3eに対して共通ではなく、それぞれで最適な増幅度を設定している。音圧レベル増幅部3aにおける増幅度Gaを最も大きくし、音圧レベル増幅部3dにおける増幅度Gaを最も小さくしている。音圧レベル増幅部3b,3eにおける増幅度Gaを音圧レベル増幅部3aにおける増幅度Gaの次に大きくし、音圧レベル増幅部3cにおける増幅度Gaを音圧レベル増幅部3b,3eにおける増幅度Gaよりも小さく、音圧レベル増幅部3dにおける増幅度Gaよりも大きくしている。低域,中低域,中域,中高域,高域における増幅度Gaの相対的な大小関係は、最大,大,中程度,最小,大とすることが好ましい。
【0029】
次に、図2のスムージングフィルタ37及びアタックタイム・リリースタイム設定部38において行われる過渡応答特性の処理について説明する。図6(A)は、正弦波状の入力音声信号の音圧レベルが大きく変化した状態を示している。ここでは簡略化のため波形を包絡線にて示している。図6(A)に示す音声信号は一例として、音圧レベルが時刻t1までは−40dBFSであり、時刻t1で−10dBFSまで急上昇して時刻t3まで−10dBFSを維持し、時刻t3にて−40dBFSまで急降下してそれ以降−40dBFSを維持する波形である。図6(B)は図6(A)の波形の正方向のみを示している。
【0030】
図2におけるスムージングフィルタ37は、音声信号に対して、音圧レベルが第1のレベルから第1のレベルより大きい第2のレベルに変化する場合に、一旦第2のレベルを超えるレベルまで音圧レベルを上昇させた後に第2のレベルまで減衰させる第1の過渡応答特性を付与する。また、スムージングフィルタ37は、音圧レベルが第3のレベルから第3のレベルより小さい第4のレベルに変化する場合に、一旦第4のレベルを超える小さなレベルに下降させて第4のレベルまで増幅させる第2の過渡応答特性を付与する。図6(D)は図6(B)の波形に対して第1及び第2の過渡応答特性を与えた波形を示している。
【0031】
図6(D)に示すように、第1の過渡応答特性において、音圧レベルが第2のレベル(−10dBFS)を超えて最大レベルまで上昇した状態を100%とし、第2のレベルまで減衰した状態を0%としたとき、100%の時点である時刻t1から所定の割合(例えば50%)に減衰した時点である時刻t2までの時間をアタックタイムと称している。どの程度減衰した時点をアタックタイムとするのかは任意であり、80%減衰した時点、100%減衰した時点(即ち、0%となった時点)等のいずれでもよい。第2の過渡応答特性において、音圧レベルが第4のレベル(−40dBFS)を超えて最小レベルまで下降した状態を100%とし、第4のレベルまで増幅した状態を0%としたとき、100%の時点である時刻t3から所定の割合(例えば50%)に増幅した時点である時刻t4までの時間をリリースタイムと称している。ここでもどの程度減衰した時点をリリースタイムとするのかは任意であり、80%増幅した時点、100%増幅した時点(即ち、0%となった時点)等のいずれでもよい。
【0032】
図6(D)より分かるように、第1の過渡応答特性は比較的短い時間で減衰する特性であり、第2の過渡応答特性は比較的長い時間で増幅する特性である。アタックタイムは例えば数ミリ秒から十数ミリ秒程度と短くし、リリースタイムは100ミリ秒以上と長くする。図6(C)は増幅度の変化を示している。図6(B)の入力音声信号の波形に図6(C)の増幅度を乗じると、図6(D)に示す出力音声信号の波形となる。図6(E)は正方向及び負方向の出力音声信号を示している。図2におけるアタックタイム・リリースタイム設定部38は、アタックタイムとリリースタイムをどの程度とするかを設定している。本実施形態においては、スムージングフィルタ37及びアタックタイム・リリースタイム設定部38を設けることによって、音圧レベルが変化した場合に第1及び第2の過渡応答特性を与えるようにしているので、楽曲の音楽性を損ねにくくするという効果をさらに高めることができ、自然な再生音を得ることが可能となる。
【0033】
本実施形態においてはさらに、音圧レベル増幅部3a〜3eのアタックタイム・リリースタイム設定部38で設定するアタックタイム及びリリースタイムを、低い周波数の周波数帯域ほど長くし、高い周波数の周波数帯域ほど短くしている。表1に、音圧レベル増幅部3a〜3eそれぞれにおけるアタックタイム及びリリースタイムの設定例を示す。アタックタイム及びリリースタイムを低い周波数の周波数帯域ほど長くし、高い周波数の周波数帯域ほど短くすることにより、全ての周波数帯域で共通の値とした場合よりもさらに楽曲の音楽性を損ねにくくすることができ、自然な再生音を得ることが可能となる。
【0034】
【表1】
【0035】
<第2実施形態>
図7は本発明の音声信号処理装置の第2実施形態を示すブロック図である。第2実施形態の音声信号処理装置200において、第1実施形態の音声信号処理装置100と同一部分には同一符号を付し、その説明を適宜省略することとする。第2実施形態の音声信号処理装置200は、音圧レベル増幅部3a〜3eによって音声信号を増幅する際の増幅度を制限する点、さらに増幅度の制限値を音声信号のダイナミックレンジに応じて設定することを特徴としている。増幅度とは、上述した増幅度設定部34で設定する変曲点Piの位置における増幅度Gaである。
【0036】
図7において、メディア再生部201は一例として公知の光ディスク再生部であり、CDやDVD等の光ディスクを再生する。メディア再生部201にて再生された光ディスクの再生信号は信号処理部202に入力される。信号処理部202は入力された再生信号に基づいてメディアがどの光ディスクであるかを判別する。なお、光ディスクの判別は公知の方法を採用することができる。信号処理部202は、再生信号に含まれる音声信号を抽出して入力端子1へと供給し、光ディスクの種別を示す判別信号を制御部203に供給する。制御部203は、入力された判別信号に基づいて音圧レベル増幅部3a〜3eを制御する。音圧レベル増幅部3a〜3eは、入力された音声信号を、光ディスクの種別(即ち、入力された音声信号が有するダイナミックレンジ)に応じて最適な増幅度Gaで増幅するよう増幅度Gaを切り換える。
【0037】
メディアがCDとDVDの場合を例にすると、CDは約98dBのダイナミックレンジを有し、DVDは理論上140dB以上のダイナミックレンジを有するものの、実質的には120dB程度のダイナミックレンジである。音圧レベル増幅部3a〜3eそれぞれにおける増幅度Gaの最小増幅度はダイナミックレンジの約6%とすることが好ましく、最大増幅度はダイナミックレンジの約20%とすることが好ましい。これは発明者による実験・研究によって得られたものである。従って、表2に示すように、メディアがCDであれば最小増幅度を6dB、最大増幅度を20dBとし、音圧レベル増幅部3a〜3eそれぞれにおける増幅度Gaを6dBから20dBの範囲で設定する。また、メディアがDVDであれば最小増幅度を8dB、最大増幅度を24dBとし、音圧レベル増幅部3a〜3eそれぞれにおける増幅度Gaを8dBから24dBの範囲で設定する。
【0038】
【表2】
【0039】
メディア再生部201が再生するメディアは光ディスクに限定されるものではない。メディア再生部201は半導体メモリに記憶されたMP3(MPEG1 Layer 3)やWMA(Windows Media Audio)のような圧縮音声信号を再生するものであってもよい。Windowsは登録商標である。信号のダイナミックレンジは分解能によって決まる。例えば分解能が8ビットであればダイナミックレンジは48dB、分解能が12ビットであればダイナミックレンジは72dBとなる。この場合、信号処理部202は分解能を示す情報を制御部203に入力すればよい。
【0040】
引き続き、表3を用いて、音圧レベル増幅部3a〜3eにおける最小増幅度と最大増幅度を上記のように制限した場合の音圧レベル増幅部3a〜3eそれぞれの増幅度Gaの具体的な設定例について説明する。表3はメディアがCDの場合についての例を示している。
【0041】
【表3】
【0042】
表3における初期値は図4の最小可聴限界に基づいた値である。図4において、黒丸はそれぞれの周波数帯域における代表的な位置を示している。中高域においては最小可聴限界の音圧レベルが最も低い部分を代表位置とし、他の帯域においてはほぼ中央の周波数位置を代表位置としている。図4より分かるように、中高域の代表位置と中域の代表位置との間には、最小可聴限界の音圧レベルに約10dBの差がある。中高域の代表位置と中低域及び高域の代表位置との間には、最小可聴限界の音圧レベルに約20dBの差がある。中高域の代表位置と低域の代表位置との間には、最小可聴限界の音圧レベルに約40dBの差がある。中高域を基準とし、中高域と他の帯域との最小可聴限界の音圧レベルの差を初期値とする。
【0043】
表3に示す標準値は、音圧レベル増幅部3a〜3eにおける最小増幅度と最大増幅度を上記のように制限し、かつ、周波数帯域毎の最小可聴限界の音圧レベルの差を考慮して算出した増幅度Gaを示している。表3に示すように、音声信号の低域部分を制御する音圧レベル増幅部3aにおいては初期値が40dBであるが、最大増幅度の20dBを超えているので標準値としての増幅度Gaを最大増幅度の20dBとする。音声信号の中低域部分を制御する音圧レベル増幅部3bにおいては初期値が20dBであるが、次の(1)式に基づいて標準値としての増幅度Gaを12dBとする。(1)式において、Gaminは最小増幅度、Gamaxは最大増幅度、Ginはその帯域における初期値、Ginmaxは全ての初期値における最大値である。
Gamin+(Gin/Ginmax)×(Gamax−Gamin) …(1)
【0044】
音声信号の中域部分を制御する音圧レベル増幅部3cにおいては初期値が10dBであるが、(1)式に基づいて標準値としての増幅度Gaを9dBとする。音声信号の中高域部分を制御する音圧レベル増幅部3dにおいては初期値が0dBであるが、最小増幅度未満であるので標準値としての増幅度Gaを最小増幅度の6dBとする。音声信号の高域部分を制御する音圧レベル増幅部3eにおいては初期値が20dBであるが、(1)式に基づいて標準値としての増幅度Gaを12dBとする。
【0045】
以上説明した第2実施形態においては、音声信号のダイナミックレンジをメディアの種別や分解能に基づいて得るようにしたが、音声信号から直接ダイナミックレンジを検出するようにしてもよい。図8は音声信号の波形の一例を示している。図8に破線で示すように、ある時点で保持した信号レベルを比較的長い時定数で零に向かうよう収束させる。収束させていく段階でより大きい信号レベルが発生した場合にはその信号レベルを保持して同様に収束させることを繰り返す。この処理を所定の時間行うことによって、最大信号レベルと最小信号レベルを得ることができ、両者の差を算出することによりダイナミックレンジを求めることができる。このような処理を行う検出回路を設けることによって音声信号から直接ダイナミックレンジを検出することができる。
【0046】
また、図7において、聴取者が操作部204を操作するによって、複数のダイナミックレンジに対応した複数のモードを選択するようにしてもよい。操作部204は、オーディオ機器本体に設けられていてもよく、リモコン送信機であってもよい。
【0047】
図9は、第2実施形態における音圧レベル増幅部3a〜3eの構成例を示している。ここでは簡略化のため、音圧レベル増幅部3a〜3eにおける倍率発生部33及び増幅特性設定部34以外の図示を省略している。メディア再生部201が再生する光ディスクがCDとDVDの場合を例にすると、増幅度設定部342はCD用の増幅度GaとしてGa1、DVD用の増幅度GaとしてGa2を保持している。増幅度設定部342には制御部203からの制御信号が入力され、増幅度設定部342は増幅度GaとしてGa1とGa2のいずれかを出力する。音圧レベル増幅部3a〜3eに設定する増幅度Gaの組はダイナミックレンジの種類に応じた種類だけ設ければよい。あるいは、基準となる増幅度Gaの組を保持しておき、ダイナミックレンジの違いに応じて他の増幅度Gaの組を計算により求めてもよい。
【0048】
<第3実施形態>
図10は本発明の音声信号処理装置の第3実施形態を示すブロック図である。第3実施形態の音声信号処理装置300において、第1実施形態の音声信号処理装置100と同一部分には同一符号を付し、その説明を適宜省略することとする。第3実施形態の音声信号処理装置300は、第2実施形態と同様に音圧レベル増幅部3a〜3eによって音声信号を増幅する際の増幅度を制限し、さらに増幅度Gaをコンテンツのジャンルに応じて設定することを特徴としている。
【0049】
図10に示す第3実施形態の音声信号処理装置300においては、デジタル放送信号を受信する受信部301を設けた例を示している。受信部301で受信したデジタル放送信号の放送波信号は信号処理部302に入力される。信号処理部302は映像信号及び音声信号を含むコンテンツデータと、コンテンツデータに付加された付加データとを分離する。付加データはコンテンツのジャンルデータを含む。信号処理部302は、コンテンツデータの内、音声信号を入力端子1へと供給し、ジャンルデータを制御部303に供給する。制御部303は、入力されたジャンルデータに基づいて音圧レベル増幅部3a〜3eを制御する。音圧レベル増幅部3a〜3eは、入力された音声信号を、ジャンルデータに応じて最適な増幅度Gaで増幅するよう増幅度Gaを切り換える。なお、図10では映像信号の処理については図示を省略している。
【0050】
表4を用いて、コンテンツの複数のジャンルにおける音圧レベル増幅部3a〜3eそれぞれの増幅度Gaの具体的な設定例について説明する。表4は、増幅度Gaの標準値を表3の標準値とした場合の例を示している。表4に示すように、それぞれのコンテンツのジャンルで、標準値の増幅度Gaに対して増減させた値とすることによって、それぞれのジャンルで聴感的に聞き取りやすい再生音を得ることができる。
【0051】
【表4】
【0052】
以上説明した第3実施形態においては、デジタル放送信号を受信する受信部301を設けた例を示したが、受信部301の代わりに第2実施形態と同様なメディア再生部を設けた構成であってもよい。また、図10において、操作部304にジャンルを選択するための操作釦を設け、聴取者が操作釦によってジャンルを直接選択して、ジャンルに対応した複数のモードを選択するようにしてもよい。さらには、第2実施形態による複数のダイナミックレンジに対応した複数のモードの選択と、ジャンルに対応した複数のモードの選択とを組み合わせてもよい。即ち、表4のような複数のジャンルに対応した複数のモードを、ダイナミックレンジが異なる複数の音声信号毎に用意することが好ましい。
【0053】
<第4実施形態>
図11は本発明の音声信号処理装置の第4実施形態を示すブロック図である。第4実施形態の音声信号処理装置400において、第1実施形態の音声信号処理装置100と同一部分には同一符号を付し、その説明を適宜省略することとする。第4実施形態の音声信号処理装置400は、第2実施形態と同様に音圧レベル増幅部3a〜3eによって音声信号を増幅する際の増幅度を制限し、さらに増幅度Gaを聴取者が指定する聴取モードに応じて設定することを特徴としている。
【0054】
図11において、操作部404には、聴取モードの例として、標準,リラックス,BGM,聴力補助を選択するための操作釦4041が設けられている。制御部403は、操作釦4041で選択した聴取モードに対応した増幅度Gaとするよう音圧レベル増幅部3a〜3eを制御する。
【0055】
表5を用いて、聴取モード毎の音圧レベル増幅部3a〜3eそれぞれの増幅度Gaの具体的な設定例について説明する。表5は、増幅度Gaの標準値を表3の標準値とした場合の例を示している。表5に示すように、“リラックス”及び“BGM”の聴取モードでは標準値の増幅度Gaを部分的に減少させた値としている。“リラックス”はリラックスした気分で心地よく音楽を楽しむためのモードであり、“BGM”は小音量で音楽をBGMとして聴取するためのモードである。“聴力補正”の聴取モードは、個人の聴力特性に基づいて増幅度Gaを補正するためのモードである。個人の聴力特性の測定方法については後述する。9dB+αa,9dB+αb,9dB+αc,9dB+αd,9dB+αeにおけるαa,αb,αc,αd,αeを個人の聴力特性に応じて設定することにより、聞き取りづらい周波数帯域における聞き取りづらさを改善することができる。聞き取りづらい周波数帯域は人によって異なるので、聴取者それぞれに合わせて聴感的に聞き取りやすい再生音を得ることができる。
【0056】
【表5】
【0057】
以上説明した第1〜第4実施形態においては、図4で説明したように、増幅度Gaを設定する基準として人間の標準的な聴力特性の最小可聴限界を用いている。音声信号の聴取者の聴力特性に基づいた最小可聴限界を用いれば、それぞれの聴取者にとって最適で聴感的に聞き取りやすい再生音を得ることが可能となる。図12は、聴取者の聴力特性を測定する場合の一例構成を示している。図12において、メディア再生部51は所定のメディアを再生する。信号処理部52はメディア再生部51からの音声信号を処理してスイッチ54の端子aに供給する。制御部60の制御によってスイッチ54が端子aに接続されている場合、信号処理部52より出力された音声信号はアンプ55によって増幅されてスピーカ56またはヘッドホン57へと供給される。これによって、メディア再生部51からの音声信号は発音される。以上は通常のオーディオ機器における楽曲の再生である。
【0058】
基準信号発生部53は聴取者の聴力特性を測定するための基準信号を発生する。例えば基準信号をCD等の光ディスクに記録し、メディア再生部51によって光ディスクに記録された基準信号を再生してもよい。基準信号発生部53からの基準信号はスイッチ54の端子bに供給される。制御部60の制御によってスイッチ54が端子bに接続されている場合、基準信号はスピーカ56またはヘッドホン57によって発音される。聴力特性を測定する聴取者はスピーカ56またはヘッドホン57によって発音された基準信号を聴取する。基準信号は20Hz〜20kHzの範囲の選択的な複数周波数の音声信号を含む。聴取者は操作部59によって選択した周波数帯域の音声信号を聞きながら、操作部59で音圧レベル(ボリューム)を調整し、可聴できる最も小さい音圧レベルを決定する。
【0059】
聴取者が操作部59によって周波数帯域を選択すると、制御部60は基準信号発生部53に選択された周波数帯域の音声信号を発生させる。聴取者は複数の周波数帯域それぞれで可聴できる最も小さい音圧レベルを決定する。表示部61には、制御部60の制御によって一連の聴力特性を測定する際の案内となる画像が表示される。制御部60は、聴取者が入力した複数の周波数帯域における可聴できる最も小さい音圧レベルを聴取者個人が有する最小可聴限界として、この最小可聴限界のデータを記憶部62に記憶させる。
【0060】
信号処理部52は、第1〜第4実施形態の音声信号処理装置100〜400のいずれかを備えている。制御部60は、記憶部62から聴取者の最小可聴限界のデータを読み出し、信号処理部52(音声信号処理装置100〜400)を制御する。
【0061】
本発明は以上説明した各実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。
【図面の簡単な説明】
【0062】
【図1】本発明の第1実施形態を示すブロック図である。
【図2】音圧レベル増幅部3a〜3eの具体的構成例を示すブロック図である。
【図3】音圧レベル増幅部3a〜3eにおける増幅特性を説明するための図である。
【図4】人間の標準的な聴力特性を示す図である。
【図5】音圧レベル増幅部3a〜3eにおける増幅特性の具体例を示す図である。
【図6】音圧レベル増幅部3a〜3eにおける過渡応答特性の処理を説明するための図である。
【図7】本発明の第2実施形態を示すブロック図である。
【図8】ダイナミックレンジ検出回路の動作例を説明するための図である。
【図9】第2実施形態における音圧レベル増幅部3a〜3eの構成例を示す部分ブロック図である。
【図10】本発明の第3実施形態を示すブロック図である。
【図11】本発明の第4実施形態を示すブロック図である。
【図12】聴取者の聴力特性に基づいた最小可聴限界を測定するための構成例を示すブロック図である。
【符号の説明】
【0063】
2a〜2e 帯域分割フィルタ
3a〜3e 音圧レベル増幅部
4a〜4e アンプ
5 加算部
100,200,300,400 音声信号処理装置
【技術分野】
【0001】
本発明は、音声信号を処理する音声信号処理装置及び方法に係り、特に、聴感的に聞き取りやすい再生音を得ることができる音声信号処理装置及び方法に関する。
【背景技術】
【0002】
聴取者が音声信号を聴取する際、スピーカまたはヘッドホンから発せられる再生音が聴感的に聞き取りやすければ、聴取者は聞き疲れしにくい。従って、音声信号を再生するオーディオ機器としては、聴取者が聞き取りやすいと感じる音を再生することが好ましい。このとき、聞き取りやすい音であったとしても、聴取する楽曲の音楽性を損ねることは好ましくない。
【0003】
従来の音声信号処理装置としては、例えば、特許第3373103号公報(特許文献1),特開2002−281599号公報(特許文献2),特開2000−22469号公報(特許文献3)に記載のものがある。なお、特許文献1,2には音声信号を帯域分割フィルタによって複数の帯域に分割して信号処理を施すことが記載されている。特許文献3には音声信号の過渡応答特性を改善した音声信号処理装置が記載されている。
【特許文献1】特許第3373103号公報
【特許文献2】特開2002−281599号公報
【特許文献3】特開2000−22469号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記特許文献1〜3に記載の発明は、聴感的な聞き取りやすさをある程度改善することはできるが、楽曲の音楽性を損ねてしまうという問題点がある。そこで、楽曲の音楽性を損ねることなく、聴感的に聞き取りやすい再生音を得ることができる音声信号処理装置及び方法の登場が望まれていた。
【0005】
本発明はこのような問題点に鑑みなされたものであり、楽曲の音楽性を損ねることなく、聴感的に聞き取りやすい再生音を得ることができる音声信号処理装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上述した従来の技術の課題を解決するため、第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力する帯域分割フィルタ(2a〜2e)と、前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅する音圧レベル増幅部(3a〜3e)と、前記音圧レベル増幅部によって増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力する加算部(5)とを備えることを特徴とする音声信号処理装置を提供する。
ここで、前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせることが好ましい。
前記音圧レベル増幅部は、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくすることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくすることが好ましい。
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定することが好ましい。
さらに、前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、前記音圧レベル増幅部は、複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることが好ましい。
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、前記音圧レベル増幅部は、前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることが好ましい。
前記音圧レベル増幅部は、前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記複数の聴取モードを選択するための操作部と、前記操作部によって選択した聴取モードに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることが好ましい。
さらにまた、前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することが好ましい。
このとき、前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することが好ましい。
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界でよく、好ましくは、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界である。
【0007】
また、本発明は、上述した従来の技術の課題を解決するため、第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力し、前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅し、増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力することを特徴とする音声信号処理方法を提供する。
ここで、前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせることが好ましい。
最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させることが好ましい。
前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくすることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくすることが好ましい。
前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定することが好ましい。
さらに、前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えることが好ましい。
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えることが好ましい。
前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、前記複数の聴取モードのいずれかを選択し、選択した聴取モードに応じて前記増幅度の組を切り換えることが好ましい。
さらにまた、前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することが好ましい。
ここで、前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することが好ましい。
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界でよく、好ましくは、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界である。
【発明の効果】
【0008】
本発明の音声信号処理装置及び方法によれば、楽曲の音楽性を損ねることなく、聴感的に聞き取りやすい再生音を得ることができる。聴取者は聞き疲れしにくいので、楽曲の聴取を十分に楽しむことができるオーディオ機器を提供することが可能となる。
【発明を実施するための最良の形態】
【0009】
以下、本発明の音声信号処理装置及び方法の各実施形態について、添付図面を参照して説明する。各実施形態をハードウェア構成のブロック図を用いて説明するが、各実施形態の一部をソフトウェアとして構成してもよい。ソフトウェアとして構成することが可能な部分を全てソフトウェアで構成してもよく、ハードウェアとソフトウェアの使い分けは任意でよい。
【0010】
<第1実施形態>
図1は本発明の音声信号処理装置の第1実施形態を示すブロック図である。第1実施形態の音声信号処理装置100は本発明の音声信号処理装置の各実施形態における基本的な構成を示すものである。図1において、入力端子1に入力されたデジタル音声信号(第1の音声信号)は帯域分割フィルタ2a〜2eに供給される。帯域分割フィルタ2a〜2eは互いの通過周波数帯域が異なる。人間の可聴範囲を20Hz〜20kHzとすると、帯域分割フィルタ2aは例えば20Hz〜200Hzの低域を通過させるフィルタであり、帯域分割フィルタ2bは例えば200Hz〜600Hzの中低域を通過させるフィルタである。帯域分割フィルタ2cは例えば600Hz〜1.8kHzの中域を通過させるフィルタであり、帯域分割フィルタ2dは例えば1.8kHz〜5.4kHzの中高域を通過させるフィルタである。帯域分割フィルタ2eは例えば5.4kHz〜20kHzの高域を通過させるフィルタである。
【0011】
200Hz〜600Hzの中低域は音声の基本波を含む帯域であり、600Hz〜1.8kHzの中域はホルマントを含む帯域であり、1.8kHz〜5.4kHzの中高域は子音成分を含む帯域である。帯域分割フィルタの個数、即ち、音声信号をいくつの帯域に分割するかは任意であり、図1に示す5分割に限定されるものではない。例えば音声信号を3つの帯域に分割する場合は、20Hz〜200Hzの低域と、200Hz〜5.4kHzの中域と、5.4kHz〜20kHzの高域とに分割するのが好ましい。
【0012】
帯域分割フィルタ2a〜2eの後段には、帯域分割フィルタ2a〜2eそれぞれに対応するよう音圧レベル増幅部3a〜3eが設けられている。音圧レベル増幅部3a〜3eとしては、一般的にダイナミックレンジ制御回路(DRC(Dynamic Range Control)回路)と称されている回路を用いることができる。音圧レベル増幅部3a〜3eは帯域分割フィルタ2a〜2eより出力されたそれぞれの音声信号(第2の音声信号)の音圧レベルを後に詳述するよう増幅する。音圧レベル増幅部3a〜3eの内部構成は互いに同一であるが、音圧レベルを増幅する際の増幅特性を音圧レベル増幅部3a〜3eそれぞれで個別に設定している。但し、音圧レベル増幅部3a〜3eにおける増幅特性の全てが互いに異なっている必要はなく、一部で重複した増幅特性であってもよい。
【0013】
音圧レベル増幅部3a〜3eの後段には、音圧レベル増幅部3a〜3eそれぞれに対応するようアンプ4a〜4eが設けられている。アンプ4a〜4eは音圧レベル増幅部3a〜3eより出力されたそれぞれの音声信号を予め定められたゲインで増幅して出力する。アンプ4a〜4eにおけるゲインは基本的には同一でよいが、所望の再生音を得るため一部のアンプのゲインを異ならせてもよいし、周波数帯域毎に異なるゲインを設定してもよい。アンプ4a〜4eは場合によっては削除可能である。アンプ4a〜4eより出力された音声信号は加算部5に入力されて加算され、出力端子6より出力される。加算部5より出力された音声信号(第3の音声信号)は、ここでは図示していないスピーカまたはヘッドホンによって聴取者に聴取される。
【0014】
ここで、図2を用いて音圧レベル増幅部3a〜3eの具体的構成について説明する。図2において、帯域分割フィルタ2a〜2eのいずれかから出力された音声信号はレベル検出部31及び遅延部39に入力される。音圧レベル増幅部3a〜3eに入力される音声信号は、図3に示すように、−100dBFS〜0dBFSの範囲の音圧レベルを有するものとする。FSとはフル・スケールを意味する。レベル検出部31は入力された音声信号が最小音圧レベルの−100dBFSから最大音圧レベルの0dBFSまでのいずれの音圧レベルであるかを検出する。レベル検出部31で検出された入力信号の音圧レベルは動作範囲設定部32及び倍率発生部33に入力される。
【0015】
図3に示すように、最小音圧レベルから最大音圧レベルまでの範囲の内、最小音圧レベルから所定の範囲(例えば−80dBFSまで)の低音圧レベル領域R1と、最大音圧レベルから所定の範囲(例えば−25dBFSまで)の高音圧レベル領域R2とにおいては、入力信号を増幅させない非増幅領域とすることが好ましい。低音圧レベル領域R1と高音圧レベル領域R2とを非増幅領域とすることにより、楽曲の音楽性をほとんど損ねることがない。これは、低音圧レベル領域R1を増幅するとノイズが目立ちやすくなり、高音圧レベル領域R2を増幅すると歪みが発生しやすく、しかも大きな音圧レベルであるので聴感的に目立ちやすいからである。但し、楽曲の音楽性を損ねない程度に、低音圧レベル領域R1と高音圧レベル領域R2で入力信号を増幅させてもよい。
【0016】
低音圧レベル領域R1と高音圧レベル領域R2との間の中間音圧レベル領域R3においては、破線で示す非増幅の状態を実線で示す特性で増幅させた状態とする増幅領域としている。動作範囲設定部32は、どの範囲を非増幅領域とし、どの範囲を増幅領域とするかを設定している。後述するように、音圧レベル増幅部3a〜3eそれぞれの動作範囲設定部32で設定している非増幅領域・増幅領域は同一ではなく、それぞれの動作範囲設定部32で最適な非増幅領域・増幅領域を設定している。
【0017】
図2に戻り、増幅特性設定部34は、変曲点設定部341と増幅度設定部342と増幅特性保持部343とを備えている。図3に示すように、増幅領域である中間音圧レベル領域R3においては、低音圧レベル領域R1の高音圧レベル側の端部である点P1から中間音圧レベル領域R3内の中間点である変曲点Piまでは入力信号の音圧レベルが大きくなるに従って増幅度を順次大きくし、変曲点Piから高音圧レベル領域R2の低音圧レベル側の端部である点P2までは入力信号の音圧レベルが大きくなるに従って増幅度を順次小さくする特性となっている。図3では、点P1から変曲点Piまで線形に増幅度を大きくし、変曲点Piから点P2まで線形に増幅度を小さくする例を示している。変曲点設定部341は、入力信号の音圧レベルのどの位置を変曲点Piとするのかを設定するものである。増幅度設定部342は、変曲点Piの位置における増幅度Gaを設定するものである。
【0018】
増幅特性保持部343には、変曲点設定部341からの変曲点設定データと増幅度設定部342からの増幅度設定データとが入力される。変曲点設定データは変曲点Piの位置(入力音圧レベル)を示す位置情報であり、増幅度設定データは増幅度Gaを決める情報である。本実施形態においては、増幅度設定データは、変曲点Piの位置において、入力信号の音圧レベルを何倍にするのかという倍率を表すデータである。増幅特性保持部343は、変曲点Piよりも低音圧レベル側と高音圧レベル側の増幅特性の傾きデータを有している。増幅特性保持部343は、傾きデータと変曲点設定データと増幅度設定データとを用いて中間音圧レベル領域R3における増幅特性を得るための倍率データを計算により求めて保持している。
【0019】
倍率発生部33は、増幅特性保持部343に保持された倍率データを参照して、レベル検出部31より供給された入力信号の音圧レベルに応じた倍率値を発生する。この倍率値はスイッチ35の端子aに供給される。固定倍率発生部36は1.0の固定倍率値を発生してスイッチ35の端子bに供給する。スイッチ35には動作範囲設定部32から、どの範囲を非増幅領域とし、どの範囲を増幅領域とするかを示す動作範囲設定データが入力される。スイッチ35は動作範囲設定データが非増幅領域を示す場合は端子bを選択し、増幅領域を示す場合は端子aを選択する。これによって、スイッチ35からは最小音圧レベルから最大音圧レベルまでの範囲で入力信号をどのように増幅するかを決める増幅度を示すデータが発生されることとなる。
【0020】
本実施形態においては、好ましい構成例として、スムージングフィルタ37とアタックタイム・リリースタイム設定部38とを設けている。スムージングフィルタ37及びアタックタイム・リリースタイム設定部38を設けることは必須ではないが、設けることが好ましい。アタックタイム・リリースタイム設定部38は後述するアタックタイムとリリースタイムを設定するための設定データを保持している。スムージングフィルタ37はスイッチ35から入力される増幅度に対してアタックタイム及びリリースタイムの設定データに基づいたスムージング処理を施して出力する。このスムージング処理の具体的な動作については後に詳述する。
【0021】
アンプ40には、遅延部39によって遅延された音声信号とスムージングフィルタ37より出力されたスムージング処理が施された増幅度が入力される。アンプ40は、入力された音声信号をスムージングフィルタ37からの増幅度に基づいて増幅して出力する。遅延部39は入力された音声信号を、レベル検出部31からスムージングフィルタ37までの処理に要する時間だけ遅延させてアンプ40に供給する。なお、遅延部39を設けることが望ましいが、遅延部39は必ずしも必要ではない。遅延部39を設けない構成でも、加算部5より出力される音声信号の聴感的な劣化は少ない。
【0022】
以上のようにして、音圧レベル増幅部3a〜3eはそれぞれの周波数帯域の音声信号を音圧レベル増幅部3a〜3eそれぞれの増幅特性に基づいて増幅する。
【0023】
ここで、帯域分割フィルタ2a〜2eにおける低域,中低域,中域,中高域,高域について説明する。図4は人間の標準的な聴力特性(音圧レベルの可聴範囲)を示しており、最小可聴限界と最大可聴限界との間の音圧レベルが音として聞こえる範囲である。図4より分かるように、最小可聴限界の音圧レベルは音声信号の周波数によって異なる。最小可聴限界の音圧レベルが最も小さい部分は、1.8kHz〜5.4kHzの中高域の範囲に含まれている。本実施形態は、周波数帯域によって最小可聴限界を示す音圧レベルが異なることを考慮して、音圧レベル増幅部3a〜3eにおける増幅特性をそれぞれ設定している。
【0024】
図5は、音圧レベル増幅部3a〜3eにおける増幅特性の好適な例を示している。図5(A)は、音声信号における20Hz〜200Hzの低域部分の増幅特性を制御する音圧レベル増幅部3aに設定している増幅特性を示している。図5(A)において、点P1は−80dBFS、点P2は−25dBFS、変曲点Piは−66dBFSに位置している。図5(B)は、音声信号における200Hz〜600Hzの中低域部分の増幅特性を制御する音圧レベル増幅部3bに設定している増幅特性を示している。図5(B)において、点P1は−80dBFS、点P2は−25dBFS、変曲点Piは−63dBFSに位置している。
【0025】
図5(C)は、音声信号における600Hz〜1.8kHzの中域部分の増幅特性を制御する音圧レベル増幅部3cに設定している増幅特性を示している。図5(C)において、点P1は−80dBFS、点P2は−20dBFS、変曲点Piは−60dBFSに位置している。図5(D)は、音声信号における1.8kHz〜5.4kHzの中高域部分の増幅特性を制御する音圧レベル増幅部3dに設定している増幅特性を示している。図5(D)において、点P1は−80dBFS、点P2は−18dBFS、変曲点Piは−57dBFSに位置している。図5(E)は、音声信号における5.4kHz〜20kHzの高域部分の増幅特性を制御する音圧レベル増幅部3eに設定している増幅特性を示している。図5(E)において、点P1は−80dBFS、点P2は−25dBFS、変曲点Piは−63dBFSに位置している。ここでは、点P1を全て−80dBFSとしたが、周波数帯域毎に異ならせてもよい。
【0026】
図5(A)〜(E)に示すように、変曲点Piの位置は音圧レベル増幅部3a〜3eに対して共通ではなく、それぞれで最適な位置に設定している。音圧レベル増幅部3aにおける変曲点Piが最も低音圧レベル側に位置し、音圧レベル増幅部3b,3eにおける変曲点Piが次に低音圧レベル側に位置している。なお、ここでは音圧レベル増幅部3b,3eにおける変曲点Piを共通としているが、若干異ならせてもよい。音圧レベル増幅部3cにおける変曲点Piは音圧レベル増幅部3a,3b,3eにおける変曲点Piと比較して高音圧レベル側に位置している。音圧レベル増幅部3dにおける変曲点Piは最も高音圧レベル側に位置している。
【0027】
このように、周波数帯域を5分割した本実施形態においては、最小可聴限界の音圧レベルが最も小さい部分が含まれる中高域では、変曲点Piを最も高音圧レベル側に位置させることが好ましい。また、低域では変曲点Piを最も低音圧レベル側に位置させることが好ましい。中低域では変曲点Piを低域における変曲点Piよりも高音圧レベル側に位置させることが好ましい。中域では変曲点Piを中低域おける変曲点Piよりも高音圧レベル側で、中高域における変曲点Piよりも低音圧レベル側に位置させることが好ましい。高域では変曲点Piを中域及び中高域における変曲点Piよりも低音圧レベル側に位置させ、低域における変曲点Piよりも高音圧レベル側に位置させることが好ましい。低域,中低域,中域,中高域,高域における変曲点Piの相対的な位置関係は、最も低音圧レベル側,低音圧レベル側,高音圧レベル側,最も高音圧レベル側,低音圧レベル側とすることが好ましい。
【0028】
さらに、変曲点Piの位置における増幅度Gaは音圧レベル増幅部3a〜3eに対して共通ではなく、それぞれで最適な増幅度を設定している。音圧レベル増幅部3aにおける増幅度Gaを最も大きくし、音圧レベル増幅部3dにおける増幅度Gaを最も小さくしている。音圧レベル増幅部3b,3eにおける増幅度Gaを音圧レベル増幅部3aにおける増幅度Gaの次に大きくし、音圧レベル増幅部3cにおける増幅度Gaを音圧レベル増幅部3b,3eにおける増幅度Gaよりも小さく、音圧レベル増幅部3dにおける増幅度Gaよりも大きくしている。低域,中低域,中域,中高域,高域における増幅度Gaの相対的な大小関係は、最大,大,中程度,最小,大とすることが好ましい。
【0029】
次に、図2のスムージングフィルタ37及びアタックタイム・リリースタイム設定部38において行われる過渡応答特性の処理について説明する。図6(A)は、正弦波状の入力音声信号の音圧レベルが大きく変化した状態を示している。ここでは簡略化のため波形を包絡線にて示している。図6(A)に示す音声信号は一例として、音圧レベルが時刻t1までは−40dBFSであり、時刻t1で−10dBFSまで急上昇して時刻t3まで−10dBFSを維持し、時刻t3にて−40dBFSまで急降下してそれ以降−40dBFSを維持する波形である。図6(B)は図6(A)の波形の正方向のみを示している。
【0030】
図2におけるスムージングフィルタ37は、音声信号に対して、音圧レベルが第1のレベルから第1のレベルより大きい第2のレベルに変化する場合に、一旦第2のレベルを超えるレベルまで音圧レベルを上昇させた後に第2のレベルまで減衰させる第1の過渡応答特性を付与する。また、スムージングフィルタ37は、音圧レベルが第3のレベルから第3のレベルより小さい第4のレベルに変化する場合に、一旦第4のレベルを超える小さなレベルに下降させて第4のレベルまで増幅させる第2の過渡応答特性を付与する。図6(D)は図6(B)の波形に対して第1及び第2の過渡応答特性を与えた波形を示している。
【0031】
図6(D)に示すように、第1の過渡応答特性において、音圧レベルが第2のレベル(−10dBFS)を超えて最大レベルまで上昇した状態を100%とし、第2のレベルまで減衰した状態を0%としたとき、100%の時点である時刻t1から所定の割合(例えば50%)に減衰した時点である時刻t2までの時間をアタックタイムと称している。どの程度減衰した時点をアタックタイムとするのかは任意であり、80%減衰した時点、100%減衰した時点(即ち、0%となった時点)等のいずれでもよい。第2の過渡応答特性において、音圧レベルが第4のレベル(−40dBFS)を超えて最小レベルまで下降した状態を100%とし、第4のレベルまで増幅した状態を0%としたとき、100%の時点である時刻t3から所定の割合(例えば50%)に増幅した時点である時刻t4までの時間をリリースタイムと称している。ここでもどの程度減衰した時点をリリースタイムとするのかは任意であり、80%増幅した時点、100%増幅した時点(即ち、0%となった時点)等のいずれでもよい。
【0032】
図6(D)より分かるように、第1の過渡応答特性は比較的短い時間で減衰する特性であり、第2の過渡応答特性は比較的長い時間で増幅する特性である。アタックタイムは例えば数ミリ秒から十数ミリ秒程度と短くし、リリースタイムは100ミリ秒以上と長くする。図6(C)は増幅度の変化を示している。図6(B)の入力音声信号の波形に図6(C)の増幅度を乗じると、図6(D)に示す出力音声信号の波形となる。図6(E)は正方向及び負方向の出力音声信号を示している。図2におけるアタックタイム・リリースタイム設定部38は、アタックタイムとリリースタイムをどの程度とするかを設定している。本実施形態においては、スムージングフィルタ37及びアタックタイム・リリースタイム設定部38を設けることによって、音圧レベルが変化した場合に第1及び第2の過渡応答特性を与えるようにしているので、楽曲の音楽性を損ねにくくするという効果をさらに高めることができ、自然な再生音を得ることが可能となる。
【0033】
本実施形態においてはさらに、音圧レベル増幅部3a〜3eのアタックタイム・リリースタイム設定部38で設定するアタックタイム及びリリースタイムを、低い周波数の周波数帯域ほど長くし、高い周波数の周波数帯域ほど短くしている。表1に、音圧レベル増幅部3a〜3eそれぞれにおけるアタックタイム及びリリースタイムの設定例を示す。アタックタイム及びリリースタイムを低い周波数の周波数帯域ほど長くし、高い周波数の周波数帯域ほど短くすることにより、全ての周波数帯域で共通の値とした場合よりもさらに楽曲の音楽性を損ねにくくすることができ、自然な再生音を得ることが可能となる。
【0034】
【表1】
【0035】
<第2実施形態>
図7は本発明の音声信号処理装置の第2実施形態を示すブロック図である。第2実施形態の音声信号処理装置200において、第1実施形態の音声信号処理装置100と同一部分には同一符号を付し、その説明を適宜省略することとする。第2実施形態の音声信号処理装置200は、音圧レベル増幅部3a〜3eによって音声信号を増幅する際の増幅度を制限する点、さらに増幅度の制限値を音声信号のダイナミックレンジに応じて設定することを特徴としている。増幅度とは、上述した増幅度設定部34で設定する変曲点Piの位置における増幅度Gaである。
【0036】
図7において、メディア再生部201は一例として公知の光ディスク再生部であり、CDやDVD等の光ディスクを再生する。メディア再生部201にて再生された光ディスクの再生信号は信号処理部202に入力される。信号処理部202は入力された再生信号に基づいてメディアがどの光ディスクであるかを判別する。なお、光ディスクの判別は公知の方法を採用することができる。信号処理部202は、再生信号に含まれる音声信号を抽出して入力端子1へと供給し、光ディスクの種別を示す判別信号を制御部203に供給する。制御部203は、入力された判別信号に基づいて音圧レベル増幅部3a〜3eを制御する。音圧レベル増幅部3a〜3eは、入力された音声信号を、光ディスクの種別(即ち、入力された音声信号が有するダイナミックレンジ)に応じて最適な増幅度Gaで増幅するよう増幅度Gaを切り換える。
【0037】
メディアがCDとDVDの場合を例にすると、CDは約98dBのダイナミックレンジを有し、DVDは理論上140dB以上のダイナミックレンジを有するものの、実質的には120dB程度のダイナミックレンジである。音圧レベル増幅部3a〜3eそれぞれにおける増幅度Gaの最小増幅度はダイナミックレンジの約6%とすることが好ましく、最大増幅度はダイナミックレンジの約20%とすることが好ましい。これは発明者による実験・研究によって得られたものである。従って、表2に示すように、メディアがCDであれば最小増幅度を6dB、最大増幅度を20dBとし、音圧レベル増幅部3a〜3eそれぞれにおける増幅度Gaを6dBから20dBの範囲で設定する。また、メディアがDVDであれば最小増幅度を8dB、最大増幅度を24dBとし、音圧レベル増幅部3a〜3eそれぞれにおける増幅度Gaを8dBから24dBの範囲で設定する。
【0038】
【表2】
【0039】
メディア再生部201が再生するメディアは光ディスクに限定されるものではない。メディア再生部201は半導体メモリに記憶されたMP3(MPEG1 Layer 3)やWMA(Windows Media Audio)のような圧縮音声信号を再生するものであってもよい。Windowsは登録商標である。信号のダイナミックレンジは分解能によって決まる。例えば分解能が8ビットであればダイナミックレンジは48dB、分解能が12ビットであればダイナミックレンジは72dBとなる。この場合、信号処理部202は分解能を示す情報を制御部203に入力すればよい。
【0040】
引き続き、表3を用いて、音圧レベル増幅部3a〜3eにおける最小増幅度と最大増幅度を上記のように制限した場合の音圧レベル増幅部3a〜3eそれぞれの増幅度Gaの具体的な設定例について説明する。表3はメディアがCDの場合についての例を示している。
【0041】
【表3】
【0042】
表3における初期値は図4の最小可聴限界に基づいた値である。図4において、黒丸はそれぞれの周波数帯域における代表的な位置を示している。中高域においては最小可聴限界の音圧レベルが最も低い部分を代表位置とし、他の帯域においてはほぼ中央の周波数位置を代表位置としている。図4より分かるように、中高域の代表位置と中域の代表位置との間には、最小可聴限界の音圧レベルに約10dBの差がある。中高域の代表位置と中低域及び高域の代表位置との間には、最小可聴限界の音圧レベルに約20dBの差がある。中高域の代表位置と低域の代表位置との間には、最小可聴限界の音圧レベルに約40dBの差がある。中高域を基準とし、中高域と他の帯域との最小可聴限界の音圧レベルの差を初期値とする。
【0043】
表3に示す標準値は、音圧レベル増幅部3a〜3eにおける最小増幅度と最大増幅度を上記のように制限し、かつ、周波数帯域毎の最小可聴限界の音圧レベルの差を考慮して算出した増幅度Gaを示している。表3に示すように、音声信号の低域部分を制御する音圧レベル増幅部3aにおいては初期値が40dBであるが、最大増幅度の20dBを超えているので標準値としての増幅度Gaを最大増幅度の20dBとする。音声信号の中低域部分を制御する音圧レベル増幅部3bにおいては初期値が20dBであるが、次の(1)式に基づいて標準値としての増幅度Gaを12dBとする。(1)式において、Gaminは最小増幅度、Gamaxは最大増幅度、Ginはその帯域における初期値、Ginmaxは全ての初期値における最大値である。
Gamin+(Gin/Ginmax)×(Gamax−Gamin) …(1)
【0044】
音声信号の中域部分を制御する音圧レベル増幅部3cにおいては初期値が10dBであるが、(1)式に基づいて標準値としての増幅度Gaを9dBとする。音声信号の中高域部分を制御する音圧レベル増幅部3dにおいては初期値が0dBであるが、最小増幅度未満であるので標準値としての増幅度Gaを最小増幅度の6dBとする。音声信号の高域部分を制御する音圧レベル増幅部3eにおいては初期値が20dBであるが、(1)式に基づいて標準値としての増幅度Gaを12dBとする。
【0045】
以上説明した第2実施形態においては、音声信号のダイナミックレンジをメディアの種別や分解能に基づいて得るようにしたが、音声信号から直接ダイナミックレンジを検出するようにしてもよい。図8は音声信号の波形の一例を示している。図8に破線で示すように、ある時点で保持した信号レベルを比較的長い時定数で零に向かうよう収束させる。収束させていく段階でより大きい信号レベルが発生した場合にはその信号レベルを保持して同様に収束させることを繰り返す。この処理を所定の時間行うことによって、最大信号レベルと最小信号レベルを得ることができ、両者の差を算出することによりダイナミックレンジを求めることができる。このような処理を行う検出回路を設けることによって音声信号から直接ダイナミックレンジを検出することができる。
【0046】
また、図7において、聴取者が操作部204を操作するによって、複数のダイナミックレンジに対応した複数のモードを選択するようにしてもよい。操作部204は、オーディオ機器本体に設けられていてもよく、リモコン送信機であってもよい。
【0047】
図9は、第2実施形態における音圧レベル増幅部3a〜3eの構成例を示している。ここでは簡略化のため、音圧レベル増幅部3a〜3eにおける倍率発生部33及び増幅特性設定部34以外の図示を省略している。メディア再生部201が再生する光ディスクがCDとDVDの場合を例にすると、増幅度設定部342はCD用の増幅度GaとしてGa1、DVD用の増幅度GaとしてGa2を保持している。増幅度設定部342には制御部203からの制御信号が入力され、増幅度設定部342は増幅度GaとしてGa1とGa2のいずれかを出力する。音圧レベル増幅部3a〜3eに設定する増幅度Gaの組はダイナミックレンジの種類に応じた種類だけ設ければよい。あるいは、基準となる増幅度Gaの組を保持しておき、ダイナミックレンジの違いに応じて他の増幅度Gaの組を計算により求めてもよい。
【0048】
<第3実施形態>
図10は本発明の音声信号処理装置の第3実施形態を示すブロック図である。第3実施形態の音声信号処理装置300において、第1実施形態の音声信号処理装置100と同一部分には同一符号を付し、その説明を適宜省略することとする。第3実施形態の音声信号処理装置300は、第2実施形態と同様に音圧レベル増幅部3a〜3eによって音声信号を増幅する際の増幅度を制限し、さらに増幅度Gaをコンテンツのジャンルに応じて設定することを特徴としている。
【0049】
図10に示す第3実施形態の音声信号処理装置300においては、デジタル放送信号を受信する受信部301を設けた例を示している。受信部301で受信したデジタル放送信号の放送波信号は信号処理部302に入力される。信号処理部302は映像信号及び音声信号を含むコンテンツデータと、コンテンツデータに付加された付加データとを分離する。付加データはコンテンツのジャンルデータを含む。信号処理部302は、コンテンツデータの内、音声信号を入力端子1へと供給し、ジャンルデータを制御部303に供給する。制御部303は、入力されたジャンルデータに基づいて音圧レベル増幅部3a〜3eを制御する。音圧レベル増幅部3a〜3eは、入力された音声信号を、ジャンルデータに応じて最適な増幅度Gaで増幅するよう増幅度Gaを切り換える。なお、図10では映像信号の処理については図示を省略している。
【0050】
表4を用いて、コンテンツの複数のジャンルにおける音圧レベル増幅部3a〜3eそれぞれの増幅度Gaの具体的な設定例について説明する。表4は、増幅度Gaの標準値を表3の標準値とした場合の例を示している。表4に示すように、それぞれのコンテンツのジャンルで、標準値の増幅度Gaに対して増減させた値とすることによって、それぞれのジャンルで聴感的に聞き取りやすい再生音を得ることができる。
【0051】
【表4】
【0052】
以上説明した第3実施形態においては、デジタル放送信号を受信する受信部301を設けた例を示したが、受信部301の代わりに第2実施形態と同様なメディア再生部を設けた構成であってもよい。また、図10において、操作部304にジャンルを選択するための操作釦を設け、聴取者が操作釦によってジャンルを直接選択して、ジャンルに対応した複数のモードを選択するようにしてもよい。さらには、第2実施形態による複数のダイナミックレンジに対応した複数のモードの選択と、ジャンルに対応した複数のモードの選択とを組み合わせてもよい。即ち、表4のような複数のジャンルに対応した複数のモードを、ダイナミックレンジが異なる複数の音声信号毎に用意することが好ましい。
【0053】
<第4実施形態>
図11は本発明の音声信号処理装置の第4実施形態を示すブロック図である。第4実施形態の音声信号処理装置400において、第1実施形態の音声信号処理装置100と同一部分には同一符号を付し、その説明を適宜省略することとする。第4実施形態の音声信号処理装置400は、第2実施形態と同様に音圧レベル増幅部3a〜3eによって音声信号を増幅する際の増幅度を制限し、さらに増幅度Gaを聴取者が指定する聴取モードに応じて設定することを特徴としている。
【0054】
図11において、操作部404には、聴取モードの例として、標準,リラックス,BGM,聴力補助を選択するための操作釦4041が設けられている。制御部403は、操作釦4041で選択した聴取モードに対応した増幅度Gaとするよう音圧レベル増幅部3a〜3eを制御する。
【0055】
表5を用いて、聴取モード毎の音圧レベル増幅部3a〜3eそれぞれの増幅度Gaの具体的な設定例について説明する。表5は、増幅度Gaの標準値を表3の標準値とした場合の例を示している。表5に示すように、“リラックス”及び“BGM”の聴取モードでは標準値の増幅度Gaを部分的に減少させた値としている。“リラックス”はリラックスした気分で心地よく音楽を楽しむためのモードであり、“BGM”は小音量で音楽をBGMとして聴取するためのモードである。“聴力補正”の聴取モードは、個人の聴力特性に基づいて増幅度Gaを補正するためのモードである。個人の聴力特性の測定方法については後述する。9dB+αa,9dB+αb,9dB+αc,9dB+αd,9dB+αeにおけるαa,αb,αc,αd,αeを個人の聴力特性に応じて設定することにより、聞き取りづらい周波数帯域における聞き取りづらさを改善することができる。聞き取りづらい周波数帯域は人によって異なるので、聴取者それぞれに合わせて聴感的に聞き取りやすい再生音を得ることができる。
【0056】
【表5】
【0057】
以上説明した第1〜第4実施形態においては、図4で説明したように、増幅度Gaを設定する基準として人間の標準的な聴力特性の最小可聴限界を用いている。音声信号の聴取者の聴力特性に基づいた最小可聴限界を用いれば、それぞれの聴取者にとって最適で聴感的に聞き取りやすい再生音を得ることが可能となる。図12は、聴取者の聴力特性を測定する場合の一例構成を示している。図12において、メディア再生部51は所定のメディアを再生する。信号処理部52はメディア再生部51からの音声信号を処理してスイッチ54の端子aに供給する。制御部60の制御によってスイッチ54が端子aに接続されている場合、信号処理部52より出力された音声信号はアンプ55によって増幅されてスピーカ56またはヘッドホン57へと供給される。これによって、メディア再生部51からの音声信号は発音される。以上は通常のオーディオ機器における楽曲の再生である。
【0058】
基準信号発生部53は聴取者の聴力特性を測定するための基準信号を発生する。例えば基準信号をCD等の光ディスクに記録し、メディア再生部51によって光ディスクに記録された基準信号を再生してもよい。基準信号発生部53からの基準信号はスイッチ54の端子bに供給される。制御部60の制御によってスイッチ54が端子bに接続されている場合、基準信号はスピーカ56またはヘッドホン57によって発音される。聴力特性を測定する聴取者はスピーカ56またはヘッドホン57によって発音された基準信号を聴取する。基準信号は20Hz〜20kHzの範囲の選択的な複数周波数の音声信号を含む。聴取者は操作部59によって選択した周波数帯域の音声信号を聞きながら、操作部59で音圧レベル(ボリューム)を調整し、可聴できる最も小さい音圧レベルを決定する。
【0059】
聴取者が操作部59によって周波数帯域を選択すると、制御部60は基準信号発生部53に選択された周波数帯域の音声信号を発生させる。聴取者は複数の周波数帯域それぞれで可聴できる最も小さい音圧レベルを決定する。表示部61には、制御部60の制御によって一連の聴力特性を測定する際の案内となる画像が表示される。制御部60は、聴取者が入力した複数の周波数帯域における可聴できる最も小さい音圧レベルを聴取者個人が有する最小可聴限界として、この最小可聴限界のデータを記憶部62に記憶させる。
【0060】
信号処理部52は、第1〜第4実施形態の音声信号処理装置100〜400のいずれかを備えている。制御部60は、記憶部62から聴取者の最小可聴限界のデータを読み出し、信号処理部52(音声信号処理装置100〜400)を制御する。
【0061】
本発明は以上説明した各実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変更可能である。
【図面の簡単な説明】
【0062】
【図1】本発明の第1実施形態を示すブロック図である。
【図2】音圧レベル増幅部3a〜3eの具体的構成例を示すブロック図である。
【図3】音圧レベル増幅部3a〜3eにおける増幅特性を説明するための図である。
【図4】人間の標準的な聴力特性を示す図である。
【図5】音圧レベル増幅部3a〜3eにおける増幅特性の具体例を示す図である。
【図6】音圧レベル増幅部3a〜3eにおける過渡応答特性の処理を説明するための図である。
【図7】本発明の第2実施形態を示すブロック図である。
【図8】ダイナミックレンジ検出回路の動作例を説明するための図である。
【図9】第2実施形態における音圧レベル増幅部3a〜3eの構成例を示す部分ブロック図である。
【図10】本発明の第3実施形態を示すブロック図である。
【図11】本発明の第4実施形態を示すブロック図である。
【図12】聴取者の聴力特性に基づいた最小可聴限界を測定するための構成例を示すブロック図である。
【符号の説明】
【0063】
2a〜2e 帯域分割フィルタ
3a〜3e 音圧レベル増幅部
4a〜4e アンプ
5 加算部
100,200,300,400 音声信号処理装置
【特許請求の範囲】
【請求項1】
第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力する帯域分割フィルタと、
前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅する音圧レベル増幅部と、
前記音圧レベル増幅部によって増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力する加算部と
を備えることを特徴とする音声信号処理装置。
【請求項2】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせていることを特徴とする請求項1記載の音声信号処理装置。
【請求項3】
前記音圧レベル増幅部は、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させていることを特徴とする請求項2記載の音声信号処理装置。
【請求項4】
前記音圧レベル増幅部は、前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させていることを特徴とする請求項2または3に記載の音声信号処理装置。
【請求項5】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせていることを特徴とする請求項1または2に記載の音声信号処理装置。
【請求項6】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくしていることを特徴とする請求項5記載の音声信号処理装置。
【請求項7】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくしていることを特徴とする請求項5または6に記載の音声信号処理装置。
【請求項8】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定していることを特徴とする請求項5記載の音声信号処理装置。
【請求項9】
前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、
前記音圧レベル増幅部は、複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定しており、
前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることを特徴とする請求項8記載の音声信号処理装置。
【請求項10】
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、
前記音圧レベル増幅部は、前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定しており、
前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることを特徴とする請求項5記載の音声信号処理装置。
【請求項11】
前記音圧レベル増幅部は、前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定しており、
前記複数の聴取モードを選択するための操作部と、
前記操作部によって選択した聴取モードに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることを特徴とする請求項5記載の音声信号処理装置。
【請求項12】
前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することを特徴とする請求項1ないし11のいずれか1項に記載の音声信号処理装置。
【請求項13】
前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することを特徴とする請求項12記載の音声信号処理装置。
【請求項14】
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界であることを特徴とする請求項3,6ないし11のいずれか1項に記載の音声信号処理装置。
【請求項15】
前記最小可聴限界は、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界であることを特徴とする請求項3,6ないし11のいずれか1項に記載の音声信号処理装置。
【請求項16】
第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力し、
前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅し、
増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力する
ことを特徴とする音声信号処理方法。
【請求項17】
前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせることを特徴とする請求項16記載の音声信号処理方法。
【請求項18】
最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させることを特徴とする請求項17記載の音声信号処理方法。
【請求項19】
前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させることを特徴とする請求項17または18に記載の音声信号処理方法。
【請求項20】
前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせることを特徴とする請求項16または17に記載の音声信号処理方法。
【請求項21】
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくすることを特徴とする請求項20記載の音声信号処理方法。
【請求項22】
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくすることを特徴とする請求項20または21に記載の音声信号処理方法。
【請求項23】
前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定することを特徴とする請求項20記載の音声信号処理方法。
【請求項24】
前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、
複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、
前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えることを特徴とする請求項23記載の音声信号処理方法。
【請求項25】
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、
前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、
前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えることを特徴とする請求項20記載の音声信号処理方法。
【請求項26】
前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、
前記複数の聴取モードのいずれかを選択し、
選択した聴取モードに応じて前記増幅度の組を切り換えることを特徴とする請求項20記載の音声信号処理方法。
【請求項27】
前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することを特徴とする請求項16ないし26のいずれか1項に記載の音声信号処理方法。
【請求項28】
前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することを特徴とする請求項27記載の音声信号処理方法。
【請求項29】
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界であることを特徴とする請求項18,21ないし26のいずれか1項に記載の音声信号処理方法。
【請求項30】
前記最小可聴限界は、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界であることを特徴とする請求項18,21ないし26のいずれか1項に記載の音声信号処理方法。
【請求項1】
第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力する帯域分割フィルタと、
前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅する音圧レベル増幅部と、
前記音圧レベル増幅部によって増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力する加算部と
を備えることを特徴とする音声信号処理装置。
【請求項2】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせていることを特徴とする請求項1記載の音声信号処理装置。
【請求項3】
前記音圧レベル増幅部は、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させていることを特徴とする請求項2記載の音声信号処理装置。
【請求項4】
前記音圧レベル増幅部は、前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させていることを特徴とする請求項2または3に記載の音声信号処理装置。
【請求項5】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせていることを特徴とする請求項1または2に記載の音声信号処理装置。
【請求項6】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくしていることを特徴とする請求項5記載の音声信号処理装置。
【請求項7】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくしていることを特徴とする請求項5または6に記載の音声信号処理装置。
【請求項8】
前記音圧レベル増幅部は、前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定していることを特徴とする請求項5記載の音声信号処理装置。
【請求項9】
前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、
前記音圧レベル増幅部は、複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定しており、
前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることを特徴とする請求項8記載の音声信号処理装置。
【請求項10】
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、
前記音圧レベル増幅部は、前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定しており、
前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることを特徴とする請求項5記載の音声信号処理装置。
【請求項11】
前記音圧レベル増幅部は、前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定しており、
前記複数の聴取モードを選択するための操作部と、
前記操作部によって選択した聴取モードに応じて前記増幅度の組を切り換えるよう制御する制御部を備えることを特徴とする請求項5記載の音声信号処理装置。
【請求項12】
前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することを特徴とする請求項1ないし11のいずれか1項に記載の音声信号処理装置。
【請求項13】
前記音圧レベル増幅部は、前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することを特徴とする請求項12記載の音声信号処理装置。
【請求項14】
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界であることを特徴とする請求項3,6ないし11のいずれか1項に記載の音声信号処理装置。
【請求項15】
前記最小可聴限界は、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界であることを特徴とする請求項3,6ないし11のいずれか1項に記載の音声信号処理装置。
【請求項16】
第1の音声信号を複数の周波数帯域に分割して、前記複数の周波数帯域毎の第2の音声信号を出力し、
前記複数の周波数帯域それぞれの前記第2の音声信号を、前記第2の音声信号の最小音圧レベルから最大音圧レベルまでの範囲における前記最小音圧レベルから所定の範囲の低音圧レベル領域と前記最大音圧レベルから所定の範囲の高音圧レベル領域とを除く中間音圧レベル領域で、音圧レベルを前記低音圧レベル領域側から前記中間音圧レベル領域内の中間点まで順次大きくし、前記中間点から前記高音圧レベル領域側まで順次小さくする増幅特性で増幅し、
増幅された前記複数の周波数帯域それぞれの前記第2の音声信号を加算して第3の音声信号として出力する
ことを特徴とする音声信号処理方法。
【請求項17】
前記複数の周波数帯域における前記中間点の位置を少なくとも一部で異ならせることを特徴とする請求項16記載の音声信号処理方法。
【請求項18】
最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置を、最も前記高音圧レベル領域側に位置させることを特徴とする請求項17記載の音声信号処理方法。
【請求項19】
前記複数の周波数帯域の内の最も低域の周波数帯域における前記中間点の位置を、最も前記低音圧レベル領域側に位置させることを特徴とする請求項17または18に記載の音声信号処理方法。
【請求項20】
前記複数の周波数帯域における前記中間点の位置での増幅度を、少なくとも一部で異ならせることを特徴とする請求項16または17に記載の音声信号処理方法。
【請求項21】
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最小可聴限界の音圧レベルが最も小さい部分を含む周波数帯域における前記中間点の位置での増幅度を最も小さくすることを特徴とする請求項20記載の音声信号処理方法。
【請求項22】
前記複数の周波数帯域における前記中間点の位置での増幅度の内、最も低域の周波数帯域における前記中間点の位置での増幅度を最も大きくすることを特徴とする請求項20または21に記載の音声信号処理方法。
【請求項23】
前記複数の周波数帯域における前記中間点の位置での増幅度を、前記第1の音声信号が有するダイナミックレンジに基づいて算出した最小増幅度から最大増幅度までの範囲で設定することを特徴とする請求項20記載の音声信号処理方法。
【請求項24】
前記第1の音声信号はダイナミックレンジが異なる複数の音声信号の内のいずれかの音声信号であり、
複数のダイナミックレンジそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、
前記第1の音声信号が有するダイナミックレンジに応じて前記増幅度の組を切り換えることを特徴とする請求項23記載の音声信号処理方法。
【請求項25】
前記第1の音声信号は複数種類のジャンルのコンテンツの音声信号の内のいずれかの音声信号であり、
前記複数種類のジャンルそれぞれで前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、
前記第1の音声信号のジャンルに応じて前記増幅度の組を切り換えることを特徴とする請求項20記載の音声信号処理方法。
【請求項26】
前記第3の音声信号を聴取する際の複数の聴取モードに対応して、前記複数の周波数帯域における前記中間点の位置での増幅度の組を設定し、
前記複数の聴取モードのいずれかを選択し、
選択した聴取モードに応じて前記増幅度の組を切り換えることを特徴とする請求項20記載の音声信号処理方法。
【請求項27】
前記複数の周波数帯域の前記第2の音声信号に対して、前記第2の音声信号の音圧レベルが第1の音圧レベルから第2の音圧レベルへと上昇した時点で第1の時間のアタックタイムを有する過渡応答特性を付与すると共に、前記第2の音声信号の音圧レベルが第3の音圧レベルから第4の音圧レベルへと低下した時点で前記第1の時間よりも長い第2の時間のリリースタイムを有する過渡応答特性を付与することを特徴とする請求項16ないし26のいずれか1項に記載の音声信号処理方法。
【請求項28】
前記複数の周波数帯域の前記第2の音声信号に対して、高い周波数帯域ほど前記第1及び第2の時間が短い過渡応答特性を付与することを特徴とする請求項27記載の音声信号処理方法。
【請求項29】
前記最小可聴限界は、人間の標準的な聴力特性に基づく最小可聴限界であることを特徴とする請求項18,21ないし26のいずれか1項に記載の音声信号処理方法。
【請求項30】
前記最小可聴限界は、予め測定した前記第3の音声信号を聴取する聴取者の聴力特性に基づく最小可聴限界であることを特徴とする請求項18,21ないし26のいずれか1項に記載の音声信号処理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2009−77378(P2009−77378A)
【公開日】平成21年4月9日(2009.4.9)
【国際特許分類】
【出願番号】特願2008−164164(P2008−164164)
【出願日】平成20年6月24日(2008.6.24)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】
【公開日】平成21年4月9日(2009.4.9)
【国際特許分類】
【出願日】平成20年6月24日(2008.6.24)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】
[ Back to top ]