説明

音声記録再生装置及び音声再生装置

【課題】利便性を向上できる音声記録再生装置を提供する。
【解決手段】マイク6により捉えた音声データを記録媒体5に記録して録音を行い、記録媒体5から音声データを取り出して再生を行う音声記録再生装置1において、人の音声と人の音声以外とを判別する判別手段21、22、23、24を備え、録音時に判別手段21、22、23、24によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を記録媒体に記録して再生する音声記録再生装置に関する。また本発明は、記録媒体に記録された音声を再生する音声再生装置に関する。
【背景技術】
【0002】
従来のボイスレコーダ等の音声記録再生装置は録音を開始すると会話等を行う人の音声を記録媒体に記録する。また、所定の操作によって記録媒体に格納された音声データが取り出され、再生が行われる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−50045号公報(第4頁−第12頁、第4図)
【特許文献2】特開2008−170789号公報(第4頁−第10頁、第3図)
【特許文献3】特開2008−281850号公報(第3頁−第6頁、第2図)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来の音声記録再生装置によると、録音時には人の音声に加えて、無音状態やノイズ(会議が始まる前の机を叩く音や椅子を引くような音等)等の人の音声以外の不要な音声データも記録媒体に記録される。このため、再生時に使用者は不要な部分をカットするため早送りや巻き戻し等の繁雑な作業を必要とし、音声記録再生装置の利便性が悪い問題があった。また、記録媒体に記録された音声データを取り出して再生を行う音声再生装置についても同様の問題がある。
【0005】
本発明は、利便性を向上できる音声記録再生装置及び音声再生装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために本発明は、マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力することを特徴としている。
【0007】
この構成によると、録音の操作が行われると、マイクにより捉えた音声データが記録媒体に記録される。この時、判別手段によって音声データの人の音声の領域と人の音声以外の領域とを判別し、人の音声の各領域に対する開始位置及び終了位置が音声データとともに記録媒体に記録される。再生の操作が行われると、記録媒体から音声データが取り出されて再生が行われる。この時、人の音声の第1番目の領域の開始位置と終了位置との間を抽出して出力し、続いて第2番目以降の各領域の開始位置と終了位置との間を順に抽出して出力する。
【0008】
また本発明は、上記構成の音声記録再生装置において、前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断することを特徴としている。
【0009】
この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として記憶する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。
【0010】
また本発明は、上記構成の音声記録再生装置において、前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点を検出したときに人の音声と判断することを特徴としている。
【0011】
この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として記憶する。そして、所定の判定期間内に変化点が現われるか否かが監視され、現われたときに人の音声と判断して現われないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。
【0012】
また本発明は、上記構成の音声記録再生装置において、前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴としている。この構成によると、マイクにより捉えられた音声データの音声パワーが所定値よりも小さいか否かが判別される。音声パワーが所定値よりも小さい場合は音声パワーの変化量が大きくても変化点の検出に対して無視される。
【0013】
また本発明は、記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、前記判別手段によって判別した人の音声の開始位置とこれに続く終了位置との間を抽出して出力することを特徴としている。
【0014】
この構成によると、マイクにより捉えられた音声データに基づく音声パワーは変化量検出部によって単位時間内の変化量を検出される。変化点検出部は該変化量が所定値よりも大きいか否かを判別し、所定値よりも大きい場合に変化点として格納する。そして、所定の判定期間内の変化点の数が検知され、予め設定された所定数よりも多いときに人の音声と判断して少ないときにノイズや無音状態と判断する。これにより、人の音声の各領域の開始位置と終了位置が検出される。
【発明の効果】
【0015】
本発明の音声記録再生装置によると、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置の利便性を向上することができる。また、人の音声を録音時に判別するため再生時に判別時間を必要とせず、再生の遅延を防止することができる。
【0016】
また、本発明の音声再生装置によると、人の音声を迅速に抽出して再生することができる。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声再生装置の利便性を向上することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の第1実施形態の音声記録再生装置の構成を示すブロック図
【図2】本発明の第1実施形態の音声記録再生装置のデータフロー図
【図3】本発明の第1実施形態の音声記録再生装置のマイクで捉えたアナログ音声信号の一例を示す図
【図4】本発明の第1実施形態の音声記録再生装置の変化量検出部により導出した音声パワーの変化量の一例を示す図
【図5】本発明の第1実施形態の音声記録再生装置の録音時の動作を示すフローチャート
【図6】本発明の第2実施形態の音声記録再生装置の録音時の動作を示すフローチャート
【発明を実施するための形態】
【0018】
以下に本発明の実施形態を図面を参照して説明する。図1は第1実施形態の音声記録再生装置の構成を示すブロック図である。音声記録再生装置1は音声を捉えるマイク6と音声を出力するスピーカ10とを備えている。マイク6に接続されるA/D変換部7はマイク6で捉えたアナログ音声信号をデジタル音声信号に変換する。
【0019】
A/D変換部7にはA/D変換部7から出力されたデジタル音声信号から成る音声データに対する種々の処理を行うDSP(Digital Signal Processor)8が接続される。詳細を後述するように、DSP8に設けられるパワー変換部21、変化量検出部22、変化点検出部23及び会話検出部24(いずれも図2参照)によって人の音声と人の音声以外とを判別する処理を行う。また、DSP8に設けられるエンコーダ25及びデコーダ26(いずれも図2参照)によって音声コーデックによる音声データの圧縮や復号の処理を行う。
【0020】
DSP8はバスライン11を介してCPU2、メモリ3、記録媒体5、操作部12が接続される。CPU2はDSP8等の各部を制御するとともに演算処理を行う。メモリ3はCPU2の演算処理の一時記憶を行う。記録媒体5はフラッシュメモリや磁気記録媒体等から成り、DSP8により圧縮されたデジタル音声信号の音声データを記録する。操作部12は使用者の操作によって音声の録音や再生の開始及び停止を指示する。また、操作部12は時短再生部12aによって時短再生の開始の指示を行う。
【0021】
また、DSP8の出力側はD/A変換部9を介してスピーカ10に接続される。D/A変換部9はDSP8により記録媒体5の音声データを複合した非圧縮のデジタル音声信号をアナログ音声信号に変換する。
【0022】
図2は音声記録再生装置1のデータフロー図を示している。操作部12による録音開始の指示によって音声がマイク6で捉えられる。図3はマイク6で捉えたアナログ音声信号から成る音声データの一例を示している。マイク6で捉えた音声データには、非音声領域Aと音声領域Bとが含まれる。非音声領域Aは机を叩く音や椅子を引くような音等のノイズや無音状態の人の音声以外の領域を示している。音声領域Bは人の音声の領域を示している。
【0023】
アナログ音声信号の音声データはA/D変換部7で変換され、デジタル音声信号の音声データが出力される。A/D変換部7から出力された音声データはDSP8のパワー変換部21及びエンコーダ25に送られる。パワー変換部21はデジタルの音声データを音声パワーに変換して変化量検出部22に出力する。変化量検出部22は音声パワーの単位時間内の変化量を導出し、該変化量のデータが変化点検出部23に出力される。
【0024】
図4は変化量検出部22により導出した音声パワーの変化量の一例を示す図である。同図において縦軸は音声パワーの変化量を示し、横軸は時間を示している。変化点検出部23は音声パワーの変化量が所定値P0よりも大きい極大値となる点を変化点Cとして検出する。そして、変化点Cが発生した時刻の情報が会話検出部24に出力される。
【0025】
会話検出部24は変化点Cの時刻情報に基づいて所定の判定期間T0(図3参照)内で変化点Cが所定数よりも多いか否かを判断する。判定期間T0内で変化点Cが所定数よりも多い場合には人の音声が発せられたと判定する。また、判定期間T0内で変化点Cが所定数以下の場合には人の音声以外の領域であると判定する。これにより、各音声領域Bの開始位置と終了位置を検出する。従って、パワー変換部21、変化量検出部22、変化点検出部23及び会話検出部24により、音声データに対して人の音声と人の音声以外とを判別する判別手段を構成する。
【0026】
一方、エンコーダ25に送られた音声データはエンコーダ25によって非圧縮のデジタル音声信号がMP3等の圧縮したデジタル音声信号に変換される。圧縮されたデジタル音声信号は会話検出部24で検出した各音声領域Bの開始位置と終了位置のデータとともに記録媒体5に記録される。
【0027】
操作部12により再生の指示があると記録媒体5からデジタル音声信号の音声データが取り出され、DSP8のデコーダ26に送られる。圧縮されたデジタル音声信号はデコーダ26によって非圧縮のデジタル音声信号に変換される。非圧縮のデジタル音声信号はD/A変換部9でアナログ音声信号に変換され、スピーカ10から出力される。
【0028】
図5は音声記録再生装置1の録音時の動作をより詳細に示すフローチャートである。操作部12による録音の指示があると、ステップ#11でパワー変換部21により音声データが音声パワーに変換される。ステップ#12では変化量検出部22により前述の図4に示すように音声パワーの単位時間(例えば、260msec)内の変化量が導出される。
【0029】
ステップ#13、#21、#22、#35は変化点検出部23による動作を示している。また、ステップ#13、#14、#23〜#34、#41〜#44は会話検出部24の動作を示している。ステップ#13ではカウンタi(変化点検出部23)及びカウンタk(会話検出部24)を初期化して0が代入される。
【0030】
ステップ#14では音声領域Bを示すフラグFを初期化して0が代入される。ステップ#21では変化点検出部23によって音声パワーの変化量を監視し、変化点Cを検出するまで待機する。変化点Cを検出するとステップ#22に移行し、変数t(i)に変化点Cを検出した現在時刻が代入される。後述するようにステップ#21〜#44は繰り返し行われるため、変化点Cを検出する毎に変数t(0)、t(1)、t(2)、・・・の順に変化点Cの時刻が格納される(図3に矢印で示す)。
【0031】
ステップ#23ではカウンタjにカウンタiの値が代入され、変化点Cを計数する変数Nを初期化して0が代入される。ステップ#24では現在時刻と変数t(j)との時間差が判定期間T0よりも短いか否かが判断される。
【0032】
現在時刻と変数t(j)との時間差が判定期間T0よりも短くない場合はステップ#27に移行する。現在時刻と変数t(j)との時間差が判定期間T0よりも短い場合、即ち現在時刻から遡って変数t(j)の時刻が判定期間T0内である場合はステップ#25に移行する。
【0033】
ステップ#25ではカウンタjがデクリメントされ、変数Nがインクリメントされる。ステップ#26ではカウンタjが0よりも小さいか否かが判断される。カウンタjが0以上の場合はステップ#24に戻る。これにより、現在時刻から遡って判定期間T0内の変数t(j)の個数だけステップ#24〜#26が繰り返し行われ、変数Nが変化点Cの個数となる。また、処理の開始初期において現在時刻から遡った判定期間T0を経過する前にカウンタjが0よりも小さくなると、変数t(j)のデータがないためステップ#27に移行する。
【0034】
ステップ#27では変数Nが所定数N0よりも大きいか否かが判断される。変数Nが所定数N0以下の場合は判定期間T0内に変化点Cが少なく、非音声領域Aと判断してステップ#31に移行する。変数Nが所定数N0よりも大きい場合、即ち判定期間T0内に変化点Cが所定数N0よりも多いことを検出すると、音声領域Bと判断してステップ#41に移行する。
【0035】
ステップ#41ではフラグFが0か否かが判断される。フラグFが0の場合は直前が非音声領域Aの状態であり、音声領域Bに入ったためステップ#42でフラグFに1が代入される。ステップ#43では音声領域Bの開始位置の時刻を示す変数S(k)に判定期間T0内の先頭の変化点Cの時刻を示す変数t(j+1)の値が代入される。ステップ#44では音声領域Bの終了位置の時刻を示す変数E(k)に判定期間T0内の最後の変化点Cの時刻を示す変数t(i)の値が代入される。
【0036】
ステップ#41の判断でフラグFが1の場合は音声領域Bが継続しているため、ステップ#44に移行して音声領域Bの終了位置の時刻を示す変数E(k)が更新される。そして、ステップ#35でカウンタiをインクリメントしてステップ#21に戻る。
【0037】
ステップ#27で非音声領域Aと判断とした場合はステップ#31でフラグFが0か否かが判断される。フラグFが0の場合は非音声領域Aが継続しているため、ステップ#35でカウンタiをインクリメントしてステップ#21に戻る。これにより、ステップ#21〜#31が繰り返し行われ、変化点Cを検出する毎に変数t(i)のデータを蓄積して判定期間T0内の変化点Cの個数が検出される。
【0038】
ステップ#31でフラグFが1の場合は音声領域Bから非音声領域Aに切り替ったと判断し、ステップ#32に移行する。ステップ#32ではフラグFに0が代入される。ステップ#33では音声領域Bの開始位置及び終了位置の時刻である変数S(k)、E(k)が記録媒体5に送られ、音声データとともに記録される。ステップ#34ではカウンタkがインクリメントされ、ステップ#35を介してステップ#21に戻る。これにより、次の音声領域Bの開始位置及び終了位置が検出される。また、操作部12に録音停止の操作が行われると、録音が停止される。
【0039】
また、通常の再生の操作が行われると、記録媒体5から音声データが取り出されて再生が行われる。時短再生部12aの操作が行われると、記録媒体5から音声データ及び音声領域Bの開始位置及び終了位置の時刻データが取り出される。そして、第1番目の音声領域Bの開始位置(S(0))を検出して再生が開始され、これに続く終了位置(E(0))を検出すると再生を中断する。同様に、第2番目以降の音声領域Bの開始位置と終了位置との間を順に抽出して出力する。
【0040】
本実施形態によると、人の音声の音声領域Bと人の音声以外の非音声領域Aとを判別する判別手段(パワー変換部21、変化量検出部22、変化点検出部23及び会話検出部24)によって録音時に音声領域Bの開始位置S(k)と終了位置E(k)とを記録し、時短再生時に該開始位置と該終了位置との間を抽出して再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置1の利便性を向上することができる。
【0041】
また、音声パワーの単位時間内の変化量が所定値P0よりも大きい変化点Cが判定期間T0内に所定数N0よりも多いときに人の音声と判断する。このため、判定期間T0内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別できる。
【0042】
また、ステップ#21において音声パワーが所定値よりも小さい場合に変化点Cの検出を省いてもよい。これにより、音声パワーの変化量が大きくても音量が小さい場合に非音声領域Aと判断し、変数t(i)を格納するメモリ3の無駄な消費を抑制することができる。
【0043】
次に、図6は第2実施形態の音声記録再生装置1の録音時の動作を示すフローチャートである。本実施形態は、非音声領域Aと音声領域Bとを判別する方法が第1実施形態と異なっている。同図において、ステップ#11〜#14及びステップ#31〜#44は前述の図5と同様であるので一部説明を省略する。
【0044】
ステップ#28では変化点検出部23によって音声パワーの変化量を監視し、変化点Cを検出したか否かが判断される。変化点Cを検出しない場合はステップ#29に移行して判定期間T0が経過したか否かが判断される。判定期間T0が経過していない場合はステップ#28に戻り、ステップ#28、#29が繰り返し行われる。
【0045】
判定期間T0内に変化点Cを検出すると音声領域Bに入ったと判断し、ステップ#41に移行する。ステップ#41〜#44は第1実施形態と同様である。但し、ステップ#43、#44では音声領域Bの開始位置及び終了位置の時刻を示す変数S(k)、E(k)に現在時刻が代入される。
【0046】
判定期間T0内に1つも変化点Cを検出しない場合は非音声領域Aに入ったと判断し、ステップ#31に移行する。ステップ#31〜#34は第1実施形態と同様である。
【0047】
本実施形態によると、第1実施形態と同様に、録音時に音声領域Bの開始位置S(k)と終了位置E(k)とを記録し、該開始位置と該終了位置との間を抽出して再生を行う。従って、無音部分やノイズをカットする煩雑な操作を必要とせず、音声記録再生装置1の利便性を向上することができる。
【0048】
また、判定期間T0内に1つでも変化点Cを検出したときに人の音声の音声領域Bと判断するので、変数t(i)(図5参照)を格納するメモリ3の容量を削減することができる。
【0049】
第1、第2実施形態において、図5、図6に示す非音声領域Aと音声領域Bとを判別する動作を再生時に行ってもよい。この時、音声パワーの単位時間内の変化量が所定値P0よりも大きい変化点Cが判定期間T0内に所定数N0よりも多いときに人の音声と判断する。このため、判定期間T0内の音声データの周波数分解等を行って人の音声を判別するよりも人の音声を容易且つ迅速に判別でき、再生の遅延を防止することができる。
【0050】
尚、第1、第2実施形態に示すように人の音声を録音時に判別すると、再生時に判別時間を必要とせず再生の遅延をより確実に防止することができる。
【0051】
また、音声記録再生装置1により音声の録音及び再生を行っているが、録音機能を省いて再生のみを行ってもよい。この時、上記の非音声領域Aと音声領域Bとを判別する動作を再生時に行って音声再生装置の利便性を向上することができる。
【産業上の利用可能性】
【0052】
本発明によると、音声を記録媒体に記録して再生するボイスレコーダ等の音声記録再生装置に利用することができる。また本発明によると、記録媒体に記録された音声を再生する音声再生装置に利用することができる。
【符号の説明】
【0053】
1 音声記録再生装置
2 CPU
3 メモリ
5 記録媒体
6 マイク
7 A/D変換部
8 DSP
9 D/A変換部
10 スピーカ
11 バスライン
12 操作部
21 パワー変換部
22 変化量検出部
23 変化点検出部
24 会話検出部
25 エンコーダ
26 デコーダ

【特許請求の範囲】
【請求項1】
マイクにより捉えた音声データを記録媒体に記録して録音を行い、前記記録媒体から音声データを取り出して再生を行う音声記録再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、録音時に前記判別手段によって判別した人の音声の開始位置及び終了位置を記録するとともに、再生時に前記開始位置とこれに続く前記終了位置との間を抽出して出力することを特徴とする音声記録再生装置。
【請求項2】
前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断することを特徴とする請求項1に記載の音声記録再生装置。
【請求項3】
前記判別手段は、前記マイクにより捉えた音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを備え、所定の判定期間内に前記変化点を検出したときに人の音声と判断することを特徴とする請求項1に記載の音声記録再生装置。
【請求項4】
前記音声パワーが所定値よりも小さいときに前記変化点検出部による前記変化点の検出を行わないことを特徴とする請求項2または請求項3に記載の音声記録再生装置。
【請求項5】
記録媒体に記録された音声データを取り出して音声の再生を行う音声再生装置において、人の音声と人の音声以外とを判別する判別手段を備え、前記判別手段は、音声データに基づく音声パワーの単位時間内の変化量を検出する変化量検出部と、前記変化量が所定値よりも大きい変化点を検出する変化点検出部とを有して、所定の判定期間内に前記変化点が所定数よりも多いときに人の音声と判断し、前記判別手段によって判別した人の音声の開始位置とこれに続く終了位置との間を抽出して出力することを特徴とする音声再生装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2010−257500(P2010−257500A)
【公開日】平成22年11月11日(2010.11.11)
【国際特許分類】
【出願番号】特願2009−102694(P2009−102694)
【出願日】平成21年4月21日(2009.4.21)
【出願人】(000001889)三洋電機株式会社 (18,308)
【Fターム(参考)】