撮像装置
【課題】
動画撮影中の静止画撮影で、録音用の入力音声に混入する撮像光学系の合焦音を低減する。
【解決手段】
動画撮影中の静止画撮影で、カメラCPU(16)は、合焦検出部(14)の出力に従いレンズ駆動部(18)により撮像光学系(10)のフォーカシングレンズを駆動して合焦させる。合焦時に、合焦音発生部(40)は、スピーカ(42)を駆動して合焦音を出力させる。マイク(22)は、動画撮影中に周囲音声とスピーカ(42)の出力する合焦音を取り込む。音声処理部(28)は、利得調整部(24)からの音声信号から合焦音重畳区間の音声信号を除去し、合焦音重畳区間の前後の区間の音声信号から合焦音重畳区間の音声信号を予測して補完し、疑似合焦音発生部(30)からの疑似合焦音信号を合成する。
動画撮影中の静止画撮影で、録音用の入力音声に混入する撮像光学系の合焦音を低減する。
【解決手段】
動画撮影中の静止画撮影で、カメラCPU(16)は、合焦検出部(14)の出力に従いレンズ駆動部(18)により撮像光学系(10)のフォーカシングレンズを駆動して合焦させる。合焦時に、合焦音発生部(40)は、スピーカ(42)を駆動して合焦音を出力させる。マイク(22)は、動画撮影中に周囲音声とスピーカ(42)の出力する合焦音を取り込む。音声処理部(28)は、利得調整部(24)からの音声信号から合焦音重畳区間の音声信号を除去し、合焦音重畳区間の前後の区間の音声信号から合焦音重畳区間の音声信号を予測して補完し、疑似合焦音発生部(30)からの疑似合焦音信号を合成する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声付きの動画と同時に静止画を撮影可能な撮像装置に関する。
【背景技術】
【0002】
カメラで静止画撮影を行う場合、通常、撮影者がレリーズボタンを半押しした段階で焦点調節及び露出調節が行われ、全押しで被写体画像が取り込まれ、記録される。撮影レンズの合焦時に、合焦音を発生するカメラがある。他方、動画撮影では、焦点調節が継続的に行われることと、同時に取り込む周囲音声に対してノイズ音となるので、合焦音を発生させることは無い。
【0003】
近年,動画撮影中に静止画撮影を行えるカメラが製品化されている。動画撮影中に静止画撮影のためのレリーズボタンの半押しをすると、静止画撮影のための合焦動作が始動することがある。例えば、静止画撮影の場合、撮影画角内の1又は複数のエリアで合焦判定したり、撮影画角内の人間(の顔)に注目して合焦動作することがあり、この際の合焦制御は、動画撮影時のそれとは異なることがあるからである。
【0004】
静止画撮影のための合焦調節を行う場合、動画撮影中であっても、その合焦調節の完了を撮影者に知らせる手段が必要となる。しかし、音で撮影者に知らせると、動画撮影に付随して記録している音声にノイズ音として混入してしまう。また、合焦調節のためのフォーカシングレンズの駆動音又は移動音も、記録中の音声にノイズ音として混入してしまう。
【0005】
周囲の音声を取り込むためのマイクは、通常、撮像装置の正面の、撮影レンズの近くに配置されている。従って、マイクは、合焦調節に伴う撮影レンズの作動音を取り込み易い。露出調整に伴う絞りの作動音も容易に取り込んでしまう。ノイズ音発生位置に近いことから、相対的に大きな音量で取り込んでしまうだけでなく、合焦駆動音と共に発生する振動や合焦音がカメラ内で起こす残響までも、取り込んでしまう。
【0006】
特許文献1には、シャッタ音を動画撮影時には消去することが記載されている。シャッタ音を消去するモードと消去しないモードがあり、ユーザが何れか一方を選択できるようになっている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2006−311412号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
撮影した動画を再生する際に、どの時点で静止画を撮影したかが分かると、便利である。そのためには、従来技術では、音声に混入する合焦通知音又は合焦動作音を頼るしかないが、そのような音は、本来の音の品質を低下させるノイズ音でもあり、鮮明で聴き取りやすいものとは言えない。
【0009】
本発明は、動画撮影中になされる静止画撮影タイミングを、本来の音声の品質を損なわない明確な音でユーザに知らせることが出来る撮像装置を提示することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係る撮像装置は、動画撮影中に静止画を撮影する撮像装置であって、撮像光学系と、前記撮像光学系による光学像を画像信号に変換する撮像手段と、前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、前記合焦音を含む周囲音を取り込む音声入力手段と、疑似合焦音信号を発生する疑似合焦音発生手段と、前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段とを具備することを特徴とする。
【発明の効果】
【0011】
本発明によれば、被写体音声に混入する合焦音又はレンズ駆動音を削除し、高品質が疑似音を代わりに合成するので、再生時に合焦又はレンズ駆動を高品質な再生音で表現できる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施例の概略構成ブロック図である。
【図2】合焦音から擬似合焦音を生成し記憶する回路の概略構成ブロック図である。
【図3】音声処理部による特定区間の音声を削除し補完する処理の説明用タイミングチャートである。
【図4】音声処理部による合焦音低減処理の説明用タイミングチャートである。
【図5】入力音声信号に対する利得の変化を説明するタイミングチャートである。
【図6】予測音声信号の説明用タイミングチャートである。
【図7】擬似合焦音合成の説明用タイミングチャートである。
【図8】本実施例の被写体音声取り込みのフローチャートである。
【図9】再生画面の画面例である。
【図10】入力音声に混入した合焦音を削除し,疑似合焦音を合成する処理のフローチャートである。
【図11】入力音声に混入した合焦音を削除し,疑似合焦音を合成する別の処理の説明用タイミングチャートである。
【図12】レンズ駆動音を低減する場合の説明用タイミングチャートである。
【図13】レンズ駆動音を低減する回路の概略構成ブロック図である。
【図14】レンズ駆動音が重畳している被写体音声信号と、疑似レンズ駆動音のスペクトル波形例である。
【発明を実施するための形態】
【0013】
以下、図面を参照して、本発明の実施例を詳細に説明する。
【実施例1】
【0014】
図1は、本発明に係る撮像装置の一実施例であるデジタル一眼レフカメラの概略構成ブロック図を示す。
【0015】
図1に示す実施例の基本的な構成と動作を説明する。撮像光学系10は、被写体からの光学像を撮像素子12に入射する。合焦検出部14は、撮像光学系10からの被写体光の合焦度を検出し、検出結果をカメラCPU16に供給する。カメラCPU16は合焦検出部14の合焦度出力に従い、レンズ駆動部18により撮像光学系10のフォーカシングレンズを合焦位置に向け駆動する。この帰還制御により、撮像光学系10は、被写体に合焦する位置に制御される。なお、レンズ駆動部18は、カメラCPU16からの指示に従い、撮像光学系10のズームレンズ及び絞りも駆動する。
【0016】
撮像素子12は撮像光学系10による光学像を画像信号に変換し、その画像信号を画像処理部20に供給する。画像処理部20は、撮像素子12の出力画像信号を動画像として処理する動画像処理部20Mと、撮像素子12の出力画像信号の1画面を静止画として処理する静止画処理部20Sを具備する。例えば、動画像処理部20Mは、撮像素子12の出力画像信号をMPEG方式又はMotion JPEG方式で圧縮符号化する。静止画処理部20Sは、撮像素子12の出力画像信号をJPEG方式で圧縮符号化する。
【0017】
音声入力手段であるマイク22は、周囲の音声を取り込み、音声信号を利得調整部24に出力する。マイク22は、カメラ筐体裏側に不図示のゴムなどで弾性的に取り付けられている。利得調整部24は、マイク22からの音声信号の利得を調整する。利得調整制御部26は、カメラCPU16からの指示に従い、利得調整部24の利得を制御する。疑似合焦音発生部30は、カメラCPU16からの指示に従い、所定の疑似合焦音信号を発生する。音声処理部28は、利得調整部24からの音声信号を処理した上で疑似合焦音発生部30からの疑似合焦音信号を合成し、記録用に符号化する。
【0018】
記録部32には、画像処理部20から符号化画像信号(圧縮動画像信号と圧縮静止画信号)が供給され、音声処理部28から符号化音声信号が供給される。記録部32にはまた、カメラCPU16から、撮影画像の画素数、シャッタ速度、絞り値及びフレームレート等の撮影条件、並びに、静止画撮影の際の合焦タイミングを示す信号が供給される。記録部32は、画像処理部20,音声処理部28及びカメラCPU16からのこれらの情報を図示しない記録媒体に記録する。記録媒体は、例えば、半導体メモリ、磁気ディスク又は光ディスク等からなる。
【0019】
開始/停止スイッチ34は、動画撮影の開始と停止をカメラCPU16に指示するのに使用される。レリーズボタン36は、静止画撮影で、半押しで合焦と露出の制御を、全押しで撮影の実行をカメラCPU16に指示にするのに使用される。ユーザは、動画/静止画モード切替えスイッチ38を使って、カメラCPU16に動画モードと静止画モードの切替えを指示できる。動画モードと静止画モードの詳細は口述する。
【0020】
カメラCPU16は、静止画撮影の際に撮像光学系10が被写体に合焦した時に、合焦音発生部40に合焦音信号を発生させる。合焦音発生部40は、カメラCPU16からの指示に従い合焦音信号を発生し、スピーカ42に供給する。スピーカ42は、合焦音発生部40の発生する合焦音信号を音響出力する。カメラCPU16はまた、動画撮影中での静止画撮影に対しても合焦音信号を合焦音発生部40に発生させる。このときの合焦音は、静止画単体の撮影の際のそれとは異なる。例えば、静止画単体撮影の場合の合焦音を「ピピッ!」とし、動画撮影中での静止画撮影のそれを、より短い音、例えば、「ピッ!」とする。詳細は後述するが、動画撮影中での静止画撮影のための合焦音はマイク22の出力音声から削除されるが、その削除期間は短い方が好ましいからである。
【0021】
カメラCPU16は音声処理部28にその動作を制御する制御信号を供給する。例えば、カメラCPU16は音声処理部28に、撮像光学系10の合焦時を含む短い期間を示す合焦タイミングゲート信号を供給する。この合焦タイミングゲート信号は、例えば、マイク22(実際には利得調整部24)の出力音声信号に合焦音が重畳する期間又はこれを包含する期間(以下、合焦音重畳区間という)を示す。音声処理部28は、このような合焦タイミングゲート信号に依存せずに自律的に合焦音重畳区間を利得調整部24の出力音声信号から検出しても良い。この場合、カメラCPU16からの合焦タイミングゲート信号に類する、合焦タイミングを示す信号は不要になる。
【0022】
音声処理部28は、マイク22による入力音声信号に混入するスピーカ42からの合焦音を次のように削除し、疑似合焦音を挿入する。すなわち、音声処理部28は、マイク22(実際には利得調整部24)の出力音声信号から合焦音重畳区間の音声信号を削除し、合焦音重畳区間の前後の音声から予測して補完する。前後の音声から予測して補完信号を生成するので、合焦音重畳区間をより自然につなぐことが出来る。
【0023】
カメラCPU16はまた、撮像光学系10の合焦に同期して、疑似合焦音発生部30に所定トーンからなる疑似合焦音を発生させる。音声処理部28は、合焦音重畳区間の音声信号を削除した後の利得調整部24の出力音声信号に、疑似合焦音発生部30からの疑似合焦音を合成する。スピーカ42から出力される合焦音をマイク22で拾った場合、奇麗な音にはならない。しかし、本実施例のように、一旦、マイク22で拾った合焦音を削除した後に、電気的に発生する疑似合焦音音を重畳することにより、良質な合焦音を録音できる。
【0024】
疑似合焦音発生部30が発生する疑似合焦音信号は、例えば、図2に示すような構成で、疑似合焦音発生部30に書き込まれる。スピーカ42から出力される合焦音をマイク22又は別のマイクで取り込み、フィルタ46で余分な周波数部分を除去する。そのフィルタ46の出力音声信号が、疑似合焦音信号として、疑似合焦音発生部30に書き込まれる。
【0025】
疑似合焦音発生部30の出力する疑似合焦音信号の代わりに、合焦音発生部40の発生する合焦音信号、又はこれをフィルタ処理した音信号を適切なタイミングで音声処理部28に供給しても良い。
【0026】
合焦音重畳区間に対する音声処理部28の処理を詳細に説明する。まず、合焦音重畳区間の音声信号を破棄する。次に、音声処理部28に含まれる音声予測補完部が、合焦音重畳区間の時間的に前の区間及び後の区間を学習区間として、前後の学習区間から合焦音重畳区間にあるべき音声信号を予測する。そして、音声予測補完部は、予測された音声信号を合焦重畳区間に配置する。
【0027】
線形予測係数の導出(学習動作)と線形予測係数を用いた信号の予測(予測動作)を例に、音声予測補完部の動作を説明する。
【0028】
線形予測を用いるにあたり、現在の信号とこれに隣接する有限個(ここではp個とおく)の標本値との間に、次のような線形1次結合関係を仮定する。すなわち、
【数1】
但し、式(1)において、εtは、平均値0、分散σ2の互いに無相関な確率変数である。
【0029】
ここでxtが過去の値から予測されるように式を変形すると、
【数2】
となる。
【0030】
式(2)によると、εtが十分に小さければ、近傍p個の線形和によって現在の値が表現される。xtを上記の予測によって求めた後、さらにその近似が十分によければ、xt+1も同じく近傍p個の線形和によって求められる。
【0031】
このように、εtを十分に小さくすることが出来れば、順次値を予測して信号を求めることが出来る。そこで、εtを最小にするようなαiを求めることを考える。本実施例では、εtを最小にするようなαiを求める動作を学習動作と呼ぶ。
【0032】
前述した学習区間において、Σεt2を最小化すればよい。学習の開始時間をt0、終了時間t1とすると、
【数3】
ただし、α0=1である。ここで、式(3)を簡単化するために、
【数4】
とおく。式(3)を最小化するようにαiを決めるためには、式(3)のαj(j=1,2,・・・,p)に関する偏微分を0として解けばよい。この結果、
【数5】
が得られる。式(5)は、p個の線形連立1次方程式を解けば、αiを決定できることを示している。式(5)のcijは、xt−i(i=1,2,・・・,p)から求めることができる。すなわち、式(5)からαiを求めることができる。
【0033】
式(5)に従ってαiを決定した場合、Σεt2は最小化されている。このとき、式(2)から、xtの値は、
【数6】
で近似できる。この近似が十分に良いものであれば、xtの代わりに、式(6)の右辺を予測信号として用いることができる。
【0034】
さらに、xt+1についても同様に、近傍のp−1個と、予測によって求めた信号とから近似値を得ることが出来る。
【0035】
このような処理を順次、繰り返すことで、予測区間(ここでは、合焦音重畳区間に一致する。)の音声信号を生成出来る。本実施例では、求められたαiから予測区間の近似を求める動作を予測動作と呼ぶ。
【0036】
図3は、被写体(又は周囲)からの音声(以下、「被写体音声」という。)の音圧レベルと、合焦音重畳区間(予測区間)、学習区間との関係を示す模式図である。横軸は、時間を示し、縦軸は被写体音の有無を示す。
【0037】
51aは元の被写体音声であり、合焦音重畳区間である削除区間52に合焦音(雑音)が重畳している。音声処理部28は、削除区間52の被写体音声51aを削除する。
【0038】
51bは、削除区間52の被写体音声を削除した後の被写体音声を示す。音声処理部28は、削除区間52より時間的に前の学習区間53aと、時間的に後ろの学習区間53bから削除区間52に対して予測動作を繰り返し、予測波形を削除区間52に埋め込む。
【0039】
51cは、削除区間52に予測動作で得られる予測信号が埋め込まれた被写体音声を示す。削除区間52が、予測信号を埋め込むべき予測区間54になる。
【0040】
このように、学習動作を行うに当たっては、予測区間の前後の信号を用いる。これは、音声信号が、極く短時間の領域に着目すると、比較的繰り返し性が高いという性質を利用している。
【0041】
学習動作および予測動作では、学習区間53aと学習区間53bの信号に対して夫々独立に計算を行う。学習区間53aの学習動作に基づき予測区間54の信号を生成することを、前方からの予測、略して前方予測と呼ぶ。他方、学習区間53bの学習動作に基づき予測区間54の信号を予測することを、後方からの予測、略して後方予測と呼ぶ。予測区間の信号の計算では、学習区間33aに近いほど前方予測による値の重みを大きくし、学習区間33bに近いほど後方予測による値の重みを大きくするように、前方予測と後方予測を重み付けする。
【0042】
図4は、本実施例における実際の合焦音と、削除区間及び予測区間、並びに、疑似合焦音との関係を示すタイミングチャートである。横軸は時間を示し、縦軸は、被写体音声の音圧レベルを示す。61a〜61dは、被写体音声の音圧レベルを示す。
【0043】
被写体音声61aには実際に発音した実際の合焦音60が重畳している。被写体音声61bに示すように、合焦音重畳区間を含む削除区間62の被写体音声を削除する。削除区間62は、一般に実合焦音60が重畳している区間より広い。
【0044】
実合焦音60の重畳する区間より広い区間の被写体音声を削除する理由を以下に説明する。カメラCPU16は、合焦検出部14からの焦点検出信号に従い、レンズ駆動部18により撮像光学系10を合焦点に制御する。カメラCPU16は、撮像光学系10が合焦点に到達するタイミングで合焦音発生部40に合焦音発生指示信号を供給すると共に、削除区間62を示す合焦タイミングゲート信号を音声処理部28に供給する。音声処理部28は、利得調整部24からの音声信号のうち、合焦タイミングゲート信号が示す区間の音声信号を削除する。合焦タイミングゲート信号は、合焦音発生部40の発生する合焦音とその残響音がマイク22に入力する期間を包含する区間を示すように、合焦音発生指示信号の期間より広く設定される。
【0045】
削除区間62の音声信号を予測する場合に、利得調整部24の動作を考慮する必要がある。利得調整部24は、被写体音声が小さいときには増幅利得を大きくして感度を高め、被写体音声が小さいときには増幅利得を小さくして信号の飽和を防いでいる。
【0046】
図5は、利得調整部24の利得の変化例を示す。横軸は時間を示し、縦軸は、マイク22の出力音声信号の音圧レベルと、利得調整部24の利得レベルを示す。被写体音声61aには実合焦音60が重畳している。
【0047】
合焦音60が被写体音声61aに対して大きな音圧レベルの場合、利得調整部24は、音声信号の飽和を防ぐ為に合焦音60が存在する区間で利得レベル71を下げる。一般的には、大きな音が止んだ時点以降、利得調整部24は、利得レベル72に示す様に利得を徐々に元に戻す。これは、利得レベルを急激に戻すと、その前後の音声が不連続になり、違和感が生ずるからである。
【0048】
他方、利得レベル72の様に徐々に利得を変化させると、利得が変化する期間73は、予測音声作成のための学習区間として利用できない。これに対し、カメラCPU16は、利得調整制御部26を介して利得調整部24の利得を利得レベル74に示すように、実合焦音60の終了後、利得レベルを急速に戻す。すなわち、利得調整制御部26は、カメラCPU16からの合焦音の終了タイミングを示す信号に従い、利得調整部24の利得制御の帰還ループの時定数を一時的に短縮する。このような利得の一時制御により利得レベルが全体として安定し、合焦音の後の期間を学習区間として利用出来る。
【0049】
音声の予測では、予測信号が時間経過と共に発散してしまう可能性がある。これは、前述した計算により求めた各予測係数の誤差が累積するからであり、その結果として、予測音声が極めて大きくなってしまう。この問題は、各予測係数を調整することで解決できる。例えば、時刻tにおける被写体音声を前回求めたレベルより小さくなる様に各係数の倍率を一律に変更する。このような調整により、次に予測される音声信号は前回よりも小さい値になり、最終的には予測音声信号が収束する。予測音声信号の精度は若干低下するが、その後に擬似合焦音が合成されるので、その精度低下は目立たない。
【0050】
図6は、以上の処理を説明する模式図を示す。横軸は時間を示し、縦軸は音圧レベルを示す。合焦音重畳区間65の音声を削除した被写体音声61cに対し、合焦音重畳区間の前後の音声から学習及び予測し、削除区間に予測音声を埋め込む。このとき、前述した様に各係数を調整し、予測音声71a,71bとして示すように、時間の経過と共にゼロに収束する予測音声とする。
【0051】
図4に示すように、疑似合焦音発生部30が、被写体音声61dに対し、予め記憶してある所定音を擬似合焦音64として予測区間63内に発生し、音声処理部28が、擬似合焦音64を被写体音声61dに合成する。擬似合焦音64を合成する区間66は、合焦音重畳区間65より短い。これは、実合焦音の長さと揃える為である。
【0052】
被写体音声61dの大きさに合わせて、擬似合焦音の音圧レベルを調整する。即ち、被写体音声が大きい時には擬似合焦音も大きくして良く聞こえるようにする。他方、被写体音声が小さい時は、擬似合焦音も小さくして、擬似合焦音ばかりが目立つ事が無い様にする。図7は、被写体音声61dと擬似合焦音の音圧レベルの関係を示す模式図である。横軸は時間を示し、縦軸は音圧レベルを示す。図7に示す例では、擬似合焦音64a,64bの音圧レベルを被写体音声61d,61eの音圧レベルのほぼ倍としている。
【0053】
図8は、本実施例における被写体音声の検出と仮記憶の動作を示す。カメラCPU16上で動作する制御プログラムが、図8に示すフローチャートを実現するように各部を制御する。図8に示すフローは、動画撮影の開始(又は音声のみの記録の開始)と共にスタートする。
【0054】
ステップS8001では、カメラCPU16は、実合焦音の発生が終了しているか否かを判定し、終了している場合はステップS8002に進み、そうで無い場合はステップS8003に進む。前述した様に、実合焦音発生時はその音が大きい事から、利得調整部24がマイク22の増幅利得を下げている。その為、実合焦音終了直後は、利得が直ぐに回復せず、後方予測の精度が低くなる。
【0055】
ステップS8002で、カメラCPU16は、利得調整制御部26に指示して、実合焦音の終了直後に利得調整部24の利得を瞬時に回復させる。これにより、実合焦より時間的に後の学習区間の被写体音声を早期に安定させることができ、後方予測の精度が向上する。
【0056】
実合焦音以外の音の場合には、ステップS8002をスキップするので、利得回復はゆっくりとなり、違和感の無い被写体音声信号になる。
【0057】
ステップS8003で被写体音声の取り込みを行い、ステップS8004で合焦状態の取り込みを行う。合焦状態情報としては、実合焦音の発生と終了のタイミングや、撮像する画像の中での合焦領域情報があげられる。実合焦音の発生終了タイミングは、被写体音声内の実合焦音重畳区間の削除や予測に使用される。合焦領域情報は、図9に示す様に、動画再生時に画像内に合焦領域を表示するために用いられる。図9は、動画再生画面に合焦領域を重畳表示する画面例を示す。動画再生時にレリーズ操作などで急速合焦を行った場合、記録されていた合焦領域がフレーム91内に合焦エリア92として重畳表示され、同時に、擬似合焦音が発生される。
【0058】
ステップS8005では、取り込んだ音声信号および合焦状態情報を同期してバッファなどに一時記憶する。
【0059】
図10は、本実施例の被写体音声処理のフローチャートを示す。音声の録音又は動画の撮影開始から所定の時間遅れて、音声処理部28は、図10に示すフローをスタートする。この時間遅れは、予測音声作成に必要な時間を見込んだものであり、前述した各予測係数の算出及び後方予測に必要な時間(例えば、後方学習区間33bに要する時間)である。音声処理部28が、利得調整部24の出力音声信号をバッファに記憶した上で、後方予測を採用するので、精度の高い予測音が得られる。
【0060】
ステップS10001で、音声処理部28は、バッファに一時記憶された被写体音声を走査し、合焦状態情報などにより実合焦音が重畳したか否かを判定する。実合焦音重畳区間になると、ステップS10002に進み、そうで無い時はステップS10001に戻り、循環待機する。
【0061】
ステップS10002で、音声処理部28は、バッファに記憶された被写体音声信号のうち、実合焦音重畳区間の信号を削除する。
【0062】
ステップS10003で、音声処理部28は、実合焦音重畳区間の前後の被写体音声信号から実合焦音重畳区間の被写体音声を予測して組み込む。
【0063】
ステップS10004で、音声処理部28は、実合焦音重畳区間より前の区間における被写体音圧レベルが所定値より大きいか否かを判定する。被写体音圧レベルが所定値より小さい場合はステップS10005に進み、大きい場合はステップS10006に進む。
【0064】
ステップS10005及びS10006では共に、音声処理部28は、擬似合焦音信号を被写体音声信号に合成する。ただし、ステップS10006では、音圧レベルの大きな擬似合焦音を合成し、ステップS10005では、音圧レベルの小さな疑似合焦音を合成する。これにより、被写体音声に擬似合焦音が埋もれてしまうことを防ぐ。
【0065】
ステップ#10007で、音声処理部28は、擬似合焦音が合成された被写体音声信号を記録部32に出力して、ステップS10001に戻る。記録部32は、音声処理部28からの音声信号を図示しない記録媒体に記録する。
【0066】
実合焦音重畳区間65の音声信号は削除され、その部分を予測信号で補完するが、削除するこの区間65(削除区間62)が短いほど、予測信号の誤差が累積されない。実合焦音重畳期間は、短いほど好ましい。しかし、合焦確認としての実合焦音は、ある程度の長さがあった方が撮影時の操作感がよい。同じ静止画撮影でも、動画を撮影していないときの静止画単独撮影の場合の合焦音を長めとし、動画撮影中の静止画撮影では、より短い合焦音とする。そして、記録すべき音声信号に埋め込む疑似合焦音は、静止画単独撮影の場合の実合焦音と同じ長さとする。これにより、再生時の違和感を解消する。例えば、静止画単独撮影時の実合焦音を「ピピッ!」とする。他方、動画撮影中での静止画撮影の場合の実合焦音を「ピッ!」とし、擬似合焦音を「ピピッ!」とする。
【0067】
動画静止画モード切替えスイッチ38でユーザが静止画撮影モードを指定している場合、カメラCPU16は、合焦音発生部40に合焦時に「ピピッ!」と2度の連続破裂音を発生させる。他方、動画撮影モードが指定されている場合、カメラCPU16は、合焦音発生部40に合焦時に「ピッ!」と1度の破裂音を発生させる。
【0068】
図11は、以上の動作の説明用タイミングチャートである。横軸は時間を示し、縦軸は音圧レベルを示す。111aから111dはそれぞれ、被写体音声を示す。被写体音声111aには、実際に発音した実合焦音110が重畳している。ここでは、動画撮影時の実合焦音であるので、図4に示す実合焦音60に比べて実合焦音の発生区間が短くなっている。
【0069】
音声処理部28は、合焦音重畳区間の被写体音声を削除するが、ここでは、実合焦音110の存在する区間より広い区間112の被写体音声を削除する。この削除区間112も、図4で示した削除区間62より短く出来る。
【0070】
被写体音声111cでは、音声処理部28は、削除区間112の前後の被写体音声信号を学習し、削除区間の被写体音声を予測して、補完する。削除区間112が短いので、補完する予測音声に誤差が累積しない。
【0071】
被写体音声111dで、音声処理部28は、擬似合焦音114を被写体音声111dに合成する。擬似合焦音114を合成する区間116は、静止画時の合焦音と同じ長さになり、削除区間112よりも長い。これにより、最終的に記録された被写体音声の再生時には、静止画撮影時と同じ長さの擬似合焦音が知覚される。このように構成にすることで、静止画撮影時の合焦音と同等で違和感の無い動画再生が行われると共に、予測信号の誤差累積を防ぐ事が出来る。
【実施例2】
【0072】
本実施例は、合焦の為のレンズ駆動音を低減することもできる。合焦の為のレンズ駆動音は、モータ及びそのギアの噛み合い音、並びにそれによる鏡筒の振動からなる。カメラ筐体内の共鳴があるので、マイク22が取り込む音としては、レンズ駆動音自体を外部から聞くときに比べてかなり異なる雑音となる。
【0073】
実施例1と同様に、レンズ駆動音発生区間の被写体音声を削除し、そこに予測音声を埋め、擬似的なレンズ駆動音を合成してもよい。但し、レンズ駆動音は合焦音に比べて発生区間が長くなるので、予測音声の誤差が累積し易くなる。
【0074】
音声予測を用いるのではなく、以下のような方法でレンズ駆動音を低減してもよい。図12は、そのタイミングチャート例を示す。横軸は時間を示し、縦軸は音圧レベルを示す。121a〜121cは各々、被写体音声を示す。
【0075】
被写体音声121aには、合焦の為のレンズ駆動音120が重畳している。レンズ駆動音が重畳している区間のみ、音声処理部28は、レンズ駆動音の低減処理を行い、被写体音声121bとする。音声処理部28によるレンズ駆動音低減処理の詳細は、後述する。低減処理を行う区間125は、レンズ駆動音120の重畳区間とほぼ同じにしている。
【0076】
音声処理部28は、擬似レンズ駆動音123を被写体音声信号121cに合成して、被写体音声121cを生成する。擬似レンズ駆動音は例えば、周囲音の無い環境でレンズ駆動音をマイク22により取り込み、そのときのマイク22の出力音声信号から主要周波数成分を取り出し、聞きやすい音として合成したものである。もちろん、聴感を確認しつつ、聴き取りやすい音を人工的に生成すれば良い。
【0077】
実施例1と同様に、音声処理部28は、擬似レンズ駆動音123を、レンズ駆動音重畳区間125より広い区間126で被写体音声121cに合成する。レンズ駆動音の低減処理を行った区間の前後の接続部分に不連続部があったとしても、擬似レンズ駆動音にカバーされてしまうので、違和感のない被写体音声となる。
【0078】
図13は、被写体音声に重畳するレンズ駆動音を低減する構成のブロック図を示す。
【0079】
周波数変換部130は、レンズ駆動音が重畳している被写体音声信号をフーリエ変換により周波数軸上に変換する。これにより、例えば、図14(a)に示すようなスペクトル波形141aの信号が得られる。
【0080】
疑似レンズ駆動音の周波数成分データが記憶装置131に格納されている。図14(b)は、記憶装置131に記憶される疑似レンズ駆動音のスペクトル波形141bを示す。
【0081】
差分処理部132は、変換部130の各周波数成分(図14(a))から、記憶装置131からの同じ周波数の周波数成分(図14(b))を減算する。これにより、実レンズ駆動音が重畳する被写体音声に重畳する実レンズ駆動音から疑似レンズ駆動音を減算し、実レンズ駆動音の音圧を低減できる。
【0082】
時間軸変換部133は、差分処理部132の出力を逆フーリエ変換して、時間軸の波形に戻す。
【0083】
このように、一旦、周波数空間に変換してから疑似レンズ駆動音を差し引く事により、各周波数の位相を考えなくて済む。
【0084】
本発明の一実施例として、撮像装置が発生する音を消去乃至低減した後に擬似音を重畳する被写体音声録音システムの実施例を説明した。本発明は、動画撮影機能を有するデジタルスチルカメラ、デジタルビデオカメラ、監視カメラ、Webカメラ及び携帯電話などにも広く適用できる。
【技術分野】
【0001】
本発明は、音声付きの動画と同時に静止画を撮影可能な撮像装置に関する。
【背景技術】
【0002】
カメラで静止画撮影を行う場合、通常、撮影者がレリーズボタンを半押しした段階で焦点調節及び露出調節が行われ、全押しで被写体画像が取り込まれ、記録される。撮影レンズの合焦時に、合焦音を発生するカメラがある。他方、動画撮影では、焦点調節が継続的に行われることと、同時に取り込む周囲音声に対してノイズ音となるので、合焦音を発生させることは無い。
【0003】
近年,動画撮影中に静止画撮影を行えるカメラが製品化されている。動画撮影中に静止画撮影のためのレリーズボタンの半押しをすると、静止画撮影のための合焦動作が始動することがある。例えば、静止画撮影の場合、撮影画角内の1又は複数のエリアで合焦判定したり、撮影画角内の人間(の顔)に注目して合焦動作することがあり、この際の合焦制御は、動画撮影時のそれとは異なることがあるからである。
【0004】
静止画撮影のための合焦調節を行う場合、動画撮影中であっても、その合焦調節の完了を撮影者に知らせる手段が必要となる。しかし、音で撮影者に知らせると、動画撮影に付随して記録している音声にノイズ音として混入してしまう。また、合焦調節のためのフォーカシングレンズの駆動音又は移動音も、記録中の音声にノイズ音として混入してしまう。
【0005】
周囲の音声を取り込むためのマイクは、通常、撮像装置の正面の、撮影レンズの近くに配置されている。従って、マイクは、合焦調節に伴う撮影レンズの作動音を取り込み易い。露出調整に伴う絞りの作動音も容易に取り込んでしまう。ノイズ音発生位置に近いことから、相対的に大きな音量で取り込んでしまうだけでなく、合焦駆動音と共に発生する振動や合焦音がカメラ内で起こす残響までも、取り込んでしまう。
【0006】
特許文献1には、シャッタ音を動画撮影時には消去することが記載されている。シャッタ音を消去するモードと消去しないモードがあり、ユーザが何れか一方を選択できるようになっている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2006−311412号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
撮影した動画を再生する際に、どの時点で静止画を撮影したかが分かると、便利である。そのためには、従来技術では、音声に混入する合焦通知音又は合焦動作音を頼るしかないが、そのような音は、本来の音の品質を低下させるノイズ音でもあり、鮮明で聴き取りやすいものとは言えない。
【0009】
本発明は、動画撮影中になされる静止画撮影タイミングを、本来の音声の品質を損なわない明確な音でユーザに知らせることが出来る撮像装置を提示することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係る撮像装置は、動画撮影中に静止画を撮影する撮像装置であって、撮像光学系と、前記撮像光学系による光学像を画像信号に変換する撮像手段と、前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、前記合焦音を含む周囲音を取り込む音声入力手段と、疑似合焦音信号を発生する疑似合焦音発生手段と、前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段とを具備することを特徴とする。
【発明の効果】
【0011】
本発明によれば、被写体音声に混入する合焦音又はレンズ駆動音を削除し、高品質が疑似音を代わりに合成するので、再生時に合焦又はレンズ駆動を高品質な再生音で表現できる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施例の概略構成ブロック図である。
【図2】合焦音から擬似合焦音を生成し記憶する回路の概略構成ブロック図である。
【図3】音声処理部による特定区間の音声を削除し補完する処理の説明用タイミングチャートである。
【図4】音声処理部による合焦音低減処理の説明用タイミングチャートである。
【図5】入力音声信号に対する利得の変化を説明するタイミングチャートである。
【図6】予測音声信号の説明用タイミングチャートである。
【図7】擬似合焦音合成の説明用タイミングチャートである。
【図8】本実施例の被写体音声取り込みのフローチャートである。
【図9】再生画面の画面例である。
【図10】入力音声に混入した合焦音を削除し,疑似合焦音を合成する処理のフローチャートである。
【図11】入力音声に混入した合焦音を削除し,疑似合焦音を合成する別の処理の説明用タイミングチャートである。
【図12】レンズ駆動音を低減する場合の説明用タイミングチャートである。
【図13】レンズ駆動音を低減する回路の概略構成ブロック図である。
【図14】レンズ駆動音が重畳している被写体音声信号と、疑似レンズ駆動音のスペクトル波形例である。
【発明を実施するための形態】
【0013】
以下、図面を参照して、本発明の実施例を詳細に説明する。
【実施例1】
【0014】
図1は、本発明に係る撮像装置の一実施例であるデジタル一眼レフカメラの概略構成ブロック図を示す。
【0015】
図1に示す実施例の基本的な構成と動作を説明する。撮像光学系10は、被写体からの光学像を撮像素子12に入射する。合焦検出部14は、撮像光学系10からの被写体光の合焦度を検出し、検出結果をカメラCPU16に供給する。カメラCPU16は合焦検出部14の合焦度出力に従い、レンズ駆動部18により撮像光学系10のフォーカシングレンズを合焦位置に向け駆動する。この帰還制御により、撮像光学系10は、被写体に合焦する位置に制御される。なお、レンズ駆動部18は、カメラCPU16からの指示に従い、撮像光学系10のズームレンズ及び絞りも駆動する。
【0016】
撮像素子12は撮像光学系10による光学像を画像信号に変換し、その画像信号を画像処理部20に供給する。画像処理部20は、撮像素子12の出力画像信号を動画像として処理する動画像処理部20Mと、撮像素子12の出力画像信号の1画面を静止画として処理する静止画処理部20Sを具備する。例えば、動画像処理部20Mは、撮像素子12の出力画像信号をMPEG方式又はMotion JPEG方式で圧縮符号化する。静止画処理部20Sは、撮像素子12の出力画像信号をJPEG方式で圧縮符号化する。
【0017】
音声入力手段であるマイク22は、周囲の音声を取り込み、音声信号を利得調整部24に出力する。マイク22は、カメラ筐体裏側に不図示のゴムなどで弾性的に取り付けられている。利得調整部24は、マイク22からの音声信号の利得を調整する。利得調整制御部26は、カメラCPU16からの指示に従い、利得調整部24の利得を制御する。疑似合焦音発生部30は、カメラCPU16からの指示に従い、所定の疑似合焦音信号を発生する。音声処理部28は、利得調整部24からの音声信号を処理した上で疑似合焦音発生部30からの疑似合焦音信号を合成し、記録用に符号化する。
【0018】
記録部32には、画像処理部20から符号化画像信号(圧縮動画像信号と圧縮静止画信号)が供給され、音声処理部28から符号化音声信号が供給される。記録部32にはまた、カメラCPU16から、撮影画像の画素数、シャッタ速度、絞り値及びフレームレート等の撮影条件、並びに、静止画撮影の際の合焦タイミングを示す信号が供給される。記録部32は、画像処理部20,音声処理部28及びカメラCPU16からのこれらの情報を図示しない記録媒体に記録する。記録媒体は、例えば、半導体メモリ、磁気ディスク又は光ディスク等からなる。
【0019】
開始/停止スイッチ34は、動画撮影の開始と停止をカメラCPU16に指示するのに使用される。レリーズボタン36は、静止画撮影で、半押しで合焦と露出の制御を、全押しで撮影の実行をカメラCPU16に指示にするのに使用される。ユーザは、動画/静止画モード切替えスイッチ38を使って、カメラCPU16に動画モードと静止画モードの切替えを指示できる。動画モードと静止画モードの詳細は口述する。
【0020】
カメラCPU16は、静止画撮影の際に撮像光学系10が被写体に合焦した時に、合焦音発生部40に合焦音信号を発生させる。合焦音発生部40は、カメラCPU16からの指示に従い合焦音信号を発生し、スピーカ42に供給する。スピーカ42は、合焦音発生部40の発生する合焦音信号を音響出力する。カメラCPU16はまた、動画撮影中での静止画撮影に対しても合焦音信号を合焦音発生部40に発生させる。このときの合焦音は、静止画単体の撮影の際のそれとは異なる。例えば、静止画単体撮影の場合の合焦音を「ピピッ!」とし、動画撮影中での静止画撮影のそれを、より短い音、例えば、「ピッ!」とする。詳細は後述するが、動画撮影中での静止画撮影のための合焦音はマイク22の出力音声から削除されるが、その削除期間は短い方が好ましいからである。
【0021】
カメラCPU16は音声処理部28にその動作を制御する制御信号を供給する。例えば、カメラCPU16は音声処理部28に、撮像光学系10の合焦時を含む短い期間を示す合焦タイミングゲート信号を供給する。この合焦タイミングゲート信号は、例えば、マイク22(実際には利得調整部24)の出力音声信号に合焦音が重畳する期間又はこれを包含する期間(以下、合焦音重畳区間という)を示す。音声処理部28は、このような合焦タイミングゲート信号に依存せずに自律的に合焦音重畳区間を利得調整部24の出力音声信号から検出しても良い。この場合、カメラCPU16からの合焦タイミングゲート信号に類する、合焦タイミングを示す信号は不要になる。
【0022】
音声処理部28は、マイク22による入力音声信号に混入するスピーカ42からの合焦音を次のように削除し、疑似合焦音を挿入する。すなわち、音声処理部28は、マイク22(実際には利得調整部24)の出力音声信号から合焦音重畳区間の音声信号を削除し、合焦音重畳区間の前後の音声から予測して補完する。前後の音声から予測して補完信号を生成するので、合焦音重畳区間をより自然につなぐことが出来る。
【0023】
カメラCPU16はまた、撮像光学系10の合焦に同期して、疑似合焦音発生部30に所定トーンからなる疑似合焦音を発生させる。音声処理部28は、合焦音重畳区間の音声信号を削除した後の利得調整部24の出力音声信号に、疑似合焦音発生部30からの疑似合焦音を合成する。スピーカ42から出力される合焦音をマイク22で拾った場合、奇麗な音にはならない。しかし、本実施例のように、一旦、マイク22で拾った合焦音を削除した後に、電気的に発生する疑似合焦音音を重畳することにより、良質な合焦音を録音できる。
【0024】
疑似合焦音発生部30が発生する疑似合焦音信号は、例えば、図2に示すような構成で、疑似合焦音発生部30に書き込まれる。スピーカ42から出力される合焦音をマイク22又は別のマイクで取り込み、フィルタ46で余分な周波数部分を除去する。そのフィルタ46の出力音声信号が、疑似合焦音信号として、疑似合焦音発生部30に書き込まれる。
【0025】
疑似合焦音発生部30の出力する疑似合焦音信号の代わりに、合焦音発生部40の発生する合焦音信号、又はこれをフィルタ処理した音信号を適切なタイミングで音声処理部28に供給しても良い。
【0026】
合焦音重畳区間に対する音声処理部28の処理を詳細に説明する。まず、合焦音重畳区間の音声信号を破棄する。次に、音声処理部28に含まれる音声予測補完部が、合焦音重畳区間の時間的に前の区間及び後の区間を学習区間として、前後の学習区間から合焦音重畳区間にあるべき音声信号を予測する。そして、音声予測補完部は、予測された音声信号を合焦重畳区間に配置する。
【0027】
線形予測係数の導出(学習動作)と線形予測係数を用いた信号の予測(予測動作)を例に、音声予測補完部の動作を説明する。
【0028】
線形予測を用いるにあたり、現在の信号とこれに隣接する有限個(ここではp個とおく)の標本値との間に、次のような線形1次結合関係を仮定する。すなわち、
【数1】
但し、式(1)において、εtは、平均値0、分散σ2の互いに無相関な確率変数である。
【0029】
ここでxtが過去の値から予測されるように式を変形すると、
【数2】
となる。
【0030】
式(2)によると、εtが十分に小さければ、近傍p個の線形和によって現在の値が表現される。xtを上記の予測によって求めた後、さらにその近似が十分によければ、xt+1も同じく近傍p個の線形和によって求められる。
【0031】
このように、εtを十分に小さくすることが出来れば、順次値を予測して信号を求めることが出来る。そこで、εtを最小にするようなαiを求めることを考える。本実施例では、εtを最小にするようなαiを求める動作を学習動作と呼ぶ。
【0032】
前述した学習区間において、Σεt2を最小化すればよい。学習の開始時間をt0、終了時間t1とすると、
【数3】
ただし、α0=1である。ここで、式(3)を簡単化するために、
【数4】
とおく。式(3)を最小化するようにαiを決めるためには、式(3)のαj(j=1,2,・・・,p)に関する偏微分を0として解けばよい。この結果、
【数5】
が得られる。式(5)は、p個の線形連立1次方程式を解けば、αiを決定できることを示している。式(5)のcijは、xt−i(i=1,2,・・・,p)から求めることができる。すなわち、式(5)からαiを求めることができる。
【0033】
式(5)に従ってαiを決定した場合、Σεt2は最小化されている。このとき、式(2)から、xtの値は、
【数6】
で近似できる。この近似が十分に良いものであれば、xtの代わりに、式(6)の右辺を予測信号として用いることができる。
【0034】
さらに、xt+1についても同様に、近傍のp−1個と、予測によって求めた信号とから近似値を得ることが出来る。
【0035】
このような処理を順次、繰り返すことで、予測区間(ここでは、合焦音重畳区間に一致する。)の音声信号を生成出来る。本実施例では、求められたαiから予測区間の近似を求める動作を予測動作と呼ぶ。
【0036】
図3は、被写体(又は周囲)からの音声(以下、「被写体音声」という。)の音圧レベルと、合焦音重畳区間(予測区間)、学習区間との関係を示す模式図である。横軸は、時間を示し、縦軸は被写体音の有無を示す。
【0037】
51aは元の被写体音声であり、合焦音重畳区間である削除区間52に合焦音(雑音)が重畳している。音声処理部28は、削除区間52の被写体音声51aを削除する。
【0038】
51bは、削除区間52の被写体音声を削除した後の被写体音声を示す。音声処理部28は、削除区間52より時間的に前の学習区間53aと、時間的に後ろの学習区間53bから削除区間52に対して予測動作を繰り返し、予測波形を削除区間52に埋め込む。
【0039】
51cは、削除区間52に予測動作で得られる予測信号が埋め込まれた被写体音声を示す。削除区間52が、予測信号を埋め込むべき予測区間54になる。
【0040】
このように、学習動作を行うに当たっては、予測区間の前後の信号を用いる。これは、音声信号が、極く短時間の領域に着目すると、比較的繰り返し性が高いという性質を利用している。
【0041】
学習動作および予測動作では、学習区間53aと学習区間53bの信号に対して夫々独立に計算を行う。学習区間53aの学習動作に基づき予測区間54の信号を生成することを、前方からの予測、略して前方予測と呼ぶ。他方、学習区間53bの学習動作に基づき予測区間54の信号を予測することを、後方からの予測、略して後方予測と呼ぶ。予測区間の信号の計算では、学習区間33aに近いほど前方予測による値の重みを大きくし、学習区間33bに近いほど後方予測による値の重みを大きくするように、前方予測と後方予測を重み付けする。
【0042】
図4は、本実施例における実際の合焦音と、削除区間及び予測区間、並びに、疑似合焦音との関係を示すタイミングチャートである。横軸は時間を示し、縦軸は、被写体音声の音圧レベルを示す。61a〜61dは、被写体音声の音圧レベルを示す。
【0043】
被写体音声61aには実際に発音した実際の合焦音60が重畳している。被写体音声61bに示すように、合焦音重畳区間を含む削除区間62の被写体音声を削除する。削除区間62は、一般に実合焦音60が重畳している区間より広い。
【0044】
実合焦音60の重畳する区間より広い区間の被写体音声を削除する理由を以下に説明する。カメラCPU16は、合焦検出部14からの焦点検出信号に従い、レンズ駆動部18により撮像光学系10を合焦点に制御する。カメラCPU16は、撮像光学系10が合焦点に到達するタイミングで合焦音発生部40に合焦音発生指示信号を供給すると共に、削除区間62を示す合焦タイミングゲート信号を音声処理部28に供給する。音声処理部28は、利得調整部24からの音声信号のうち、合焦タイミングゲート信号が示す区間の音声信号を削除する。合焦タイミングゲート信号は、合焦音発生部40の発生する合焦音とその残響音がマイク22に入力する期間を包含する区間を示すように、合焦音発生指示信号の期間より広く設定される。
【0045】
削除区間62の音声信号を予測する場合に、利得調整部24の動作を考慮する必要がある。利得調整部24は、被写体音声が小さいときには増幅利得を大きくして感度を高め、被写体音声が小さいときには増幅利得を小さくして信号の飽和を防いでいる。
【0046】
図5は、利得調整部24の利得の変化例を示す。横軸は時間を示し、縦軸は、マイク22の出力音声信号の音圧レベルと、利得調整部24の利得レベルを示す。被写体音声61aには実合焦音60が重畳している。
【0047】
合焦音60が被写体音声61aに対して大きな音圧レベルの場合、利得調整部24は、音声信号の飽和を防ぐ為に合焦音60が存在する区間で利得レベル71を下げる。一般的には、大きな音が止んだ時点以降、利得調整部24は、利得レベル72に示す様に利得を徐々に元に戻す。これは、利得レベルを急激に戻すと、その前後の音声が不連続になり、違和感が生ずるからである。
【0048】
他方、利得レベル72の様に徐々に利得を変化させると、利得が変化する期間73は、予測音声作成のための学習区間として利用できない。これに対し、カメラCPU16は、利得調整制御部26を介して利得調整部24の利得を利得レベル74に示すように、実合焦音60の終了後、利得レベルを急速に戻す。すなわち、利得調整制御部26は、カメラCPU16からの合焦音の終了タイミングを示す信号に従い、利得調整部24の利得制御の帰還ループの時定数を一時的に短縮する。このような利得の一時制御により利得レベルが全体として安定し、合焦音の後の期間を学習区間として利用出来る。
【0049】
音声の予測では、予測信号が時間経過と共に発散してしまう可能性がある。これは、前述した計算により求めた各予測係数の誤差が累積するからであり、その結果として、予測音声が極めて大きくなってしまう。この問題は、各予測係数を調整することで解決できる。例えば、時刻tにおける被写体音声を前回求めたレベルより小さくなる様に各係数の倍率を一律に変更する。このような調整により、次に予測される音声信号は前回よりも小さい値になり、最終的には予測音声信号が収束する。予測音声信号の精度は若干低下するが、その後に擬似合焦音が合成されるので、その精度低下は目立たない。
【0050】
図6は、以上の処理を説明する模式図を示す。横軸は時間を示し、縦軸は音圧レベルを示す。合焦音重畳区間65の音声を削除した被写体音声61cに対し、合焦音重畳区間の前後の音声から学習及び予測し、削除区間に予測音声を埋め込む。このとき、前述した様に各係数を調整し、予測音声71a,71bとして示すように、時間の経過と共にゼロに収束する予測音声とする。
【0051】
図4に示すように、疑似合焦音発生部30が、被写体音声61dに対し、予め記憶してある所定音を擬似合焦音64として予測区間63内に発生し、音声処理部28が、擬似合焦音64を被写体音声61dに合成する。擬似合焦音64を合成する区間66は、合焦音重畳区間65より短い。これは、実合焦音の長さと揃える為である。
【0052】
被写体音声61dの大きさに合わせて、擬似合焦音の音圧レベルを調整する。即ち、被写体音声が大きい時には擬似合焦音も大きくして良く聞こえるようにする。他方、被写体音声が小さい時は、擬似合焦音も小さくして、擬似合焦音ばかりが目立つ事が無い様にする。図7は、被写体音声61dと擬似合焦音の音圧レベルの関係を示す模式図である。横軸は時間を示し、縦軸は音圧レベルを示す。図7に示す例では、擬似合焦音64a,64bの音圧レベルを被写体音声61d,61eの音圧レベルのほぼ倍としている。
【0053】
図8は、本実施例における被写体音声の検出と仮記憶の動作を示す。カメラCPU16上で動作する制御プログラムが、図8に示すフローチャートを実現するように各部を制御する。図8に示すフローは、動画撮影の開始(又は音声のみの記録の開始)と共にスタートする。
【0054】
ステップS8001では、カメラCPU16は、実合焦音の発生が終了しているか否かを判定し、終了している場合はステップS8002に進み、そうで無い場合はステップS8003に進む。前述した様に、実合焦音発生時はその音が大きい事から、利得調整部24がマイク22の増幅利得を下げている。その為、実合焦音終了直後は、利得が直ぐに回復せず、後方予測の精度が低くなる。
【0055】
ステップS8002で、カメラCPU16は、利得調整制御部26に指示して、実合焦音の終了直後に利得調整部24の利得を瞬時に回復させる。これにより、実合焦より時間的に後の学習区間の被写体音声を早期に安定させることができ、後方予測の精度が向上する。
【0056】
実合焦音以外の音の場合には、ステップS8002をスキップするので、利得回復はゆっくりとなり、違和感の無い被写体音声信号になる。
【0057】
ステップS8003で被写体音声の取り込みを行い、ステップS8004で合焦状態の取り込みを行う。合焦状態情報としては、実合焦音の発生と終了のタイミングや、撮像する画像の中での合焦領域情報があげられる。実合焦音の発生終了タイミングは、被写体音声内の実合焦音重畳区間の削除や予測に使用される。合焦領域情報は、図9に示す様に、動画再生時に画像内に合焦領域を表示するために用いられる。図9は、動画再生画面に合焦領域を重畳表示する画面例を示す。動画再生時にレリーズ操作などで急速合焦を行った場合、記録されていた合焦領域がフレーム91内に合焦エリア92として重畳表示され、同時に、擬似合焦音が発生される。
【0058】
ステップS8005では、取り込んだ音声信号および合焦状態情報を同期してバッファなどに一時記憶する。
【0059】
図10は、本実施例の被写体音声処理のフローチャートを示す。音声の録音又は動画の撮影開始から所定の時間遅れて、音声処理部28は、図10に示すフローをスタートする。この時間遅れは、予測音声作成に必要な時間を見込んだものであり、前述した各予測係数の算出及び後方予測に必要な時間(例えば、後方学習区間33bに要する時間)である。音声処理部28が、利得調整部24の出力音声信号をバッファに記憶した上で、後方予測を採用するので、精度の高い予測音が得られる。
【0060】
ステップS10001で、音声処理部28は、バッファに一時記憶された被写体音声を走査し、合焦状態情報などにより実合焦音が重畳したか否かを判定する。実合焦音重畳区間になると、ステップS10002に進み、そうで無い時はステップS10001に戻り、循環待機する。
【0061】
ステップS10002で、音声処理部28は、バッファに記憶された被写体音声信号のうち、実合焦音重畳区間の信号を削除する。
【0062】
ステップS10003で、音声処理部28は、実合焦音重畳区間の前後の被写体音声信号から実合焦音重畳区間の被写体音声を予測して組み込む。
【0063】
ステップS10004で、音声処理部28は、実合焦音重畳区間より前の区間における被写体音圧レベルが所定値より大きいか否かを判定する。被写体音圧レベルが所定値より小さい場合はステップS10005に進み、大きい場合はステップS10006に進む。
【0064】
ステップS10005及びS10006では共に、音声処理部28は、擬似合焦音信号を被写体音声信号に合成する。ただし、ステップS10006では、音圧レベルの大きな擬似合焦音を合成し、ステップS10005では、音圧レベルの小さな疑似合焦音を合成する。これにより、被写体音声に擬似合焦音が埋もれてしまうことを防ぐ。
【0065】
ステップ#10007で、音声処理部28は、擬似合焦音が合成された被写体音声信号を記録部32に出力して、ステップS10001に戻る。記録部32は、音声処理部28からの音声信号を図示しない記録媒体に記録する。
【0066】
実合焦音重畳区間65の音声信号は削除され、その部分を予測信号で補完するが、削除するこの区間65(削除区間62)が短いほど、予測信号の誤差が累積されない。実合焦音重畳期間は、短いほど好ましい。しかし、合焦確認としての実合焦音は、ある程度の長さがあった方が撮影時の操作感がよい。同じ静止画撮影でも、動画を撮影していないときの静止画単独撮影の場合の合焦音を長めとし、動画撮影中の静止画撮影では、より短い合焦音とする。そして、記録すべき音声信号に埋め込む疑似合焦音は、静止画単独撮影の場合の実合焦音と同じ長さとする。これにより、再生時の違和感を解消する。例えば、静止画単独撮影時の実合焦音を「ピピッ!」とする。他方、動画撮影中での静止画撮影の場合の実合焦音を「ピッ!」とし、擬似合焦音を「ピピッ!」とする。
【0067】
動画静止画モード切替えスイッチ38でユーザが静止画撮影モードを指定している場合、カメラCPU16は、合焦音発生部40に合焦時に「ピピッ!」と2度の連続破裂音を発生させる。他方、動画撮影モードが指定されている場合、カメラCPU16は、合焦音発生部40に合焦時に「ピッ!」と1度の破裂音を発生させる。
【0068】
図11は、以上の動作の説明用タイミングチャートである。横軸は時間を示し、縦軸は音圧レベルを示す。111aから111dはそれぞれ、被写体音声を示す。被写体音声111aには、実際に発音した実合焦音110が重畳している。ここでは、動画撮影時の実合焦音であるので、図4に示す実合焦音60に比べて実合焦音の発生区間が短くなっている。
【0069】
音声処理部28は、合焦音重畳区間の被写体音声を削除するが、ここでは、実合焦音110の存在する区間より広い区間112の被写体音声を削除する。この削除区間112も、図4で示した削除区間62より短く出来る。
【0070】
被写体音声111cでは、音声処理部28は、削除区間112の前後の被写体音声信号を学習し、削除区間の被写体音声を予測して、補完する。削除区間112が短いので、補完する予測音声に誤差が累積しない。
【0071】
被写体音声111dで、音声処理部28は、擬似合焦音114を被写体音声111dに合成する。擬似合焦音114を合成する区間116は、静止画時の合焦音と同じ長さになり、削除区間112よりも長い。これにより、最終的に記録された被写体音声の再生時には、静止画撮影時と同じ長さの擬似合焦音が知覚される。このように構成にすることで、静止画撮影時の合焦音と同等で違和感の無い動画再生が行われると共に、予測信号の誤差累積を防ぐ事が出来る。
【実施例2】
【0072】
本実施例は、合焦の為のレンズ駆動音を低減することもできる。合焦の為のレンズ駆動音は、モータ及びそのギアの噛み合い音、並びにそれによる鏡筒の振動からなる。カメラ筐体内の共鳴があるので、マイク22が取り込む音としては、レンズ駆動音自体を外部から聞くときに比べてかなり異なる雑音となる。
【0073】
実施例1と同様に、レンズ駆動音発生区間の被写体音声を削除し、そこに予測音声を埋め、擬似的なレンズ駆動音を合成してもよい。但し、レンズ駆動音は合焦音に比べて発生区間が長くなるので、予測音声の誤差が累積し易くなる。
【0074】
音声予測を用いるのではなく、以下のような方法でレンズ駆動音を低減してもよい。図12は、そのタイミングチャート例を示す。横軸は時間を示し、縦軸は音圧レベルを示す。121a〜121cは各々、被写体音声を示す。
【0075】
被写体音声121aには、合焦の為のレンズ駆動音120が重畳している。レンズ駆動音が重畳している区間のみ、音声処理部28は、レンズ駆動音の低減処理を行い、被写体音声121bとする。音声処理部28によるレンズ駆動音低減処理の詳細は、後述する。低減処理を行う区間125は、レンズ駆動音120の重畳区間とほぼ同じにしている。
【0076】
音声処理部28は、擬似レンズ駆動音123を被写体音声信号121cに合成して、被写体音声121cを生成する。擬似レンズ駆動音は例えば、周囲音の無い環境でレンズ駆動音をマイク22により取り込み、そのときのマイク22の出力音声信号から主要周波数成分を取り出し、聞きやすい音として合成したものである。もちろん、聴感を確認しつつ、聴き取りやすい音を人工的に生成すれば良い。
【0077】
実施例1と同様に、音声処理部28は、擬似レンズ駆動音123を、レンズ駆動音重畳区間125より広い区間126で被写体音声121cに合成する。レンズ駆動音の低減処理を行った区間の前後の接続部分に不連続部があったとしても、擬似レンズ駆動音にカバーされてしまうので、違和感のない被写体音声となる。
【0078】
図13は、被写体音声に重畳するレンズ駆動音を低減する構成のブロック図を示す。
【0079】
周波数変換部130は、レンズ駆動音が重畳している被写体音声信号をフーリエ変換により周波数軸上に変換する。これにより、例えば、図14(a)に示すようなスペクトル波形141aの信号が得られる。
【0080】
疑似レンズ駆動音の周波数成分データが記憶装置131に格納されている。図14(b)は、記憶装置131に記憶される疑似レンズ駆動音のスペクトル波形141bを示す。
【0081】
差分処理部132は、変換部130の各周波数成分(図14(a))から、記憶装置131からの同じ周波数の周波数成分(図14(b))を減算する。これにより、実レンズ駆動音が重畳する被写体音声に重畳する実レンズ駆動音から疑似レンズ駆動音を減算し、実レンズ駆動音の音圧を低減できる。
【0082】
時間軸変換部133は、差分処理部132の出力を逆フーリエ変換して、時間軸の波形に戻す。
【0083】
このように、一旦、周波数空間に変換してから疑似レンズ駆動音を差し引く事により、各周波数の位相を考えなくて済む。
【0084】
本発明の一実施例として、撮像装置が発生する音を消去乃至低減した後に擬似音を重畳する被写体音声録音システムの実施例を説明した。本発明は、動画撮影機能を有するデジタルスチルカメラ、デジタルビデオカメラ、監視カメラ、Webカメラ及び携帯電話などにも広く適用できる。
【特許請求の範囲】
【請求項1】
動画撮影中に静止画を撮影する撮像装置であって、
撮像光学系と、
前記撮像光学系による光学像を画像信号に変換する撮像手段と、
前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、
前記合焦音を含む周囲音を取り込む音声入力手段と、
疑似合焦音信号を発生する疑似合焦音発生手段と、
前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段
とを具備することを特徴とする撮像装置。
【請求項2】
前記音声処理手段は、
前記音声入力手段の入力音声信号から、前記合焦音が重畳する合焦音重畳区間の音声信号を除去する除去手段と、
前記合焦音重畳区間の時間的に前後する区間の音声信号から、合焦音重畳区間の音声信号を予測して前記合焦音重畳区間に補完する補完手段と、
前記補完手段の出力に前記疑似合焦音信号を合成する手段
とを具備することを特徴とする請求項1に記載の撮像装置。
【請求項1】
動画撮影中に静止画を撮影する撮像装置であって、
撮像光学系と、
前記撮像光学系による光学像を画像信号に変換する撮像手段と、
前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、
前記合焦音を含む周囲音を取り込む音声入力手段と、
疑似合焦音信号を発生する疑似合焦音発生手段と、
前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段
とを具備することを特徴とする撮像装置。
【請求項2】
前記音声処理手段は、
前記音声入力手段の入力音声信号から、前記合焦音が重畳する合焦音重畳区間の音声信号を除去する除去手段と、
前記合焦音重畳区間の時間的に前後する区間の音声信号から、合焦音重畳区間の音声信号を予測して前記合焦音重畳区間に補完する補完手段と、
前記補完手段の出力に前記疑似合焦音信号を合成する手段
とを具備することを特徴とする請求項1に記載の撮像装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2012−165219(P2012−165219A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2011−24535(P2011−24535)
【出願日】平成23年2月8日(2011.2.8)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願日】平成23年2月8日(2011.2.8)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]