撮像装置

【課題】
動画撮影中の静止画撮影で、録音用の入力音声に混入する撮像光学系の合焦音を低減する。
【解決手段】
動画撮影中の静止画撮影で、カメラＣＰＵ（１６）は、合焦検出部（１４）の出力に従いレンズ駆動部（１８）により撮像光学系（１０）のフォーカシングレンズを駆動して合焦させる。合焦時に、合焦音発生部（４０）は、スピーカ（４２）を駆動して合焦音を出力させる。マイク（２２）は、動画撮影中に周囲音声とスピーカ（４２）の出力する合焦音を取り込む。音声処理部（２８）は、利得調整部（２４）からの音声信号から合焦音重畳区間の音声信号を除去し、合焦音重畳区間の前後の区間の音声信号から合焦音重畳区間の音声信号を予測して補完し、疑似合焦音発生部（３０）からの疑似合焦音信号を合成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声付きの動画と同時に静止画を撮影可能な撮像装置に関する。
【背景技術】
【０００２】
カメラで静止画撮影を行う場合、通常、撮影者がレリーズボタンを半押しした段階で焦点調節及び露出調節が行われ、全押しで被写体画像が取り込まれ、記録される。撮影レンズの合焦時に、合焦音を発生するカメラがある。他方、動画撮影では、焦点調節が継続的に行われることと、同時に取り込む周囲音声に対してノイズ音となるので、合焦音を発生させることは無い。
【０００３】
近年，動画撮影中に静止画撮影を行えるカメラが製品化されている。動画撮影中に静止画撮影のためのレリーズボタンの半押しをすると、静止画撮影のための合焦動作が始動することがある。例えば、静止画撮影の場合、撮影画角内の１又は複数のエリアで合焦判定したり、撮影画角内の人間（の顔）に注目して合焦動作することがあり、この際の合焦制御は、動画撮影時のそれとは異なることがあるからである。
【０００４】
静止画撮影のための合焦調節を行う場合、動画撮影中であっても、その合焦調節の完了を撮影者に知らせる手段が必要となる。しかし、音で撮影者に知らせると、動画撮影に付随して記録している音声にノイズ音として混入してしまう。また、合焦調節のためのフォーカシングレンズの駆動音又は移動音も、記録中の音声にノイズ音として混入してしまう。
【０００５】
周囲の音声を取り込むためのマイクは、通常、撮像装置の正面の、撮影レンズの近くに配置されている。従って、マイクは、合焦調節に伴う撮影レンズの作動音を取り込み易い。露出調整に伴う絞りの作動音も容易に取り込んでしまう。ノイズ音発生位置に近いことから、相対的に大きな音量で取り込んでしまうだけでなく、合焦駆動音と共に発生する振動や合焦音がカメラ内で起こす残響までも、取り込んでしまう。
【０００６】
特許文献１には、シャッタ音を動画撮影時には消去することが記載されている。シャッタ音を消去するモードと消去しないモードがあり、ユーザが何れか一方を選択できるようになっている。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２００６−３１１４１２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
撮影した動画を再生する際に、どの時点で静止画を撮影したかが分かると、便利である。そのためには、従来技術では、音声に混入する合焦通知音又は合焦動作音を頼るしかないが、そのような音は、本来の音の品質を低下させるノイズ音でもあり、鮮明で聴き取りやすいものとは言えない。
【０００９】
本発明は、動画撮影中になされる静止画撮影タイミングを、本来の音声の品質を損なわない明確な音でユーザに知らせることが出来る撮像装置を提示することを目的とする。
【課題を解決するための手段】
【００１０】
本発明に係る撮像装置は、動画撮影中に静止画を撮影する撮像装置であって、撮像光学系と、前記撮像光学系による光学像を画像信号に変換する撮像手段と、前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、前記合焦音を含む周囲音を取り込む音声入力手段と、疑似合焦音信号を発生する疑似合焦音発生手段と、前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段とを具備することを特徴とする。
【発明の効果】
【００１１】
本発明によれば、被写体音声に混入する合焦音又はレンズ駆動音を削除し、高品質が疑似音を代わりに合成するので、再生時に合焦又はレンズ駆動を高品質な再生音で表現できる。
【図面の簡単な説明】
【００１２】
【図１】本発明の一実施例の概略構成ブロック図である。
【図２】合焦音から擬似合焦音を生成し記憶する回路の概略構成ブロック図である。
【図３】音声処理部による特定区間の音声を削除し補完する処理の説明用タイミングチャートである。
【図４】音声処理部による合焦音低減処理の説明用タイミングチャートである。
【図５】入力音声信号に対する利得の変化を説明するタイミングチャートである。
【図６】予測音声信号の説明用タイミングチャートである。
【図７】擬似合焦音合成の説明用タイミングチャートである。
【図８】本実施例の被写体音声取り込みのフローチャートである。
【図９】再生画面の画面例である。
【図１０】入力音声に混入した合焦音を削除し，疑似合焦音を合成する処理のフローチャートである。
【図１１】入力音声に混入した合焦音を削除し，疑似合焦音を合成する別の処理の説明用タイミングチャートである。
【図１２】レンズ駆動音を低減する場合の説明用タイミングチャートである。
【図１３】レンズ駆動音を低減する回路の概略構成ブロック図である。
【図１４】レンズ駆動音が重畳している被写体音声信号と、疑似レンズ駆動音のスペクトル波形例である。
【発明を実施するための形態】
【００１３】
以下、図面を参照して、本発明の実施例を詳細に説明する。
【実施例１】
【００１４】
図１は、本発明に係る撮像装置の一実施例であるデジタル一眼レフカメラの概略構成ブロック図を示す。
【００１５】
図１に示す実施例の基本的な構成と動作を説明する。撮像光学系１０は、被写体からの光学像を撮像素子１２に入射する。合焦検出部１４は、撮像光学系１０からの被写体光の合焦度を検出し、検出結果をカメラＣＰＵ１６に供給する。カメラＣＰＵ１６は合焦検出部１４の合焦度出力に従い、レンズ駆動部１８により撮像光学系１０のフォーカシングレンズを合焦位置に向け駆動する。この帰還制御により、撮像光学系１０は、被写体に合焦する位置に制御される。なお、レンズ駆動部１８は、カメラＣＰＵ１６からの指示に従い、撮像光学系１０のズームレンズ及び絞りも駆動する。
【００１６】
撮像素子１２は撮像光学系１０による光学像を画像信号に変換し、その画像信号を画像処理部２０に供給する。画像処理部２０は、撮像素子１２の出力画像信号を動画像として処理する動画像処理部２０Ｍと、撮像素子１２の出力画像信号の１画面を静止画として処理する静止画処理部２０Ｓを具備する。例えば、動画像処理部２０Ｍは、撮像素子１２の出力画像信号をＭＰＥＧ方式又はＭｏｔｉｏｎＪＰＥＧ方式で圧縮符号化する。静止画処理部２０Ｓは、撮像素子１２の出力画像信号をＪＰＥＧ方式で圧縮符号化する。
【００１７】
音声入力手段であるマイク２２は、周囲の音声を取り込み、音声信号を利得調整部２４に出力する。マイク２２は、カメラ筐体裏側に不図示のゴムなどで弾性的に取り付けられている。利得調整部２４は、マイク２２からの音声信号の利得を調整する。利得調整制御部２６は、カメラＣＰＵ１６からの指示に従い、利得調整部２４の利得を制御する。疑似合焦音発生部３０は、カメラＣＰＵ１６からの指示に従い、所定の疑似合焦音信号を発生する。音声処理部２８は、利得調整部２４からの音声信号を処理した上で疑似合焦音発生部３０からの疑似合焦音信号を合成し、記録用に符号化する。
【００１８】
記録部３２には、画像処理部２０から符号化画像信号（圧縮動画像信号と圧縮静止画信号）が供給され、音声処理部２８から符号化音声信号が供給される。記録部３２にはまた、カメラＣＰＵ１６から、撮影画像の画素数、シャッタ速度、絞り値及びフレームレート等の撮影条件、並びに、静止画撮影の際の合焦タイミングを示す信号が供給される。記録部３２は、画像処理部２０，音声処理部２８及びカメラＣＰＵ１６からのこれらの情報を図示しない記録媒体に記録する。記録媒体は、例えば、半導体メモリ、磁気ディスク又は光ディスク等からなる。
【００１９】
開始／停止スイッチ３４は、動画撮影の開始と停止をカメラＣＰＵ１６に指示するのに使用される。レリーズボタン３６は、静止画撮影で、半押しで合焦と露出の制御を、全押しで撮影の実行をカメラＣＰＵ１６に指示にするのに使用される。ユーザは、動画／静止画モード切替えスイッチ３８を使って、カメラＣＰＵ１６に動画モードと静止画モードの切替えを指示できる。動画モードと静止画モードの詳細は口述する。
【００２０】
カメラＣＰＵ１６は、静止画撮影の際に撮像光学系１０が被写体に合焦した時に、合焦音発生部４０に合焦音信号を発生させる。合焦音発生部４０は、カメラＣＰＵ１６からの指示に従い合焦音信号を発生し、スピーカ４２に供給する。スピーカ４２は、合焦音発生部４０の発生する合焦音信号を音響出力する。カメラＣＰＵ１６はまた、動画撮影中での静止画撮影に対しても合焦音信号を合焦音発生部４０に発生させる。このときの合焦音は、静止画単体の撮影の際のそれとは異なる。例えば、静止画単体撮影の場合の合焦音を「ピピッ！」とし、動画撮影中での静止画撮影のそれを、より短い音、例えば、「ピッ！」とする。詳細は後述するが、動画撮影中での静止画撮影のための合焦音はマイク２２の出力音声から削除されるが、その削除期間は短い方が好ましいからである。
【００２１】
カメラＣＰＵ１６は音声処理部２８にその動作を制御する制御信号を供給する。例えば、カメラＣＰＵ１６は音声処理部２８に、撮像光学系１０の合焦時を含む短い期間を示す合焦タイミングゲート信号を供給する。この合焦タイミングゲート信号は、例えば、マイク２２（実際には利得調整部２４）の出力音声信号に合焦音が重畳する期間又はこれを包含する期間（以下、合焦音重畳区間という）を示す。音声処理部２８は、このような合焦タイミングゲート信号に依存せずに自律的に合焦音重畳区間を利得調整部２４の出力音声信号から検出しても良い。この場合、カメラＣＰＵ１６からの合焦タイミングゲート信号に類する、合焦タイミングを示す信号は不要になる。
【００２２】
音声処理部２８は、マイク２２による入力音声信号に混入するスピーカ４２からの合焦音を次のように削除し、疑似合焦音を挿入する。すなわち、音声処理部２８は、マイク２２（実際には利得調整部２４）の出力音声信号から合焦音重畳区間の音声信号を削除し、合焦音重畳区間の前後の音声から予測して補完する。前後の音声から予測して補完信号を生成するので、合焦音重畳区間をより自然につなぐことが出来る。
【００２３】
カメラＣＰＵ１６はまた、撮像光学系１０の合焦に同期して、疑似合焦音発生部３０に所定トーンからなる疑似合焦音を発生させる。音声処理部２８は、合焦音重畳区間の音声信号を削除した後の利得調整部２４の出力音声信号に、疑似合焦音発生部３０からの疑似合焦音を合成する。スピーカ４２から出力される合焦音をマイク２２で拾った場合、奇麗な音にはならない。しかし、本実施例のように、一旦、マイク２２で拾った合焦音を削除した後に、電気的に発生する疑似合焦音音を重畳することにより、良質な合焦音を録音できる。
【００２４】
疑似合焦音発生部３０が発生する疑似合焦音信号は、例えば、図２に示すような構成で、疑似合焦音発生部３０に書き込まれる。スピーカ４２から出力される合焦音をマイク２２又は別のマイクで取り込み、フィルタ４６で余分な周波数部分を除去する。そのフィルタ４６の出力音声信号が、疑似合焦音信号として、疑似合焦音発生部３０に書き込まれる。
【００２５】
疑似合焦音発生部３０の出力する疑似合焦音信号の代わりに、合焦音発生部４０の発生する合焦音信号、又はこれをフィルタ処理した音信号を適切なタイミングで音声処理部２８に供給しても良い。
【００２６】
合焦音重畳区間に対する音声処理部２８の処理を詳細に説明する。まず、合焦音重畳区間の音声信号を破棄する。次に、音声処理部２８に含まれる音声予測補完部が、合焦音重畳区間の時間的に前の区間及び後の区間を学習区間として、前後の学習区間から合焦音重畳区間にあるべき音声信号を予測する。そして、音声予測補完部は、予測された音声信号を合焦重畳区間に配置する。
【００２７】
線形予測係数の導出（学習動作）と線形予測係数を用いた信号の予測（予測動作）を例に、音声予測補完部の動作を説明する。
【００２８】
線形予測を用いるにあたり、現在の信号とこれに隣接する有限個（ここではｐ個とおく）の標本値との間に、次のような線形１次結合関係を仮定する。すなわち、
【数１】

但し、式（１）において、ε_ｔは、平均値０、分散σ^２の互いに無相関な確率変数である。
【００２９】
ここでｘ_ｔが過去の値から予測されるように式を変形すると、
【数２】

となる。
【００３０】
式（２）によると、ε_ｔが十分に小さければ、近傍ｐ個の線形和によって現在の値が表現される。ｘ_ｔを上記の予測によって求めた後、さらにその近似が十分によければ、ｘ_ｔ＋１も同じく近傍ｐ個の線形和によって求められる。
【００３１】
このように、ε_ｔを十分に小さくすることが出来れば、順次値を予測して信号を求めることが出来る。そこで、ε_ｔを最小にするようなα_ｉを求めることを考える。本実施例では、ε_ｔを最小にするようなα_ｉを求める動作を学習動作と呼ぶ。
【００３２】
前述した学習区間において、Σε_ｔ^２を最小化すればよい。学習の開始時間をｔ_０、終了時間ｔ_１とすると、
【数３】

ただし、α_０＝１である。ここで、式（３）を簡単化するために、
【数４】

とおく。式（３）を最小化するようにα_ｉを決めるためには、式（３）のα_ｊ（ｊ＝１，２，・・・，ｐ）に関する偏微分を０として解けばよい。この結果、
【数５】

が得られる。式（５）は、ｐ個の線形連立１次方程式を解けば、α_ｉを決定できることを示している。式（５）のｃ_ｉｊは、ｘ_ｔ−ｉ（ｉ＝１，２，・・・，ｐ）から求めることができる。すなわち、式（５）からα_ｉを求めることができる。
【００３３】
式（５）に従ってα_ｉを決定した場合、Σε_ｔ^２は最小化されている。このとき、式（２）から、ｘ_ｔの値は、
【数６】

で近似できる。この近似が十分に良いものであれば、ｘ_ｔの代わりに、式（６）の右辺を予測信号として用いることができる。
【００３４】
さらに、ｘ_ｔ＋１についても同様に、近傍のｐ−１個と、予測によって求めた信号とから近似値を得ることが出来る。
【００３５】
このような処理を順次、繰り返すことで、予測区間（ここでは、合焦音重畳区間に一致する。）の音声信号を生成出来る。本実施例では、求められたα_ｉから予測区間の近似を求める動作を予測動作と呼ぶ。
【００３６】
図３は、被写体（又は周囲）からの音声（以下、「被写体音声」という。）の音圧レベルと、合焦音重畳区間（予測区間）、学習区間との関係を示す模式図である。横軸は、時間を示し、縦軸は被写体音の有無を示す。
【００３７】
５１ａは元の被写体音声であり、合焦音重畳区間である削除区間５２に合焦音（雑音）が重畳している。音声処理部２８は、削除区間５２の被写体音声５１ａを削除する。
【００３８】
５１ｂは、削除区間５２の被写体音声を削除した後の被写体音声を示す。音声処理部２８は、削除区間５２より時間的に前の学習区間５３ａと、時間的に後ろの学習区間５３ｂから削除区間５２に対して予測動作を繰り返し、予測波形を削除区間５２に埋め込む。
【００３９】
５１ｃは、削除区間５２に予測動作で得られる予測信号が埋め込まれた被写体音声を示す。削除区間５２が、予測信号を埋め込むべき予測区間５４になる。
【００４０】
このように、学習動作を行うに当たっては、予測区間の前後の信号を用いる。これは、音声信号が、極く短時間の領域に着目すると、比較的繰り返し性が高いという性質を利用している。
【００４１】
学習動作および予測動作では、学習区間５３ａと学習区間５３ｂの信号に対して夫々独立に計算を行う。学習区間５３ａの学習動作に基づき予測区間５４の信号を生成することを、前方からの予測、略して前方予測と呼ぶ。他方、学習区間５３ｂの学習動作に基づき予測区間５４の信号を予測することを、後方からの予測、略して後方予測と呼ぶ。予測区間の信号の計算では、学習区間３３ａに近いほど前方予測による値の重みを大きくし、学習区間３３ｂに近いほど後方予測による値の重みを大きくするように、前方予測と後方予測を重み付けする。
【００４２】
図４は、本実施例における実際の合焦音と、削除区間及び予測区間、並びに、疑似合焦音との関係を示すタイミングチャートである。横軸は時間を示し、縦軸は、被写体音声の音圧レベルを示す。６１ａ〜６１ｄは、被写体音声の音圧レベルを示す。
【００４３】
被写体音声６１ａには実際に発音した実際の合焦音６０が重畳している。被写体音声６１ｂに示すように、合焦音重畳区間を含む削除区間６２の被写体音声を削除する。削除区間６２は、一般に実合焦音６０が重畳している区間より広い。
【００４４】
実合焦音６０の重畳する区間より広い区間の被写体音声を削除する理由を以下に説明する。カメラＣＰＵ１６は、合焦検出部１４からの焦点検出信号に従い、レンズ駆動部１８により撮像光学系１０を合焦点に制御する。カメラＣＰＵ１６は、撮像光学系１０が合焦点に到達するタイミングで合焦音発生部４０に合焦音発生指示信号を供給すると共に、削除区間６２を示す合焦タイミングゲート信号を音声処理部２８に供給する。音声処理部２８は、利得調整部２４からの音声信号のうち、合焦タイミングゲート信号が示す区間の音声信号を削除する。合焦タイミングゲート信号は、合焦音発生部４０の発生する合焦音とその残響音がマイク２２に入力する期間を包含する区間を示すように、合焦音発生指示信号の期間より広く設定される。
【００４５】
削除区間６２の音声信号を予測する場合に、利得調整部２４の動作を考慮する必要がある。利得調整部２４は、被写体音声が小さいときには増幅利得を大きくして感度を高め、被写体音声が小さいときには増幅利得を小さくして信号の飽和を防いでいる。
【００４６】
図５は、利得調整部２４の利得の変化例を示す。横軸は時間を示し、縦軸は、マイク２２の出力音声信号の音圧レベルと、利得調整部２４の利得レベルを示す。被写体音声６１ａには実合焦音６０が重畳している。
【００４７】
合焦音６０が被写体音声６１ａに対して大きな音圧レベルの場合、利得調整部２４は、音声信号の飽和を防ぐ為に合焦音６０が存在する区間で利得レベル７１を下げる。一般的には、大きな音が止んだ時点以降、利得調整部２４は、利得レベル７２に示す様に利得を徐々に元に戻す。これは、利得レベルを急激に戻すと、その前後の音声が不連続になり、違和感が生ずるからである。
【００４８】
他方、利得レベル７２の様に徐々に利得を変化させると、利得が変化する期間７３は、予測音声作成のための学習区間として利用できない。これに対し、カメラＣＰＵ１６は、利得調整制御部２６を介して利得調整部２４の利得を利得レベル７４に示すように、実合焦音６０の終了後、利得レベルを急速に戻す。すなわち、利得調整制御部２６は、カメラＣＰＵ１６からの合焦音の終了タイミングを示す信号に従い、利得調整部２４の利得制御の帰還ループの時定数を一時的に短縮する。このような利得の一時制御により利得レベルが全体として安定し、合焦音の後の期間を学習区間として利用出来る。
【００４９】
音声の予測では、予測信号が時間経過と共に発散してしまう可能性がある。これは、前述した計算により求めた各予測係数の誤差が累積するからであり、その結果として、予測音声が極めて大きくなってしまう。この問題は、各予測係数を調整することで解決できる。例えば、時刻ｔにおける被写体音声を前回求めたレベルより小さくなる様に各係数の倍率を一律に変更する。このような調整により、次に予測される音声信号は前回よりも小さい値になり、最終的には予測音声信号が収束する。予測音声信号の精度は若干低下するが、その後に擬似合焦音が合成されるので、その精度低下は目立たない。
【００５０】
図６は、以上の処理を説明する模式図を示す。横軸は時間を示し、縦軸は音圧レベルを示す。合焦音重畳区間６５の音声を削除した被写体音声６１ｃに対し、合焦音重畳区間の前後の音声から学習及び予測し、削除区間に予測音声を埋め込む。このとき、前述した様に各係数を調整し、予測音声７１ａ，７１ｂとして示すように、時間の経過と共にゼロに収束する予測音声とする。
【００５１】
図４に示すように、疑似合焦音発生部３０が、被写体音声６１ｄに対し、予め記憶してある所定音を擬似合焦音６４として予測区間６３内に発生し、音声処理部２８が、擬似合焦音６４を被写体音声６１ｄに合成する。擬似合焦音６４を合成する区間６６は、合焦音重畳区間６５より短い。これは、実合焦音の長さと揃える為である。
【００５２】
被写体音声６１ｄの大きさに合わせて、擬似合焦音の音圧レベルを調整する。即ち、被写体音声が大きい時には擬似合焦音も大きくして良く聞こえるようにする。他方、被写体音声が小さい時は、擬似合焦音も小さくして、擬似合焦音ばかりが目立つ事が無い様にする。図７は、被写体音声６１ｄと擬似合焦音の音圧レベルの関係を示す模式図である。横軸は時間を示し、縦軸は音圧レベルを示す。図７に示す例では、擬似合焦音６４ａ，６４ｂの音圧レベルを被写体音声６１ｄ，６１ｅの音圧レベルのほぼ倍としている。
【００５３】
図８は、本実施例における被写体音声の検出と仮記憶の動作を示す。カメラＣＰＵ１６上で動作する制御プログラムが、図８に示すフローチャートを実現するように各部を制御する。図８に示すフローは、動画撮影の開始（又は音声のみの記録の開始）と共にスタートする。
【００５４】
ステップＳ８００１では、カメラＣＰＵ１６は、実合焦音の発生が終了しているか否かを判定し、終了している場合はステップＳ８００２に進み、そうで無い場合はステップＳ８００３に進む。前述した様に、実合焦音発生時はその音が大きい事から、利得調整部２４がマイク２２の増幅利得を下げている。その為、実合焦音終了直後は、利得が直ぐに回復せず、後方予測の精度が低くなる。
【００５５】
ステップＳ８００２で、カメラＣＰＵ１６は、利得調整制御部２６に指示して、実合焦音の終了直後に利得調整部２４の利得を瞬時に回復させる。これにより、実合焦より時間的に後の学習区間の被写体音声を早期に安定させることができ、後方予測の精度が向上する。
【００５６】
実合焦音以外の音の場合には、ステップＳ８００２をスキップするので、利得回復はゆっくりとなり、違和感の無い被写体音声信号になる。
【００５７】
ステップＳ８００３で被写体音声の取り込みを行い、ステップＳ８００４で合焦状態の取り込みを行う。合焦状態情報としては、実合焦音の発生と終了のタイミングや、撮像する画像の中での合焦領域情報があげられる。実合焦音の発生終了タイミングは、被写体音声内の実合焦音重畳区間の削除や予測に使用される。合焦領域情報は、図９に示す様に、動画再生時に画像内に合焦領域を表示するために用いられる。図９は、動画再生画面に合焦領域を重畳表示する画面例を示す。動画再生時にレリーズ操作などで急速合焦を行った場合、記録されていた合焦領域がフレーム９１内に合焦エリア９２として重畳表示され、同時に、擬似合焦音が発生される。
【００５８】
ステップＳ８００５では、取り込んだ音声信号および合焦状態情報を同期してバッファなどに一時記憶する。
【００５９】
図１０は、本実施例の被写体音声処理のフローチャートを示す。音声の録音又は動画の撮影開始から所定の時間遅れて、音声処理部２８は、図１０に示すフローをスタートする。この時間遅れは、予測音声作成に必要な時間を見込んだものであり、前述した各予測係数の算出及び後方予測に必要な時間（例えば、後方学習区間３３ｂに要する時間）である。音声処理部２８が、利得調整部２４の出力音声信号をバッファに記憶した上で、後方予測を採用するので、精度の高い予測音が得られる。
【００６０】
ステップＳ１０００１で、音声処理部２８は、バッファに一時記憶された被写体音声を走査し、合焦状態情報などにより実合焦音が重畳したか否かを判定する。実合焦音重畳区間になると、ステップＳ１０００２に進み、そうで無い時はステップＳ１０００１に戻り、循環待機する。
【００６１】
ステップＳ１０００２で、音声処理部２８は、バッファに記憶された被写体音声信号のうち、実合焦音重畳区間の信号を削除する。
【００６２】
ステップＳ１０００３で、音声処理部２８は、実合焦音重畳区間の前後の被写体音声信号から実合焦音重畳区間の被写体音声を予測して組み込む。
【００６３】
ステップＳ１０００４で、音声処理部２８は、実合焦音重畳区間より前の区間における被写体音圧レベルが所定値より大きいか否かを判定する。被写体音圧レベルが所定値より小さい場合はステップＳ１０００５に進み、大きい場合はステップＳ１０００６に進む。
【００６４】
ステップＳ１０００５及びＳ１０００６では共に、音声処理部２８は、擬似合焦音信号を被写体音声信号に合成する。ただし、ステップＳ１０００６では、音圧レベルの大きな擬似合焦音を合成し、ステップＳ１０００５では、音圧レベルの小さな疑似合焦音を合成する。これにより、被写体音声に擬似合焦音が埋もれてしまうことを防ぐ。
【００６５】
ステップ＃１０００７で、音声処理部２８は、擬似合焦音が合成された被写体音声信号を記録部３２に出力して、ステップＳ１０００１に戻る。記録部３２は、音声処理部２８からの音声信号を図示しない記録媒体に記録する。
【００６６】
実合焦音重畳区間６５の音声信号は削除され、その部分を予測信号で補完するが、削除するこの区間６５（削除区間６２）が短いほど、予測信号の誤差が累積されない。実合焦音重畳期間は、短いほど好ましい。しかし、合焦確認としての実合焦音は、ある程度の長さがあった方が撮影時の操作感がよい。同じ静止画撮影でも、動画を撮影していないときの静止画単独撮影の場合の合焦音を長めとし、動画撮影中の静止画撮影では、より短い合焦音とする。そして、記録すべき音声信号に埋め込む疑似合焦音は、静止画単独撮影の場合の実合焦音と同じ長さとする。これにより、再生時の違和感を解消する。例えば、静止画単独撮影時の実合焦音を「ピピッ！」とする。他方、動画撮影中での静止画撮影の場合の実合焦音を「ピッ！」とし、擬似合焦音を「ピピッ！」とする。
【００６７】
動画静止画モード切替えスイッチ３８でユーザが静止画撮影モードを指定している場合、カメラＣＰＵ１６は、合焦音発生部４０に合焦時に「ピピッ！」と２度の連続破裂音を発生させる。他方、動画撮影モードが指定されている場合、カメラＣＰＵ１６は、合焦音発生部４０に合焦時に「ピッ！」と１度の破裂音を発生させる。
【００６８】
図１１は、以上の動作の説明用タイミングチャートである。横軸は時間を示し、縦軸は音圧レベルを示す。１１１ａから１１１ｄはそれぞれ、被写体音声を示す。被写体音声１１１ａには、実際に発音した実合焦音１１０が重畳している。ここでは、動画撮影時の実合焦音であるので、図４に示す実合焦音６０に比べて実合焦音の発生区間が短くなっている。
【００６９】
音声処理部２８は、合焦音重畳区間の被写体音声を削除するが、ここでは、実合焦音１１０の存在する区間より広い区間１１２の被写体音声を削除する。この削除区間１１２も、図４で示した削除区間６２より短く出来る。
【００７０】
被写体音声１１１ｃでは、音声処理部２８は、削除区間１１２の前後の被写体音声信号を学習し、削除区間の被写体音声を予測して、補完する。削除区間１１２が短いので、補完する予測音声に誤差が累積しない。
【００７１】
被写体音声１１１ｄで、音声処理部２８は、擬似合焦音１１４を被写体音声１１１ｄに合成する。擬似合焦音１１４を合成する区間１１６は、静止画時の合焦音と同じ長さになり、削除区間１１２よりも長い。これにより、最終的に記録された被写体音声の再生時には、静止画撮影時と同じ長さの擬似合焦音が知覚される。このように構成にすることで、静止画撮影時の合焦音と同等で違和感の無い動画再生が行われると共に、予測信号の誤差累積を防ぐ事が出来る。
【実施例２】
【００７２】
本実施例は、合焦の為のレンズ駆動音を低減することもできる。合焦の為のレンズ駆動音は、モータ及びそのギアの噛み合い音、並びにそれによる鏡筒の振動からなる。カメラ筐体内の共鳴があるので、マイク２２が取り込む音としては、レンズ駆動音自体を外部から聞くときに比べてかなり異なる雑音となる。
【００７３】
実施例１と同様に、レンズ駆動音発生区間の被写体音声を削除し、そこに予測音声を埋め、擬似的なレンズ駆動音を合成してもよい。但し、レンズ駆動音は合焦音に比べて発生区間が長くなるので、予測音声の誤差が累積し易くなる。
【００７４】
音声予測を用いるのではなく、以下のような方法でレンズ駆動音を低減してもよい。図１２は、そのタイミングチャート例を示す。横軸は時間を示し、縦軸は音圧レベルを示す。１２１ａ〜１２１ｃは各々、被写体音声を示す。
【００７５】
被写体音声１２１ａには、合焦の為のレンズ駆動音１２０が重畳している。レンズ駆動音が重畳している区間のみ、音声処理部２８は、レンズ駆動音の低減処理を行い、被写体音声１２１ｂとする。音声処理部２８によるレンズ駆動音低減処理の詳細は、後述する。低減処理を行う区間１２５は、レンズ駆動音１２０の重畳区間とほぼ同じにしている。
【００７６】
音声処理部２８は、擬似レンズ駆動音１２３を被写体音声信号１２１ｃに合成して、被写体音声１２１ｃを生成する。擬似レンズ駆動音は例えば、周囲音の無い環境でレンズ駆動音をマイク２２により取り込み、そのときのマイク２２の出力音声信号から主要周波数成分を取り出し、聞きやすい音として合成したものである。もちろん、聴感を確認しつつ、聴き取りやすい音を人工的に生成すれば良い。
【００７７】
実施例１と同様に、音声処理部２８は、擬似レンズ駆動音１２３を、レンズ駆動音重畳区間１２５より広い区間１２６で被写体音声１２１ｃに合成する。レンズ駆動音の低減処理を行った区間の前後の接続部分に不連続部があったとしても、擬似レンズ駆動音にカバーされてしまうので、違和感のない被写体音声となる。
【００７８】
図１３は、被写体音声に重畳するレンズ駆動音を低減する構成のブロック図を示す。
【００７９】
周波数変換部１３０は、レンズ駆動音が重畳している被写体音声信号をフーリエ変換により周波数軸上に変換する。これにより、例えば、図１４（ａ）に示すようなスペクトル波形１４１ａの信号が得られる。
【００８０】
疑似レンズ駆動音の周波数成分データが記憶装置１３１に格納されている。図１４（ｂ）は、記憶装置１３１に記憶される疑似レンズ駆動音のスペクトル波形１４１ｂを示す。
【００８１】
差分処理部１３２は、変換部１３０の各周波数成分（図１４（ａ））から、記憶装置１３１からの同じ周波数の周波数成分（図１４（ｂ））を減算する。これにより、実レンズ駆動音が重畳する被写体音声に重畳する実レンズ駆動音から疑似レンズ駆動音を減算し、実レンズ駆動音の音圧を低減できる。
【００８２】
時間軸変換部１３３は、差分処理部１３２の出力を逆フーリエ変換して、時間軸の波形に戻す。
【００８３】
このように、一旦、周波数空間に変換してから疑似レンズ駆動音を差し引く事により、各周波数の位相を考えなくて済む。
【００８４】
本発明の一実施例として、撮像装置が発生する音を消去乃至低減した後に擬似音を重畳する被写体音声録音システムの実施例を説明した。本発明は、動画撮影機能を有するデジタルスチルカメラ、デジタルビデオカメラ、監視カメラ、Ｗｅｂカメラ及び携帯電話などにも広く適用できる。

【特許請求の範囲】
【請求項１】
動画撮影中に静止画を撮影する撮像装置であって、
撮像光学系と、
前記撮像光学系による光学像を画像信号に変換する撮像手段と、
前記静止画の撮影の際の前記撮像光学系の合焦に従い、合焦音を発生する合焦音発生手段と、
前記合焦音を含む周囲音を取り込む音声入力手段と、
疑似合焦音信号を発生する疑似合焦音発生手段と、
前記音声入力手段の入力音声信号に混入する前記合焦音を除去し、前記疑似合焦音信号を合成する音声処理手段
とを具備することを特徴とする撮像装置。
【請求項２】
前記音声処理手段は、
前記音声入力手段の入力音声信号から、前記合焦音が重畳する合焦音重畳区間の音声信号を除去する除去手段と、
前記合焦音重畳区間の時間的に前後する区間の音声信号から、合焦音重畳区間の音声信号を予測して前記合焦音重畳区間に補完する補完手段と、
前記補完手段の出力に前記疑似合焦音信号を合成する手段
とを具備することを特徴とする請求項１に記載の撮像装置。

【図１】