動画データ生成装置、動画データ生成システム、動画データ生成方法およびコンピュータープログラム

【課題】動画データの生成に関する技術を提供する。
【解決手段】互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成装置であって、一定のインターバルで音声データを連続的に入力する音声入力部と、不定期にフレーム画像データを時系列的に順次入力する画像入力部と、フレーム画像データが１フレーム入力されると同時に、次のフレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、データ取得部がデータ取得処理を開始してからデータ取得処理に応じてフレーム画像データが入力されるまでの間に入力される音声データと、データ取得処理に応じて取得したフレーム画像データとを１つの音声画像複合データとして格納する記憶部と、記憶部に記憶された複数の音声画像複合データに基づいて動画データを生成する動画データ変換部とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、動画データを生成する技術に関する。
【背景技術】
【０００２】
書画カメラ、デジタルカメラおよびウェブカメラ等の撮像装置を用いて動画を撮影し、動画データを生成する技術が一般に知られている。上記撮像装置を介して取得した画像データと、撮像装置に付属もしくは外部接続のマイクを介して取得した音声データとに基づいて生成した動画データは、再生時に、画像と音声とのタイミングがずれるという現象（以下、「同期ずれ」とも呼ぶ）が生じることがある。このような同期ずれは、動画データを生成する際に、同時間に生成された音声データと画像データとの対応付けの不備が原因と考えられる。
【０００３】
このような同期付けを解消するために、音声データおよび画像データの入力機器側、つまり動画を生成する装置側（以下、動画生成装置とも呼ぶ）で、両データ（音声データ、画像データ）にタイムスタンプと呼ばれる絶対時間を付与し、付与したタイムスタンプに基づいて、両データの同期付けを行う技術が用いられる。この方法は、撮像装置、マイクおよび動画生成装置における内部の時間が正確に一致している必要がある上、動画生成装置およびマイクが、画像データおよび音声データを安定に生成する必要がある。また、両装置の時間がずれている場合には、動画データを生成するために、両データの生成から動画データ生成装置に入力されるまでの両データ間の時間のずれ（入力タイムラグ）を計測し、常に入力タイムラグ分の時間のずれを考慮しなければならなかった。入力されるデータに、他の情報を付加して記憶する技術として、例えば、下記特許文献１がある。また、複数のデータを、時間に関する情報で比較する技術として特許文献２の技術が知られている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００６−０３３４４３６号
【特許文献２】特開２００７−０５９０３０号
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述した、両データ（音声データ、画像データ）にタイムスタンプを付与する方法では、動画データ生成装置にタイムスタンプを付与する仕組みが必要であり、且つ、各機器の内部の設定時間が正確である必要がある。また、入力タイムラグを考慮して動画データを生成する方法では、入力タイムラグが常に一定ではないシステムの場合には、同期ずれが生じる可能性がある。
【課題を解決するための手段】
【０００６】
本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態又は適用例として実現することが可能である。
【０００７】
［適用例１］
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成装置であって、一定のインターバルで前記音声データを連続的に入力する音声入力部と、不定期に前記フレーム画像データを時系列的に順次入力する画像入力部と、前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、前記データ取得部が前記データ取得処理を開始してから前記データ取得処理に応じて前記フレーム画像データが入力されるまでの間に入力される前記音声データと前記データ取得処理に応じて取得した前記フレーム画像データとを１つの音声画像複合データとして格納する記憶部と、前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部とを備える動画データ生成装置。
【０００８】
この動画データ生成装置によると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとの時間的ずれ（同期ずれ）のない動画データを生成することができる。
【０００９】
［適用例２］
前記音声データは前記フレーム画像データよりも短い周期で前記動画データ生成装置に入力される適用例１記載の動画データ生成装置。
この動画データ生成装置によると、周期が異なって入力される音声データとフレーム画像データとに基づいて、同期ずれのない動画データを生成することができる。
【００１０】
［適用例３］
前記音声データは所定の時間単位毎のデータとして入力される適用例２記載の動画データ生成装置。
この動画データ生成装置によれば、フレーム画像データと、所定の時間単位毎に入力される音声データとに基づいて、同期ずれのない動画データを生成することができる。
【００１１】
［適用例４］
前記音声データは、マイクが集音した音声に基づいて生成され、前記動画データ生成装置に入力される適用例１ないし３のいずれか記載の動画データ生成装置。
この動画データ生成装置によると、フレーム画像データと、マイクで集音した音声に基づいた音声データに基づいて、同期ずれのない動画データを生成することができる。
【００１２】
［適用例５］
前記音声データは、音源を有する音声出力機器から出力された音声に基づいて生成され、前記動画データ生成装置に入力される適用例１ないし３のいずれか記載の動画データ生成装置。
この動画データ生成装置によると、音源を有する音声出力機器、例えば楽器等によって出力された音に基づいて生成された音声データに基づいて、同期ずれのない動画データを生成することができる。
【００１３】
［適用例６］
前記フレーム画像データは、書画カメラ、デジタルカメラ、ウェブカメラのいずれか１つから前記動画データ生成装置に入力される適用例１ないし５のいずれか記載の動画データ生成装置。
この動画データ生成装置によれば、書画カメラ、デジタルカメラ、ウェブカメラに基づいて生成されたフレーム画像データと、音声データとに基づいて、同期ずれのない動画データを生成することができる。
【００１４】
［適用例７］
前記フレーム画像データは、ＪＰＧ（ジェイペグ）、ＢＭＰ（ビットマップ）、ＧＩＦ（ジフ）のいずれかのデータ形式で入力される適用例１ないし６のいずれか記載の動画データ生成装置。
この動画データ生成装置によれば、音声データと、ＪＰＧ、ＢＭＰ、ＧＩＦのいずれかのデータ形式のフレーム画像データに基づいて、同期ずれのない動画データを生成することができる。
【００１５】
［適用例８］
前記動画データは、ＡＶＩ（オーディオ・ビデオ・インターリーブ）のデータ形式である適用例１ないし７のいずれか記載の動画データ生成装置。
この動画データ生成装置によると、音声データとフレーム画像データとに基づいて、ＡＶＩのデータ形式で動画データを生成するので、他のデータ形式、例えばＭＰＧ形式に比べて、簡易な変換処理により動画データを生成することができる。
【００１６】
［適用例９］
動画データ生成装置と書画カメラとマイクとを備える動画データ生成システムであって、前記動画データ生成装置は、一定のインターバルで前記マイクを介して前記音声データを連続的に入力する音声入力部と、不定期に前記書画カメラを介して前記フレーム画像データを時系列的に順次入力する画像入力部と、前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、前記データ取得部が前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを１つの音声画像複合データとして格納する記憶部と、前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部とを備える動画データ生成システム。
この動画データ生成システムによると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとに時間的ずれ（同期ずれ）のない動画データを生成することができる。
【００１７】
［適用例１０］
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成方法であって、一定のインターバルで前記音声データを連続的に入力し、不定期に前記フレーム画像データを時系列的に順次入力し、前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始し、前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを１つの音声画像複合データとして格納し、前記記憶した複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ生成方法。
この動画データ生成方法によると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとに時間的ずれ（同期ずれ）のない動画データを生成することができる。
【００１８】
［適用例１１］
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する処理をコンピューターに実行させるコンピュータープログラムであって、一定のインターバルで前記音声データを連続的に入力する機能と、不定期に前記フレーム画像データを時系列的に順次入力する機能と、前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始する機能と、前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを１つの音声画像複合データとして格納する機能と、前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する機能とを前記コンピューターに実現させるコンピュータープログラム。
このコンピュータープログラムによると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとに時間的ずれ（同期ずれ）のない動画データを生成する機能をコンピューターに実現させることができる。
【図面の簡単な説明】
【００１９】
【図１】第１実施例における動画撮像システム１０の構成を示す構成図である。
【図２】書画カメラ２０の内部構成を説明する説明図である。
【図３】コンピューター４０の構成を説明する構成図である。
【図４】画像出力処理とデータ取得処理との流れを示したフローチャートである。
【図５】データ格納処理と動画データ変換処理との流れを示したフローチャートである。
【図６】データ取得処理、データ格納処理および動画データ変換処理を概念的に説明する説明図である。
【図７】動画データを再生する方法を概念的に説明する説明図である。
【発明を実施するための形態】
【００２０】
本発明の実施の形態を実施例に基づいて説明する。
Ａ．第１実施例：
（Ａ１）動画撮像システムの構成：
図１は、本発明の一実施例に係る動画撮像システム１０の構成を示す構成図である。動画撮像システム１０は、書画カメラ２０と、マイク３０と、コンピューター４０とを備えている。書画カメラ２０は、コンピューター４０とＵＳＢ接続により外部接続されている。マイク３０は、コンピューター４０とオーディオケーブルによって接続されており、マイク３０によって集音された音声は、アナログ信号としてオーディオケーブルを介してコンピューター４０に入力される。
【００２１】
本実施例では、ユーザーが、資料を用いてプレゼンテーションを行い、そのプレゼンテーションを動画データとして録画する場合を想定して説明する。このプレゼンテーションにおいて、書画カメラ２０が、ユーザーが示す資料を動画として撮像する。また、マイク３０が、ユーザーが行う説明を音声として集音する。そして、コンピューター４０が、書画カメラ２０によって撮像した動画と、マイク３０によって集音した音声とに基づいてプレゼンテーションの動画データを生成する。
【００２２】
（Ａ２）書画カメラ２０の構成：
図１において、書画カメラ２０の外部構成について説明する。書画カメラ２０は、机などに載置される操作本体２２と、操作本体２２から上側に湾曲して伸びた支柱２３と、支柱２３の上端に固定されたカメラヘッド２１と、書画カメラ２０によって撮像する資料を載置する資料載置台２５とを備える。操作本体２２の上面には、操作パネル２４が設けられている。操作パネル２４には、電源スイッチ、画像補正用の操作ボタン、映像の出力先の切り替えを設定する各種ボタン、カメラ映像の明るさを調整するボタンなどが設けられている。また操作本体２２の背面には、図示しないＤＣ電源端子や、ＵＳＢ接続用のＵＳＢインターフェイス（以下、ＵＳＢ／ＩＦとも呼ぶ）２６０を備える。
【００２３】
次に書画カメラ２０の内部構成について説明する。図２は書画カメラ２０の内部構成を説明する説明図である。書画カメラ２０は、撮像部２１０、ＣＰＵ２２０、映像出力処理部２２５、ＲＯＭ２３０、ＲＡＭ２４０、上述したＵＳＢ／ＩＦ２６０、映像出力インターフェイス（映像出力ＩＦ）２６５を備え、互いに内部バス２９５で接続されている。撮像部２１０はさらに、レンズ２１２や電荷結合素子（ＣＣＤ）２１４を備え、資料載置台２５（図１参照）に載置した資料等を撮像する。
【００２４】
映像出力処理部２２５は、撮像部２１０が撮像した画像データの画素に欠落している色成分値を周囲の画素の色成分から生成する補間回路、資料の白色部分が白色として再現されるように補正するホワイトバランス回路、画像データのガンマ特性を調整してコントラストを明瞭にするガンマ補正回路、色相を補正する色変換回路、輪郭を強調するエッジ強調回路等を備えており、画像データにこれらの処理を施し、撮像画像データとしてＲＡＭ２４０が備える撮像画像バッファー２４２に記憶する。また映像出力処理部２２５は、撮像画像バッファー２４２に記憶した撮像画像データを、ＲＧＢ色空間で表現された映像信号として順次、映像出力ＩＦ２６５に接続されているテレビ（ＴＶ）４５に出力する。なお、上記説明した映像出力処理部２２５が行う処理を、画像処理専用のＤＳＰ（Digital Signal Processor）を用いることにより行うとしてもよい。
【００２５】
ＲＡＭ２４０はさらに、撮像画像バッファー２４２と出力画像バッファー２４４とを備える。撮像画像バッファー２４２は、上記したように、映像出力処理部２２５が生成した撮像画像データを記憶するバッファーである。出力画像バッファー２４４は、ＣＰＵ２２０が、撮像画像データをコンピューター４０への出力用のデータに変換したフレーム画像データを記憶するバッファーである。詳細は後で説明する。
【００２６】
ＣＰＵ２２０はさらに、画像変換部２２２と出力制御部２２４とを備える。画像変換部２２２は、上述したように、撮像画像バッファー２４２に記憶されている撮像画像データをフレーム画像データに変換する処理を行う。また、出力制御部２２４は、出力画像バッファー２４４に記憶されているフレーム画像データを、ＵＳＢ／ＩＦ２６０を介して接続されているコンピューター４０へ出力する処理を行う。これら機能部は、ＲＯＭ２３０が備えるプログラムをＣＰＵ２２０が読み込むことによって実行される。
【００２７】
（Ａ３）コンピューター４０の構成：
次に、コンピューター４０の構成について説明する。図３は、コンピューター４０の構成を説明する構成図である。コンピューター４０は、ＣＰＵ４２０、ＲＯＭ４３０、ＲＡＭ４４０、ハードディスク（ＨＤＤ）４５０を備え、互いに内部バス４９５で接続されている。さらに、コンピューター４０は、書画カメラ２０と接続されているＵＳＢ／ＩＦ４６０と、マイク３０と接続され、アナログ音声信号が入力される音声入力インターフェイス（音声入力ＩＦ）４７０と、入力されたアナログ音声信号をデジタルの音声データに変換するＡ／Ｄ変換部４８０と、入出力インターフェイス（以下、ＩＯ／ＩＦとも呼ぶ）４９０を備え、ＩＯ／ＩＦ４９０にはディスプレイ４１、キーボード４２およびマウス４３が接続されている。
【００２８】
ＣＰＵ４２０は、さらに、書画カメラ２０およびマイク３０から、フレーム画像データおよび音声データを取得するデータ取得部４２２と、取得したデータを所定の規則に基づいてＲＡＭ４４０に格納するデータ格納処理部４２４と、ＲＡＭ４４０に記憶したフレーム画像データと音声データとに基づいて動画データを生成する動画データ変換部４２６とを備える。これら機能部は、ＣＰＵ４２０が、ＲＯＭ４３０に記憶されている書画カメラ２０専用の録画用アプリケーションプログラム（以下、録画用プログラムとも呼ぶ）を読み込むことによって実行される。
【００２９】
ＲＡＭ４４０は、さらに、受信データバッファー４４２と動画データバッファー４４４とを備える。受信データバッファー４４２は、上述したように、書画カメラ２０およびマイク３０から受信した、フレーム画像データと音声データとを記憶するバッファーである。また、動画データバッファー４４４は、ＣＰＵ４２０が、フレーム画像データと音声データに基づいて生成した動画データを記憶するバッファーである。
【００３０】
（Ａ４）動画データ生成処理：
次に、動画撮像システム１０が行う動画データ生成処理について説明する。動画データ生成処理は、書画カメラ２０が行う画像出力処理と、コンピューター４０が行うデータ取得処理、データ格納処理および動画データ変換処理とからなる。まず、書画カメラ２０が行う画像出力処理から説明する。書画カメラ２０（図２参照）は、電源投入後は常時、撮像部２１０によって、１秒間に１５フレームの撮像速度で、資料載置台２５に載置された資料等を撮像し、映像出力処理部２２５が撮像画像データを生成する。同時に、映像出力処理部２２５は、生成した撮像画像データを撮像画像バッファー２４２に記憶する。そして、映像出力ＩＦ２６５に、テレビ、プロジェクタ等の映像表示機器（本実施例においてはテレビ４５）が接続されると、映像出力処理部２２５は、撮像画像バッファー２４２に記憶した撮像画像データを読み出し、ＲＧＢの映像信号として撮像画像データを映像表示機器に出力する。
【００３１】
上記の状態、つまり常に撮像画像データを生成し、撮像画像バッファー２４２に記憶する処理を行っている状態の書画カメラ２０が、コンピューター４０から、画像データ要求ＲｑＶを受信することによって、画像データ出力処理は開始される。図４は、書画カメラ２０が行う画像出力処理、およびコンピューター４０が行うデータ取得処理の流れを示したフローチャートである。上述した、コンピューター４０からの画像データ要求ＲｑＶを書画カメラ２０が受信すると、書画カメラ２０のＣＰＵ２２０（図２参照）は、撮像画像バッファー２４２から、画像データ要求ＲｑＶを受信した直後に生成した１フレーム分の撮像画像データを読み出し、データ圧縮処理を行い、コンピューター４０へ出力するためのフレーム画像データに変換する（ステップＳ１０２）。フレーム画像データのデータ形式としては、ＪＰＧ（ジェイペグ）、ＢＭＰ（ビットマップ）、ＧＩＦ（ジフ）等の画像データ形式を用いることができるが、本実施例では、ＣＰＵ２２０は、撮像画像データをＪＰＧ形式のフレーム画像データに変換する。
【００３２】
撮像画像データをフレーム画像データに変換後、ＣＰＵ２２０は、フレーム画像データを出力画像バッファー２４４に記憶する（ステップＳ１０４）。その後、ＣＰＵ２２０は、出力画像バッファー２４４に記憶したフレーム画像データを、ＵＳＢ／ＩＦ２６０を介してコンピューター４０に出力し（ステップＳ１０６）、書画カメラ２０による画像出力処理は終了する。上記説明した画像出力処理は、コンピューター４０から画像データ要求ＲｑＶを受信する毎に、ＣＰＵ２２０によって繰り返し行われ、録画用プログラムを介してユーザーが行った録画停止の指示を受信することによって処理は停止する。
【００３３】
ここで、ＣＰＵ２２０が画像データ要求ＲｑＶを受信し、ステップ１０２からステップＳ１０６を経て、フレーム画像データをコンピューター４０に出力するまでの時間（以下、画像出力時間とも呼ぶ）について説明する。ＣＰＵ２２０は、コンピューター４０から画像データ要求ＲｑＶを受信すると、撮像した撮像画像データをＪＰＧ形式に圧縮処理を開始し、フレーム画像データに変換後、出力する。従って、画像出力時間は、ＣＰＵ２２０が行う撮像画像データの圧縮処理の時間に依存する。また、撮像画像データの圧縮処理は、撮像画像データの画像の内容により、処理に必要な時間が異なるため、画像出力時間は一定とはならず、コンピューター４０は、フレーム画像データを不定期に受信することとなる。
【００３４】
次に、図４に示したコンピューター４０が行うデータ取得処理について説明する。データ取得処理は、コンピューター４０が備える録画用プログラムを介してユーザーが行った録画の指示を、ＣＰＵ４２０が受信することによって開始される。データ取得処理が開始されると、ＣＰＵ４２０は、書画カメラ２０からフレーム画像データを取得するために、書画カメラ２０に対して、画像データ要求ＲｑＶを送信する（ステップＳ２０２）。その後、ＣＰＵ４２０は、マイク３０が集音し、Ａ／Ｄ変換部４８０によってデジタルデータに変換された音声データを、コンピューター４０が備えるＯＳ（オペレーションシステム）を介して、ＰＣＭデータ（pulse code modulation）の形式で取得する。その際、ＣＰＵ４２０は、音声データを１００（ｍｓｅｃ）単位の音声データとして一定のインターバルで取得する（ステップＳ２０４）。本実施例においては、ＣＰＵ４２０は、ＰＣＭデータ形式の１００（ｍｓｅｃ）単位の音声データを取得するとしたが、データ形式としてはＭＰ３、ＷＡＶ、ＷＭＡ等の音声データ形式としてもよく、また、データの単位長は１００（ｍｓｅｃ）に限らず、ＣＰＵ４２０で処理可能な範囲で、任意の単位長として設定可能である。その後、書画カメラ２０から１フレーム分のフレーム画像データが出力され、コンピューター４０が受信する（ステップＳ２０６）。そして、これらの処理は、コンピューター４０が備える録画用プログラムを介してユーザーが行った録画停止の指示を、ＣＰＵ４２０が受信するまで（ステップＳ２０８）、処理は繰り返し行われる。なお、図４に示すデータ取得処理のステップＳ２０４において、音声データを取得した後にフレーム画像データを取得する処理として説明しているが、これは説明の便宜上、図４に示すように記載した。以下に、その説明をする。
【００３５】
ＣＰＵ４２０は、画像データ要求ＲｑＶを送信してから１フレーム分のフレーム画像データを書画カメラ２０から受信するまでの間、一定のインターバルで、継続して、１００（ｍｓｅｃ）単位の音声データを取得する。つまり、取得する音声データのデータ単位である１００（ｍｓｅｃ）分のデータだけを取得するのではなく、例えば、画像データ要求ＲｑＶを送信し、音声データの取得を開始してからフレーム画像データを受信するまでの時間が３００（ｍｓｅｃ）の場合、ＣＰＵ４２０は、１００（ｍｓｅｃ）単位の音声データを３つ、つまり３００（ｍｓｅｃ）分の音声データを取得する。また、音声データの取得を開始してからフレーム画像データを取得するまでの時間が１００（ｍｓｅｃ）に満たない場合は、ＣＰＵ４２０は音声データを取得せずに、フレーム画像データを受信してデータ取得処理を終了することとなる。このように、実際の処理においては、ステップＳ２０４の音声データの取得の処理は、単に、音声データを取得後にフレーム画像データを取得するのではなく、音声データの取得前にフレーム画像データを取得した場合は音声データを取得せずに次の処理に移る、と言う処理内容のサブルーチンとなっている。
【００３６】
次に、コンピューター４０が行う、データ格納処理および動画データ変換処理について説明する。図５は、コンピューター４０が行うデータ格納処理と動画データ変換処理の流れについて示したフローチャートである。ＣＰＵ４２０は、データ取得処理（図４参照）においてフレーム画像データと音声データとを取得すると、受信データバッファー４４２に格納する処理（データ格納処理）を行う。以下、ＣＰＵ４２０が行うデータ格納処理について説明する。データ格納処理は、データ取得処理と同様に、コンピューター４０が備える録画用プログラムを介してユーザーが行った録画の指示を、ＣＰＵ４２０が受信することによって開始される。
【００３７】
データ格納処理が開始されると、ＣＰＵ４２０は、取得したフレーム画像データと音声データとを記憶する受信データバッファー４４２を、ＲＡＭ４４０上に既に作成しているか否かを確認する（ステップＳ３０２）。受信データバッファー４４２を作成していない場合は、ＣＰＵ４２０は、ＲＡＭ４４０上に、受信データバッファー４４２を作成する（ステップＳ３０４）。
【００３８】
受信データバッファー４４２は、図５に示すように、３０個の記憶領域から成る。各記憶領域は、１フレームのフレーム画像データと１０秒分の音声データとが記憶可能な記憶容量を備える。また、受信データバッファー４４２はリングバッファーとして機能する。つまり、受信データバッファー４４２の各記憶領域に付されたバッファー番号（１〜３０）の順にデータを格納していき、バッファー番号３０の記憶領域まで格納すると、次に、バッファー番号１のバッファーから、再度、前に記憶されたデータに上書きをする形で、新たなデータを格納する。なお、受信データバッファー４４２が、特許請求の範囲に記載の記憶部に相当する。
【００３９】
上記説明したようにして受信データバッファー４４２を生成すると、ＣＰＵ４２０は、書画カメラ２０から取得するフレーム画像データ、およびマイク３０を介して取得する音声データを受信するまで待機状態となる（ステップＳ３０６）。そして、上述したデータ取得処理によって、フレーム画像データまたは音声データを受信すると、その受信したデータがフレーム画像データであるのか、音声データであるのかを判断する（ステップＳ３０８）。受信したデータが音声データの場合、ＣＰＵ４２０は、受信した音声データを、上記説明した受信データバッファー４４２（リングバッファー）の記憶領域に格納する（ステップＳ３１０）。例えば、動画データ変換処理が開始されて１回目のデータ格納処理の場合は、ＣＰＵ４２０は、最初に受信した音声データを、受信データバッファー４４２のバッファー番号１の記憶領域に格納し、データ格納処理は終了する。また、このデータ格納処理は、１回の処理が終了すると同時に、再度、新たなデータ格納処理を開始する。このようにして処理は繰り返し行われ、録画用プログラムを介してユーザーが行う録画停止の指示を受信することによって、処理を停止する。
【００４０】
一方、処理が繰り返され、ステップＳ３０８において、１フレーム分のフレーム画像データを受信した場合、ＣＰＵ４２０は、フレーム画像データを受信データバッファー４４２の記憶領域に格納する（ステップＳ３１２）。例えば、データ格納処理が繰り返される中で、動画データ変換処理開始後に初めてフレーム画像データを取得した場合、ＣＰＵ４２０は、受信した１フレーム分のフレーム画像データをバッファー番号１の記憶領域に格納する。つまり、上述した例のように、先に音声データがバッファー番号１の記憶領域に格納されている場合、その音声データにフレーム画像データを追加する形でフレーム画像データを格納する。
【００４１】
フレーム画像データを受信データバッファー４４２に格納後、ＣＰＵ４２０は、そのフレーム画像を格納した記憶領域のバッファー番号を、後に説明する動画データ変換処理に対してコマンド、あるいはメッセージとして送信する（ステップＳ３１４）。その後、ＣＰＵ４２０は、受信したデータを格納する記憶領域を、次の記憶領域に移動させる。例えば、１回目のデータ格納処理で音声データがバッファー番号１の記憶領域に格納され、その後の処理で、１フレーム分のフレーム画像データがバッファー番号１の記憶領域に追加して格納された場合、ＣＰＵ４２０は、次に受信したデータを記憶する記憶領域をバッファー番号２の記憶領域に移動させる。
【００４２】
ここで、上記説明したコンピューター４０が行う各処理について詳しく説明する。図６は、コンピューター４０が行うデータ取得処理、データ格納処理、および、後で説明する動画データ変換処理を概念的に説明する説明図である。図６の上段の図は、データ取得処理を概念的に示した説明図である。図６の上段の図は、データ取得処理によって、コンピューター４０が、音声データ（Ａ１〜Ａ９）を１００（ｍｓｅｃ）ずつのデータとして一定のインターバルで受信し、フレーム画像データ（Ｖ１〜Ｖ３）を１フレームずつ不定期に受信する様子を示している。なお、図６において、Ｖ１、Ｖ２、Ｖ３それぞれが１フレームずつのフレーム画像データを表す。
【００４３】
上述したように、音声データは、１００（ｍｓｅｃ）ずつのデータとして、受信した順に、受信データバッファー４４２の記憶領域に格納される。そして、１フレーム分のフレーム画像データを受信すると、それまでに受信した音声データと共に１つの記憶領域に格納し、その後に受信する音声データは、次の記憶領域に格納する。そして再び、フレーム画像データを受信すると、それまでに受信した音声データとフレーム画像データとを共に１つの記憶領域に記憶する。図６において具体的に説明すると、一定の間隔で音声データ（Ａ１〜Ａ９）がコンピューター４０に一定のインターバルで入力される。そこに１フレーム分のフレーム画像データＶ１が入力されると、フレーム画像データＶ１が入力されるまでにコンピューター４０に入力された音声データＡ１〜Ａ４と、フレーム画像データＶ１とを一つのデータ（以下、音声画像複合データとも呼ぶ）として、１つの記憶領域、例えばバッファー番号１の記憶領域に格納する。その後、フレーム画像データＶ１の入力後に入力される音声データは、入力される順に、次の記憶領域、例えばバッファー番号２の記憶領域に格納される。そして、フレーム画像データＶ２が入力されると、Ｖ２が入力されるまでに格納された音声データＡ５，Ａ６と、フレーム画像データＶ２とを１つの音声画像複合データとしてバッファー番号２の記憶領域に格納する。
【００４４】
また、後に、図５のフローチャートを用いて動画データ変換処理として説明するが、図６の下段の図に示すように、受信データバッファー４４２の各記憶領域に格納した音声画像複合データを、ＣＰＵ４２０が動画データ変換処理部の機能として、受信データバッファー４４２に格納した順に読み出し、動画データバッファー４４４に、ＡＶＩ（オーディオ・ビデオ・インターリーブ）のデータ形式で保存することによって、動画データを生成する。このようにして、ＣＰＵ４２０は、音声データと、フレーム画像データによって動画データを生成する。
【００４５】
説明を図５に戻し、ＣＰＵ４２０が行う動画データ変換処理について説明する。動画データ変換処理は、上記のデータ取得処理およびデータ格納処理と同様、コンピューター４０が備える録画用プログラムを介してユーザーが行った録画の指示を、ＣＰＵ４２０が受信することによって開始される。つまり、ＣＰＵ４２０は、ユーザーからの録画の指示の受信とともに、データ取得処理、データ格納処理、動画データ変換処理の３つのスレッドを立て、各々、実行するのである。
【００４６】
動画データ変換処理が開始され、データ格納処理のステップＳ３１４によって送信されたバッファー番号を受信すると（ステップＳ４０２）、ＣＰＵ４２０は、受信データバッファー４４２から、受信したバッファー番号の記憶領域に格納されている音声画像複合データを読み込む（ステップＳ４０４）。その後、読み込んだ音声画像複合データを、動画データバッファー４４４にＡＶＩのデータ形式で保存し（ステップＳ４０６）、動画データ変換処理は終了する。動画データ変換処理は、所定のインターバルで繰り返され、コンピューター４０が備える録画用プログラムを介してユーザーが行った録画の停止の指示を、ＣＰＵ４２０が受信することによって処理は終了する。
【００４７】
次に、動画撮像システム１０によって生成した動画データの再生について説明する。図７は、生成した動画データを、コンピューター４０によって再生する様子を、概念的に説明する説明図である。ＣＰＵ４２０は、動画データを再生する際、ＡＶＩとして保存した動画データを読み込む。そして、動画データに含まれる複数の音声画像複合データを、そのデータ単位毎に、図に示すように時系列的に再生する。つまり、音声データについては、Ａ１から順に一定の再生速度で再生していく。一方、フレーム画像データは、図７に示すように、１つの音声複合データの最初の音声データ、例えばＡ１の再生時に、その音声複合データに含まれるフレーム画像データＶ１を再生する。
【００４８】
しかし、上記のように、音声データとフレーム画像データとを再生していくと、再生されるフレーム画像データと次のフレーム画像データとのインターバルが長くなる場合があり、動画として再生した際に、不自然な映像となる。そこで、フレーム画像データの再生されるインターバルが所定の時間より長い場合は、そのフレーム画像データと次のフレーム画像データとが再生される間に、そのインターバルを補間する補間画像を生成して再生する。補間画像としては、その補間を行うインターバルの直前のフレーム画像データを補間画像として用いる。
【００４９】
また、本実施例においては、動画データとして１秒間に１５フレームのフレームレートでフレーム画像データを再生することにより、動画としての映像を表示する。つまり、再生されるフレーム画像データのインターバルは約６７（ｍｓｅｃ）である。従って、フレーム画像データの再生されるインターバルが６７（ｍｓｅｃ）より長い場合には、補間画像を補間して再生する。例えば、図７において、Ｖ１とＶ２の再生される間隔は４００（ｍｓｅｃ）である。よって、Ｖ１とＶ２の再生されるインターバルに、Ｖ１に基づいて生成した補間画像を５つ補間し、画像が再生されるインターバルが約６７（ｍｓｅｃ）となるようにする。こうすることで、再生される映像の動きを滑らかにすることができる。なお、本実施例ではフレームレートを１秒間に１５フレームとしたが、より滑らかな動きの映像を表示するために、１秒間に１５フレーム以上、例えば、３０フレームやそれ以上のフレーム数を再生するとしてもよい。また、これとは反対に、フレームレートを下げ、１秒間に２０フレームや１５フレームの再生として、補間画像の生成数を減らすことにより、ＣＰＵ４２０への処理の負荷を軽減をするとしてもよい。上記説明したようにして、動画データを再生する。
【００５０】
以上説明したように、動画撮像システム１０における動画データ生成処理は、マイク３０を解して一定のインターバルで入力される音声データと、不定期に入力されるフレーム画像データとがコンピューター４０に入力される場合に、１フレーム分のフレーム画像データが入力されるまでに入力された音声データと、そのフレーム画像データとを一つの音声画像複合データとして受信データバッファー４４２の各記憶領域に格納し、格納した複数の音声画像複合データを１つの動画データとして保存する。従って、生成した動画データを、上記で説明したように再生すると、音声と、その動画に含まれる複数のフレーム画像データからなる映像との再生されるタイミングに時間的なずれ、つまり同期ずれを生じることなく再生することができる。
【００５１】
Ｂ．変形例：
（Ｂ１）変形例１：
第１実施例では、マイク３０を介して取得した音声データに基づいて動画データを生成したが、変形例１として、ＣＤ再生装置、電子ピアノ、電子オルガン、電子ギター等の音響出力装置からデジタル形式の音声データを直接取得し、取得した音声データに基づいて動画データを生成するとしてもよい。本変形例の用途として、例えば、電子ピアノの鍵盤が撮像可能な位置に書画カメラ２０を設置し、電子ピアノを演奏している演奏者の指の動きを書画カメラ２０で撮像し、撮像した撮像画像データに基づいて、コンピューター４０において動画データを生成する。一方、演奏者が演奏する電子ピアノの演奏音を、電子ピアノのデジタル音声出力部から、直接、デジタル音声データを取得し、動画データの音声データとする。このようにすると、上記実施例と同様の効果を得ることができ、音声と映像とに時間的ずれ（同期ずれ）の無いピアノ指導用の動画データを生成することができる。
【００５２】
以上、本発明における実施例および変形例について説明したが、本発明はこれらの態様に限られるものではなく、本発明の要旨を変更しない範囲で、種々の態様で実施をすることができる。例えば、書画カメラ２０で撮像してフレーム画像データを取得することに代えて、デジタルカメラやウェブカメラ等の撮像装置を用いて撮像を行い、フレーム画像データを取得するとしてもよい。このようにしても、上記実施例と同様の効果を得ることができる。また、本実施例では、動画データをＡＶＩのデータ形式で保存したが、その他のデータ形式として、ｍｐｇ（ｍｐｅｇ）やｒｍ（ｒｅａｌｍｅｄｉａ）等の動画データ形式で保存してもよい。この場合、一度、ＡＶＩ形式として保存後に、ｍｐｇやｒｍのデータ形式に既存のデータ変換プログラムによって変換してもよいし、例えば、複数の音声画像複合データを保存した後に、複数の音声画像複合データに含まれる各フレーム画像データ間の画像圧縮処理を行いｍｐｇに変換するとしてもよい。
【符号の説明】
【００５３】
１０…動画撮像システム
２０…書画カメラ
２１…カメラヘッド
２２…操作本体
２３…支柱
２４…操作パネル
２５…資料載置台
３０…マイク
４０…コンピューター
４１…ディスプレイ
４２…キーボード
４３…マウス
４５…テレビ
２１０…撮像部
２１２…レンズ
２１４…ＣＣＤ
２２０，４２０…ＣＰＵ
２２２…画像変換部
２２４…出力制御部
２２５…映像出力処理部
２３０，４３０…ＲＯＭ
２４０，４４０…ＲＡＭ
２４２…撮像画像バッファー
２４４…出力画像バッファー
２６０，４６０…ＵＳＢインターフェイス
２６５…映像出力インターフェイス
２９５，４９５…内部バス
４２２…データ取得部
４２４…データ格納処理部
４２６…動画データ変換部
４４２…受信データバッファー
４４４…動画データバッファー
４５０…ハードディスク
４７０…音声入力インターフェイス
４８０…Ａ／Ｄ変換部
４９０…入出力インターフェイス
Ｖ１〜Ｖ３…フレーム画像データ
Ａ１〜Ａ９…音声データ
ＲｑＶ…画像データ要求

【特許請求の範囲】
【請求項１】
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成装置であって、
一定のインターバルで前記音声データを連続的に入力する音声入力部と、
不定期に前記フレーム画像データを時系列的に順次入力する画像入力部と、
前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、
前記データ取得部が前記データ取得処理を開始してから前記データ取得処理に応じて前記フレーム画像データが入力されるまでの間に入力される前記音声データと、前記データ取得処理に応じて取得した前記フレーム画像データとを１つの音声画像複合データとして格納する記憶部と、
前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部と
を備える動画データ生成装置。
【請求項２】
前記音声データは前記フレーム画像データよりも短い周期で前記動画データ生成装置に入力される請求項１記載の動画データ生成装置。
【請求項３】
前記音声データは所定の時間単位毎のデータとして入力される請求項２記載の動画データ生成装置。
【請求項４】
前記音声データは、マイクが集音した音声に基づいて生成され、前記動画データ生成装置に入力される請求項１ないし３のいずれか記載の動画データ生成装置。
【請求項５】
前記音声データは、音源を有する音声出力機器から出力された音声に基づいて生成され、前記動画データ生成装置に入力される請求項１ないし３のいずれか記載の動画データ生成装置。
【請求項６】
前記フレーム画像データは、書画カメラ、デジタルカメラ、ウェブカメラのいずれか１つから前記動画データ生成装置に入力される請求項１ないし５のいずれか記載の動画データ生成装置。
【請求項７】
前記フレーム画像データは、ＪＰＧ（ジェイペグ）、ＢＭＰ（ビットマップ）、ＧＩＦ（ジフ）のいずれかのデータ形式で入力される請求項１ないし６のいずれか記載の動画データ生成装置。
【請求項８】
前記動画データは、ＡＶＩ（オーディオ・ビデオ・インターリーブ）のデータ形式である請求項１ないし７のいずれか記載の動画データ生成装置。
【請求項９】
動画データ生成装置と書画カメラとマイクとを備える動画データ生成システムであって、
前記動画データ生成装置は、
一定のインターバルで前記マイクを介して前記音声データを連続的に入力する音声入力部と、
不定期に前記書画カメラを介して前記フレーム画像データを時系列的に順次入力する画像入力部と、
前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、
前記データ取得部が前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを１つの音声画像複合データとして格納する記憶部と、
前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部とを備える
動画データ生成システム。
【請求項１０】
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成方法であって、
一定のインターバルで前記音声データを連続的に入力し、
不定期に前記フレーム画像データを時系列的に順次入力し、
前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始し、
前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを１つの音声画像複合データとして格納し、
前記記憶した複数の前記音声画像複合データに基づいて前記動画データを生成する
動画データ生成方法。
【請求項１１】
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する処理をコンピューターに実行させるコンピュータープログラムであって、
一定のインターバルで前記音声データを連続的に入力する機能と、
不定期に前記フレーム画像データを時系列的に順次入力する機能と、
前記フレーム画像データが１フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始する機能と、
前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを１つの音声画像複合データとして格納する機能と、
前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する機能と
を前記コンピューターに実現させるコンピュータープログラム。

【図１】