説明

動画データ生成装置、動画データ生成システム、動画データ生成方法およびコンピュータープログラム

【課題】動画データの生成に関する技術を提供する。
【解決手段】互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成装置であって、一定のインターバルで音声データを連続的に入力する音声入力部と、不定期にフレーム画像データを時系列的に順次入力する画像入力部と、フレーム画像データが1フレーム入力されると同時に、次のフレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、データ取得部がデータ取得処理を開始してからデータ取得処理に応じてフレーム画像データが入力されるまでの間に入力される音声データと、データ取得処理に応じて取得したフレーム画像データとを1つの音声画像複合データとして格納する記憶部と、記憶部に記憶された複数の音声画像複合データに基づいて動画データを生成する動画データ変換部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画データを生成する技術に関する。
【背景技術】
【0002】
書画カメラ、デジタルカメラおよびウェブカメラ等の撮像装置を用いて動画を撮影し、動画データを生成する技術が一般に知られている。上記撮像装置を介して取得した画像データと、撮像装置に付属もしくは外部接続のマイクを介して取得した音声データとに基づいて生成した動画データは、再生時に、画像と音声とのタイミングがずれるという現象(以下、「同期ずれ」とも呼ぶ)が生じることがある。このような同期ずれは、動画データを生成する際に、同時間に生成された音声データと画像データとの対応付けの不備が原因と考えられる。
【0003】
このような同期付けを解消するために、音声データおよび画像データの入力機器側、つまり動画を生成する装置側(以下、動画生成装置とも呼ぶ)で、両データ(音声データ、画像データ)にタイムスタンプと呼ばれる絶対時間を付与し、付与したタイムスタンプに基づいて、両データの同期付けを行う技術が用いられる。この方法は、撮像装置、マイクおよび動画生成装置における内部の時間が正確に一致している必要がある上、動画生成装置およびマイクが、画像データおよび音声データを安定に生成する必要がある。また、両装置の時間がずれている場合には、動画データを生成するために、両データの生成から動画データ生成装置に入力されるまでの両データ間の時間のずれ(入力タイムラグ)を計測し、常に入力タイムラグ分の時間のずれを考慮しなければならなかった。入力されるデータに、他の情報を付加して記憶する技術として、例えば、下記特許文献1がある。また、複数のデータを、時間に関する情報で比較する技術として特許文献2の技術が知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−0334436号
【特許文献2】特開2007−059030号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した、両データ(音声データ、画像データ)にタイムスタンプを付与する方法では、動画データ生成装置にタイムスタンプを付与する仕組みが必要であり、且つ、各機器の内部の設定時間が正確である必要がある。また、入力タイムラグを考慮して動画データを生成する方法では、入力タイムラグが常に一定ではないシステムの場合には、同期ずれが生じる可能性がある。
【課題を解決するための手段】
【0006】
本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態又は適用例として実現することが可能である。
【0007】
[適用例1]
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成装置であって、一定のインターバルで前記音声データを連続的に入力する音声入力部と、不定期に前記フレーム画像データを時系列的に順次入力する画像入力部と、前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、前記データ取得部が前記データ取得処理を開始してから前記データ取得処理に応じて前記フレーム画像データが入力されるまでの間に入力される前記音声データと前記データ取得処理に応じて取得した前記フレーム画像データとを1つの音声画像複合データとして格納する記憶部と、前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部とを備える動画データ生成装置。
【0008】
この動画データ生成装置によると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとの時間的ずれ(同期ずれ)のない動画データを生成することができる。
【0009】
[適用例2]
前記音声データは前記フレーム画像データよりも短い周期で前記動画データ生成装置に入力される適用例1記載の動画データ生成装置。
この動画データ生成装置によると、周期が異なって入力される音声データとフレーム画像データとに基づいて、同期ずれのない動画データを生成することができる。
【0010】
[適用例3]
前記音声データは所定の時間単位毎のデータとして入力される適用例2記載の動画データ生成装置。
この動画データ生成装置によれば、フレーム画像データと、所定の時間単位毎に入力される音声データとに基づいて、同期ずれのない動画データを生成することができる。
【0011】
[適用例4]
前記音声データは、マイクが集音した音声に基づいて生成され、前記動画データ生成装置に入力される適用例1ないし3のいずれか記載の動画データ生成装置。
この動画データ生成装置によると、フレーム画像データと、マイクで集音した音声に基づいた音声データに基づいて、同期ずれのない動画データを生成することができる。
【0012】
[適用例5]
前記音声データは、音源を有する音声出力機器から出力された音声に基づいて生成され、前記動画データ生成装置に入力される適用例1ないし3のいずれか記載の動画データ生成装置。
この動画データ生成装置によると、音源を有する音声出力機器、例えば楽器等によって出力された音に基づいて生成された音声データに基づいて、同期ずれのない動画データを生成することができる。
【0013】
[適用例6]
前記フレーム画像データは、書画カメラ、デジタルカメラ、ウェブカメラのいずれか1つから前記動画データ生成装置に入力される適用例1ないし5のいずれか記載の動画データ生成装置。
この動画データ生成装置によれば、書画カメラ、デジタルカメラ、ウェブカメラに基づいて生成されたフレーム画像データと、音声データとに基づいて、同期ずれのない動画データを生成することができる。
【0014】
[適用例7]
前記フレーム画像データは、JPG(ジェイペグ)、BMP(ビットマップ)、GIF(ジフ)のいずれかのデータ形式で入力される適用例1ないし6のいずれか記載の動画データ生成装置。
この動画データ生成装置によれば、音声データと、JPG、BMP、GIFのいずれかのデータ形式のフレーム画像データに基づいて、同期ずれのない動画データを生成することができる。
【0015】
[適用例8]
前記動画データは、AVI(オーディオ・ビデオ・インターリーブ)のデータ形式である適用例1ないし7のいずれか記載の動画データ生成装置。
この動画データ生成装置によると、音声データとフレーム画像データとに基づいて、AVIのデータ形式で動画データを生成するので、他のデータ形式、例えばMPG形式に比べて、簡易な変換処理により動画データを生成することができる。
【0016】
[適用例9]
動画データ生成装置と書画カメラとマイクとを備える動画データ生成システムであって、前記動画データ生成装置は、一定のインターバルで前記マイクを介して前記音声データを連続的に入力する音声入力部と、不定期に前記書画カメラを介して前記フレーム画像データを時系列的に順次入力する画像入力部と、前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、前記データ取得部が前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを1つの音声画像複合データとして格納する記憶部と、前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部とを備える動画データ生成システム。
この動画データ生成システムによると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとに時間的ずれ(同期ずれ)のない動画データを生成することができる。
【0017】
[適用例10]
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成方法であって、一定のインターバルで前記音声データを連続的に入力し、不定期に前記フレーム画像データを時系列的に順次入力し、前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始し、前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを1つの音声画像複合データとして格納し、前記記憶した複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ生成方法。
この動画データ生成方法によると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとに時間的ずれ(同期ずれ)のない動画データを生成することができる。
【0018】
[適用例11]
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する処理をコンピューターに実行させるコンピュータープログラムであって、一定のインターバルで前記音声データを連続的に入力する機能と、不定期に前記フレーム画像データを時系列的に順次入力する機能と、前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始する機能と、前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを1つの音声画像複合データとして格納する機能と、前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する機能とを前記コンピューターに実現させるコンピュータープログラム。
このコンピュータープログラムによると、互いに独立に生成された音声データとフレーム画像データとに基づいて、音声データと画像データとに時間的ずれ(同期ずれ)のない動画データを生成する機能をコンピューターに実現させることができる。
【図面の簡単な説明】
【0019】
【図1】第1実施例における動画撮像システム10の構成を示す構成図である。
【図2】書画カメラ20の内部構成を説明する説明図である。
【図3】コンピューター40の構成を説明する構成図である。
【図4】画像出力処理とデータ取得処理との流れを示したフローチャートである。
【図5】データ格納処理と動画データ変換処理との流れを示したフローチャートである。
【図6】データ取得処理、データ格納処理および動画データ変換処理を概念的に説明する説明図である。
【図7】動画データを再生する方法を概念的に説明する説明図である。
【発明を実施するための形態】
【0020】
本発明の実施の形態を実施例に基づいて説明する。
A.第1実施例:
(A1)動画撮像システムの構成:
図1は、本発明の一実施例に係る動画撮像システム10の構成を示す構成図である。動画撮像システム10は、書画カメラ20と、マイク30と、コンピューター40とを備えている。書画カメラ20は、コンピューター40とUSB接続により外部接続されている。マイク30は、コンピューター40とオーディオケーブルによって接続されており、マイク30によって集音された音声は、アナログ信号としてオーディオケーブルを介してコンピューター40に入力される。
【0021】
本実施例では、ユーザーが、資料を用いてプレゼンテーションを行い、そのプレゼンテーションを動画データとして録画する場合を想定して説明する。このプレゼンテーションにおいて、書画カメラ20が、ユーザーが示す資料を動画として撮像する。また、マイク30が、ユーザーが行う説明を音声として集音する。そして、コンピューター40が、書画カメラ20によって撮像した動画と、マイク30によって集音した音声とに基づいてプレゼンテーションの動画データを生成する。
【0022】
(A2)書画カメラ20の構成:
図1において、書画カメラ20の外部構成について説明する。書画カメラ20は、机などに載置される操作本体22と、操作本体22から上側に湾曲して伸びた支柱23と、支柱23の上端に固定されたカメラヘッド21と、書画カメラ20によって撮像する資料を載置する資料載置台25とを備える。操作本体22の上面には、操作パネル24が設けられている。操作パネル24には、電源スイッチ、画像補正用の操作ボタン、映像の出力先の切り替えを設定する各種ボタン、カメラ映像の明るさを調整するボタンなどが設けられている。また操作本体22の背面には、図示しないDC電源端子や、USB接続用のUSBインターフェイス(以下、USB/IFとも呼ぶ)260を備える。
【0023】
次に書画カメラ20の内部構成について説明する。図2は書画カメラ20の内部構成を説明する説明図である。書画カメラ20は、撮像部210、CPU220、映像出力処理部225、ROM230、RAM240、上述したUSB/IF260、映像出力インターフェイス(映像出力IF)265を備え、互いに内部バス295で接続されている。撮像部210はさらに、レンズ212や電荷結合素子(CCD)214を備え、資料載置台25(図1参照)に載置した資料等を撮像する。
【0024】
映像出力処理部225は、撮像部210が撮像した画像データの画素に欠落している色成分値を周囲の画素の色成分から生成する補間回路、資料の白色部分が白色として再現されるように補正するホワイトバランス回路、画像データのガンマ特性を調整してコントラストを明瞭にするガンマ補正回路、色相を補正する色変換回路、輪郭を強調するエッジ強調回路等を備えており、画像データにこれらの処理を施し、撮像画像データとしてRAM240が備える撮像画像バッファー242に記憶する。また映像出力処理部225は、撮像画像バッファー242に記憶した撮像画像データを、RGB色空間で表現された映像信号として順次、映像出力IF265に接続されているテレビ(TV)45に出力する。なお、上記説明した映像出力処理部225が行う処理を、画像処理専用のDSP(Digital Signal Processor)を用いることにより行うとしてもよい。
【0025】
RAM240はさらに、撮像画像バッファー242と出力画像バッファー244とを備える。撮像画像バッファー242は、上記したように、映像出力処理部225が生成した撮像画像データを記憶するバッファーである。出力画像バッファー244は、CPU220が、撮像画像データをコンピューター40への出力用のデータに変換したフレーム画像データを記憶するバッファーである。詳細は後で説明する。
【0026】
CPU220はさらに、画像変換部222と出力制御部224とを備える。画像変換部222は、上述したように、撮像画像バッファー242に記憶されている撮像画像データをフレーム画像データに変換する処理を行う。また、出力制御部224は、出力画像バッファー244に記憶されているフレーム画像データを、USB/IF260を介して接続されているコンピューター40へ出力する処理を行う。これら機能部は、ROM230が備えるプログラムをCPU220が読み込むことによって実行される。
【0027】
(A3)コンピューター40の構成:
次に、コンピューター40の構成について説明する。図3は、コンピューター40の構成を説明する構成図である。コンピューター40は、CPU420、ROM430、RAM440、ハードディスク(HDD)450を備え、互いに内部バス495で接続されている。さらに、コンピューター40は、書画カメラ20と接続されているUSB/IF460と、マイク30と接続され、アナログ音声信号が入力される音声入力インターフェイス(音声入力IF)470と、入力されたアナログ音声信号をデジタルの音声データに変換するA/D変換部480と、入出力インターフェイス(以下、IO/IFとも呼ぶ)490を備え、IO/IF490にはディスプレイ41、キーボード42およびマウス43が接続されている。
【0028】
CPU420は、さらに、書画カメラ20およびマイク30から、フレーム画像データおよび音声データを取得するデータ取得部422と、取得したデータを所定の規則に基づいてRAM440に格納するデータ格納処理部424と、RAM440に記憶したフレーム画像データと音声データとに基づいて動画データを生成する動画データ変換部426とを備える。これら機能部は、CPU420が、ROM430に記憶されている書画カメラ20専用の録画用アプリケーションプログラム(以下、録画用プログラムとも呼ぶ)を読み込むことによって実行される。
【0029】
RAM440は、さらに、受信データバッファー442と動画データバッファー444とを備える。受信データバッファー442は、上述したように、書画カメラ20およびマイク30から受信した、フレーム画像データと音声データとを記憶するバッファーである。また、動画データバッファー444は、CPU420が、フレーム画像データと音声データに基づいて生成した動画データを記憶するバッファーである。
【0030】
(A4)動画データ生成処理:
次に、動画撮像システム10が行う動画データ生成処理について説明する。動画データ生成処理は、書画カメラ20が行う画像出力処理と、コンピューター40が行うデータ取得処理、データ格納処理および動画データ変換処理とからなる。まず、書画カメラ20が行う画像出力処理から説明する。書画カメラ20(図2参照)は、電源投入後は常時、撮像部210によって、1秒間に15フレームの撮像速度で、資料載置台25に載置された資料等を撮像し、映像出力処理部225が撮像画像データを生成する。同時に、映像出力処理部225は、生成した撮像画像データを撮像画像バッファー242に記憶する。そして、映像出力IF265に、テレビ、プロジェクタ等の映像表示機器(本実施例においてはテレビ45)が接続されると、映像出力処理部225は、撮像画像バッファー242に記憶した撮像画像データを読み出し、RGBの映像信号として撮像画像データを映像表示機器に出力する。
【0031】
上記の状態、つまり常に撮像画像データを生成し、撮像画像バッファー242に記憶する処理を行っている状態の書画カメラ20が、コンピューター40から、画像データ要求RqVを受信することによって、画像データ出力処理は開始される。図4は、書画カメラ20が行う画像出力処理、およびコンピューター40が行うデータ取得処理の流れを示したフローチャートである。上述した、コンピューター40からの画像データ要求RqVを書画カメラ20が受信すると、書画カメラ20のCPU220(図2参照)は、撮像画像バッファー242から、画像データ要求RqVを受信した直後に生成した1フレーム分の撮像画像データを読み出し、データ圧縮処理を行い、コンピューター40へ出力するためのフレーム画像データに変換する(ステップS102)。フレーム画像データのデータ形式としては、JPG(ジェイペグ)、BMP(ビットマップ)、GIF(ジフ)等の画像データ形式を用いることができるが、本実施例では、CPU220は、撮像画像データをJPG形式のフレーム画像データに変換する。
【0032】
撮像画像データをフレーム画像データに変換後、CPU220は、フレーム画像データを出力画像バッファー244に記憶する(ステップS104)。その後、CPU220は、出力画像バッファー244に記憶したフレーム画像データを、USB/IF260を介してコンピューター40に出力し(ステップS106)、書画カメラ20による画像出力処理は終了する。上記説明した画像出力処理は、コンピューター40から画像データ要求RqVを受信する毎に、CPU220によって繰り返し行われ、録画用プログラムを介してユーザーが行った録画停止の指示を受信することによって処理は停止する。
【0033】
ここで、CPU220が画像データ要求RqVを受信し、ステップ102からステップS106を経て、フレーム画像データをコンピューター40に出力するまでの時間(以下、画像出力時間とも呼ぶ)について説明する。CPU220は、コンピューター40から画像データ要求RqVを受信すると、撮像した撮像画像データをJPG形式に圧縮処理を開始し、フレーム画像データに変換後、出力する。従って、画像出力時間は、CPU220が行う撮像画像データの圧縮処理の時間に依存する。また、撮像画像データの圧縮処理は、撮像画像データの画像の内容により、処理に必要な時間が異なるため、画像出力時間は一定とはならず、コンピューター40は、フレーム画像データを不定期に受信することとなる。
【0034】
次に、図4に示したコンピューター40が行うデータ取得処理について説明する。データ取得処理は、コンピューター40が備える録画用プログラムを介してユーザーが行った録画の指示を、CPU420が受信することによって開始される。データ取得処理が開始されると、CPU420は、書画カメラ20からフレーム画像データを取得するために、書画カメラ20に対して、画像データ要求RqVを送信する(ステップS202)。その後、CPU420は、マイク30が集音し、A/D変換部480によってデジタルデータに変換された音声データを、コンピューター40が備えるOS(オペレーションシステム)を介して、PCMデータ(pulse code modulation)の形式で取得する。その際、CPU420は、音声データを100(msec)単位の音声データとして一定のインターバルで取得する(ステップS204)。本実施例においては、CPU420は、PCMデータ形式の100(msec)単位の音声データを取得するとしたが、データ形式としてはMP3、WAV、WMA等の音声データ形式としてもよく、また、データの単位長は100(msec)に限らず、CPU420で処理可能な範囲で、任意の単位長として設定可能である。その後、書画カメラ20から1フレーム分のフレーム画像データが出力され、コンピューター40が受信する(ステップS206)。そして、これらの処理は、コンピューター40が備える録画用プログラムを介してユーザーが行った録画停止の指示を、CPU420が受信するまで(ステップS208)、処理は繰り返し行われる。なお、図4に示すデータ取得処理のステップS204において、音声データを取得した後にフレーム画像データを取得する処理として説明しているが、これは説明の便宜上、図4に示すように記載した。以下に、その説明をする。
【0035】
CPU420は、画像データ要求RqVを送信してから1フレーム分のフレーム画像データを書画カメラ20から受信するまでの間、一定のインターバルで、継続して、100(msec)単位の音声データを取得する。つまり、取得する音声データのデータ単位である100(msec)分のデータだけを取得するのではなく、例えば、画像データ要求RqVを送信し、音声データの取得を開始してからフレーム画像データを受信するまでの時間が300(msec)の場合、CPU420は、100(msec)単位の音声データを3つ、つまり300(msec)分の音声データを取得する。また、音声データの取得を開始してからフレーム画像データを取得するまでの時間が100(msec)に満たない場合は、CPU420は音声データを取得せずに、フレーム画像データを受信してデータ取得処理を終了することとなる。このように、実際の処理においては、ステップS204の音声データの取得の処理は、単に、音声データを取得後にフレーム画像データを取得するのではなく、音声データの取得前にフレーム画像データを取得した場合は音声データを取得せずに次の処理に移る、と言う処理内容のサブルーチンとなっている。
【0036】
次に、コンピューター40が行う、データ格納処理および動画データ変換処理について説明する。図5は、コンピューター40が行うデータ格納処理と動画データ変換処理の流れについて示したフローチャートである。CPU420は、データ取得処理(図4参照)においてフレーム画像データと音声データとを取得すると、受信データバッファー442に格納する処理(データ格納処理)を行う。以下、CPU420が行うデータ格納処理について説明する。データ格納処理は、データ取得処理と同様に、コンピューター40が備える録画用プログラムを介してユーザーが行った録画の指示を、CPU420が受信することによって開始される。
【0037】
データ格納処理が開始されると、CPU420は、取得したフレーム画像データと音声データとを記憶する受信データバッファー442を、RAM440上に既に作成しているか否かを確認する(ステップS302)。受信データバッファー442を作成していない場合は、CPU420は、RAM440上に、受信データバッファー442を作成する(ステップS304)。
【0038】
受信データバッファー442は、図5に示すように、30個の記憶領域から成る。各記憶領域は、1フレームのフレーム画像データと10秒分の音声データとが記憶可能な記憶容量を備える。また、受信データバッファー442はリングバッファーとして機能する。つまり、受信データバッファー442の各記憶領域に付されたバッファー番号(1〜30)の順にデータを格納していき、バッファー番号30の記憶領域まで格納すると、次に、バッファー番号1のバッファーから、再度、前に記憶されたデータに上書きをする形で、新たなデータを格納する。なお、受信データバッファー442が、特許請求の範囲に記載の記憶部に相当する。
【0039】
上記説明したようにして受信データバッファー442を生成すると、CPU420は、書画カメラ20から取得するフレーム画像データ、およびマイク30を介して取得する音声データを受信するまで待機状態となる(ステップS306)。そして、上述したデータ取得処理によって、フレーム画像データまたは音声データを受信すると、その受信したデータがフレーム画像データであるのか、音声データであるのかを判断する(ステップS308)。受信したデータが音声データの場合、CPU420は、受信した音声データを、上記説明した受信データバッファー442(リングバッファー)の記憶領域に格納する(ステップS310)。例えば、動画データ変換処理が開始されて1回目のデータ格納処理の場合は、CPU420は、最初に受信した音声データを、受信データバッファー442のバッファー番号1の記憶領域に格納し、データ格納処理は終了する。また、このデータ格納処理は、1回の処理が終了すると同時に、再度、新たなデータ格納処理を開始する。このようにして処理は繰り返し行われ、録画用プログラムを介してユーザーが行う録画停止の指示を受信することによって、処理を停止する。
【0040】
一方、処理が繰り返され、ステップS308において、1フレーム分のフレーム画像データを受信した場合、CPU420は、フレーム画像データを受信データバッファー442の記憶領域に格納する(ステップS312)。例えば、データ格納処理が繰り返される中で、動画データ変換処理開始後に初めてフレーム画像データを取得した場合、CPU420は、受信した1フレーム分のフレーム画像データをバッファー番号1の記憶領域に格納する。つまり、上述した例のように、先に音声データがバッファー番号1の記憶領域に格納されている場合、その音声データにフレーム画像データを追加する形でフレーム画像データを格納する。
【0041】
フレーム画像データを受信データバッファー442に格納後、CPU420は、そのフレーム画像を格納した記憶領域のバッファー番号を、後に説明する動画データ変換処理に対してコマンド、あるいはメッセージとして送信する(ステップS314)。その後、CPU420は、受信したデータを格納する記憶領域を、次の記憶領域に移動させる。例えば、1回目のデータ格納処理で音声データがバッファー番号1の記憶領域に格納され、その後の処理で、1フレーム分のフレーム画像データがバッファー番号1の記憶領域に追加して格納された場合、CPU420は、次に受信したデータを記憶する記憶領域をバッファー番号2の記憶領域に移動させる。
【0042】
ここで、上記説明したコンピューター40が行う各処理について詳しく説明する。図6は、コンピューター40が行うデータ取得処理、データ格納処理、および、後で説明する動画データ変換処理を概念的に説明する説明図である。図6の上段の図は、データ取得処理を概念的に示した説明図である。図6の上段の図は、データ取得処理によって、コンピューター40が、音声データ(A1〜A9)を100(msec)ずつのデータとして一定のインターバルで受信し、フレーム画像データ(V1〜V3)を1フレームずつ不定期に受信する様子を示している。なお、図6において、V1、V2、V3それぞれが1フレームずつのフレーム画像データを表す。
【0043】
上述したように、音声データは、100(msec)ずつのデータとして、受信した順に、受信データバッファー442の記憶領域に格納される。そして、1フレーム分のフレーム画像データを受信すると、それまでに受信した音声データと共に1つの記憶領域に格納し、その後に受信する音声データは、次の記憶領域に格納する。そして再び、フレーム画像データを受信すると、それまでに受信した音声データとフレーム画像データとを共に1つの記憶領域に記憶する。図6において具体的に説明すると、一定の間隔で音声データ(A1〜A9)がコンピューター40に一定のインターバルで入力される。そこに1フレーム分のフレーム画像データV1が入力されると、フレーム画像データV1が入力されるまでにコンピューター40に入力された音声データA1〜A4と、フレーム画像データV1とを一つのデータ(以下、音声画像複合データとも呼ぶ)として、1つの記憶領域、例えばバッファー番号1の記憶領域に格納する。その後、フレーム画像データV1の入力後に入力される音声データは、入力される順に、次の記憶領域、例えばバッファー番号2の記憶領域に格納される。そして、フレーム画像データV2が入力されると、V2が入力されるまでに格納された音声データA5,A6と、フレーム画像データV2とを1つの音声画像複合データとしてバッファー番号2の記憶領域に格納する。
【0044】
また、後に、図5のフローチャートを用いて動画データ変換処理として説明するが、図6の下段の図に示すように、受信データバッファー442の各記憶領域に格納した音声画像複合データを、CPU420が動画データ変換処理部の機能として、受信データバッファー442に格納した順に読み出し、動画データバッファー444に、AVI(オーディオ・ビデオ・インターリーブ)のデータ形式で保存することによって、動画データを生成する。このようにして、CPU420は、音声データと、フレーム画像データによって動画データを生成する。
【0045】
説明を図5に戻し、CPU420が行う動画データ変換処理について説明する。動画データ変換処理は、上記のデータ取得処理およびデータ格納処理と同様、コンピューター40が備える録画用プログラムを介してユーザーが行った録画の指示を、CPU420が受信することによって開始される。つまり、CPU420は、ユーザーからの録画の指示の受信とともに、データ取得処理、データ格納処理、動画データ変換処理の3つのスレッドを立て、各々、実行するのである。
【0046】
動画データ変換処理が開始され、データ格納処理のステップS314によって送信されたバッファー番号を受信すると(ステップS402)、CPU420は、受信データバッファー442から、受信したバッファー番号の記憶領域に格納されている音声画像複合データを読み込む(ステップS404)。その後、読み込んだ音声画像複合データを、動画データバッファー444にAVIのデータ形式で保存し(ステップS406)、動画データ変換処理は終了する。動画データ変換処理は、所定のインターバルで繰り返され、コンピューター40が備える録画用プログラムを介してユーザーが行った録画の停止の指示を、CPU420が受信することによって処理は終了する。
【0047】
次に、動画撮像システム10によって生成した動画データの再生について説明する。図7は、生成した動画データを、コンピューター40によって再生する様子を、概念的に説明する説明図である。CPU420は、動画データを再生する際、AVIとして保存した動画データを読み込む。そして、動画データに含まれる複数の音声画像複合データを、そのデータ単位毎に、図に示すように時系列的に再生する。つまり、音声データについては、A1から順に一定の再生速度で再生していく。一方、フレーム画像データは、図7に示すように、1つの音声複合データの最初の音声データ、例えばA1の再生時に、その音声複合データに含まれるフレーム画像データV1を再生する。
【0048】
しかし、上記のように、音声データとフレーム画像データとを再生していくと、再生されるフレーム画像データと次のフレーム画像データとのインターバルが長くなる場合があり、動画として再生した際に、不自然な映像となる。そこで、フレーム画像データの再生されるインターバルが所定の時間より長い場合は、そのフレーム画像データと次のフレーム画像データとが再生される間に、そのインターバルを補間する補間画像を生成して再生する。補間画像としては、その補間を行うインターバルの直前のフレーム画像データを補間画像として用いる。
【0049】
また、本実施例においては、動画データとして1秒間に15フレームのフレームレートでフレーム画像データを再生することにより、動画としての映像を表示する。つまり、再生されるフレーム画像データのインターバルは約67(msec)である。従って、フレーム画像データの再生されるインターバルが67(msec)より長い場合には、補間画像を補間して再生する。例えば、図7において、V1とV2の再生される間隔は400(msec)である。よって、V1とV2の再生されるインターバルに、V1に基づいて生成した補間画像を5つ補間し、画像が再生されるインターバルが約67(msec)となるようにする。こうすることで、再生される映像の動きを滑らかにすることができる。なお、本実施例ではフレームレートを1秒間に15フレームとしたが、より滑らかな動きの映像を表示するために、1秒間に15フレーム以上、例えば、30フレームやそれ以上のフレーム数を再生するとしてもよい。また、これとは反対に、フレームレートを下げ、1秒間に20フレームや15フレームの再生として、補間画像の生成数を減らすことにより、CPU420への処理の負荷を軽減をするとしてもよい。上記説明したようにして、動画データを再生する。
【0050】
以上説明したように、動画撮像システム10における動画データ生成処理は、マイク30を解して一定のインターバルで入力される音声データと、不定期に入力されるフレーム画像データとがコンピューター40に入力される場合に、1フレーム分のフレーム画像データが入力されるまでに入力された音声データと、そのフレーム画像データとを一つの音声画像複合データとして受信データバッファー442の各記憶領域に格納し、格納した複数の音声画像複合データを1つの動画データとして保存する。従って、生成した動画データを、上記で説明したように再生すると、音声と、その動画に含まれる複数のフレーム画像データからなる映像との再生されるタイミングに時間的なずれ、つまり同期ずれを生じることなく再生することができる。
【0051】
B.変形例:
(B1)変形例1:
第1実施例では、マイク30を介して取得した音声データに基づいて動画データを生成したが、変形例1として、CD再生装置、電子ピアノ、電子オルガン、電子ギター等の音響出力装置からデジタル形式の音声データを直接取得し、取得した音声データに基づいて動画データを生成するとしてもよい。本変形例の用途として、例えば、電子ピアノの鍵盤が撮像可能な位置に書画カメラ20を設置し、電子ピアノを演奏している演奏者の指の動きを書画カメラ20で撮像し、撮像した撮像画像データに基づいて、コンピューター40において動画データを生成する。一方、演奏者が演奏する電子ピアノの演奏音を、電子ピアノのデジタル音声出力部から、直接、デジタル音声データを取得し、動画データの音声データとする。このようにすると、上記実施例と同様の効果を得ることができ、音声と映像とに時間的ずれ(同期ずれ)の無いピアノ指導用の動画データを生成することができる。
【0052】
以上、本発明における実施例および変形例について説明したが、本発明はこれらの態様に限られるものではなく、本発明の要旨を変更しない範囲で、種々の態様で実施をすることができる。例えば、書画カメラ20で撮像してフレーム画像データを取得することに代えて、デジタルカメラやウェブカメラ等の撮像装置を用いて撮像を行い、フレーム画像データを取得するとしてもよい。このようにしても、上記実施例と同様の効果を得ることができる。また、本実施例では、動画データをAVIのデータ形式で保存したが、その他のデータ形式として、mpg(mpeg)やrm(real media)等の動画データ形式で保存してもよい。この場合、一度、AVI形式として保存後に、mpgやrmのデータ形式に既存のデータ変換プログラムによって変換してもよいし、例えば、複数の音声画像複合データを保存した後に、複数の音声画像複合データに含まれる各フレーム画像データ間の画像圧縮処理を行いmpgに変換するとしてもよい。
【符号の説明】
【0053】
10…動画撮像システム
20…書画カメラ
21…カメラヘッド
22…操作本体
23…支柱
24…操作パネル
25…資料載置台
30…マイク
40…コンピューター
41…ディスプレイ
42…キーボード
43…マウス
45…テレビ
210…撮像部
212…レンズ
214…CCD
220,420…CPU
222…画像変換部
224…出力制御部
225…映像出力処理部
230,430…ROM
240,440…RAM
242…撮像画像バッファー
244…出力画像バッファー
260,460…USBインターフェイス
265…映像出力インターフェイス
295,495…内部バス
422…データ取得部
424…データ格納処理部
426…動画データ変換部
442…受信データバッファー
444…動画データバッファー
450…ハードディスク
470…音声入力インターフェイス
480…A/D変換部
490…入出力インターフェイス
V1〜V3…フレーム画像データ
A1〜A9…音声データ
RqV…画像データ要求

【特許請求の範囲】
【請求項1】
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成装置であって、
一定のインターバルで前記音声データを連続的に入力する音声入力部と、
不定期に前記フレーム画像データを時系列的に順次入力する画像入力部と、
前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、
前記データ取得部が前記データ取得処理を開始してから前記データ取得処理に応じて前記フレーム画像データが入力されるまでの間に入力される前記音声データと、前記データ取得処理に応じて取得した前記フレーム画像データとを1つの音声画像複合データとして格納する記憶部と、
前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部と
を備える動画データ生成装置。
【請求項2】
前記音声データは前記フレーム画像データよりも短い周期で前記動画データ生成装置に入力される請求項1記載の動画データ生成装置。
【請求項3】
前記音声データは所定の時間単位毎のデータとして入力される請求項2記載の動画データ生成装置。
【請求項4】
前記音声データは、マイクが集音した音声に基づいて生成され、前記動画データ生成装置に入力される請求項1ないし3のいずれか記載の動画データ生成装置。
【請求項5】
前記音声データは、音源を有する音声出力機器から出力された音声に基づいて生成され、前記動画データ生成装置に入力される請求項1ないし3のいずれか記載の動画データ生成装置。
【請求項6】
前記フレーム画像データは、書画カメラ、デジタルカメラ、ウェブカメラのいずれか1つから前記動画データ生成装置に入力される請求項1ないし5のいずれか記載の動画データ生成装置。
【請求項7】
前記フレーム画像データは、JPG(ジェイペグ)、BMP(ビットマップ)、GIF(ジフ)のいずれかのデータ形式で入力される請求項1ないし6のいずれか記載の動画データ生成装置。
【請求項8】
前記動画データは、AVI(オーディオ・ビデオ・インターリーブ)のデータ形式である請求項1ないし7のいずれか記載の動画データ生成装置。
【請求項9】
動画データ生成装置と書画カメラとマイクとを備える動画データ生成システムであって、
前記動画データ生成装置は、
一定のインターバルで前記マイクを介して前記音声データを連続的に入力する音声入力部と、
不定期に前記書画カメラを介して前記フレーム画像データを時系列的に順次入力する画像入力部と、
前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始するデータ取得部と、
前記データ取得部が前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを1つの音声画像複合データとして格納する記憶部と、
前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する動画データ変換部とを備える
動画データ生成システム。
【請求項10】
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する動画データ生成方法であって、
一定のインターバルで前記音声データを連続的に入力し、
不定期に前記フレーム画像データを時系列的に順次入力し、
前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始し、
前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを1つの音声画像複合データとして格納し、
前記記憶した複数の前記音声画像複合データに基づいて前記動画データを生成する
動画データ生成方法。
【請求項11】
互いに独立に生成された音声データとフレーム画像データとに基づいて動画データを生成する処理をコンピューターに実行させるコンピュータープログラムであって、
一定のインターバルで前記音声データを連続的に入力する機能と、
不定期に前記フレーム画像データを時系列的に順次入力する機能と、
前記フレーム画像データが1フレーム入力されると同時に、次の前記フレーム画像データを取得するための処理であるデータ取得処理を開始する機能と、
前記データ取得処理を開始してから前記データ取得処理によって前記フレーム画像データが入力されるまでの間に入力された前記音声データと、前記データ取得処理によって取得した前記フレーム画像データとを1つの音声画像複合データとして格納する機能と、
前記記憶部に記憶された複数の前記音声画像複合データに基づいて前記動画データを生成する機能と
を前記コンピューターに実現させるコンピュータープログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−4204(P2011−4204A)
【公開日】平成23年1月6日(2011.1.6)
【国際特許分類】
【出願番号】特願2009−145999(P2009−145999)
【出願日】平成21年6月19日(2009.6.19)
【出願人】(000000424)株式会社エルモ社 (104)
【Fターム(参考)】