説明

映像音声再生装置、映像音声記録再生装置、映像音声編集装置、映像音声再生方法、映像音声記録再生方法、および映像音声編集方法

【課題】 本発明は、適切な画像をサムネイルとして選択することが可能な映像音声記録再生装置を提供することを目的とする。
【解決手段】 映像情報からシーンの境界を抽出し、抽出されたシーン境界にアクセスするためのエントリー情報を生成し、抽出されたシーン境界により分割されたシーンを代表するサムネイル画像を選択し、選択されたサムネイル画像を表示し、表示されたサムネイルから任意のサムネイルを選択させ、選択されたサムネイルに対応するシーンを再生する処理を備え、シーン境界から所定期間後のピクチャをサムネイル画像として選択することを特徴とする映像音声再生方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、記録する映像をシーン単位に分割するとともに、シーンに対応するサムネイル画像を生成することによって、再生時に、視聴したいシーンを、サムネイル選択による視覚的な選択によって可能とする映像音声再生装置に関するものである。
【背景技術】
【0002】
従来の映像記録再生装置においては、映像の再生開始位置から再生を行う場合、再生開始時点をタイトル名もしくはチャプター番号によって選択していたため、ユーザーは、再生を行う前の段階で、どのような内容の映像が再生されるかを知ることができなかった。
【0003】
このような問題を解消するため、録画時における映像符号化処理前の画像データを用いて、サムネイルデータを生成し、再生タイトルを選択するグラフィックス画面上に、生成したサムネイルデータを表示することによって、再生内容をユーザーに知らせる方法がある(特許文献1)。さらに、タイトル、もしくはタイトル内の特定区間(チャプターやシーン)の内容を示すサムネイルデータの画像をより適切な画像内容とするために、サムネイルデータの元となる映像の位置を決定する方法も考案されている(特許文献2及び3)。一方、特定のシーンの内容を、連続する静止画として表現するために、シーン内のシーンチェンジの発生間隔を利用し、サムネイル画像を決定する方法もある(特許文献4)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−148731号公報(第14頁、図9)
【特許文献2】特開2006−229821号公報(第4頁、図1)
【特許文献3】特開2003−274361号公報(第4頁、図3)
【特許文献4】特開2001−298711号公報(第3頁、図25)
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、従来の映像記録再生装置においては、シーンの開始および終了位置をチャプターもしくはエントリーで区切り、再生開始から固定時間、もしくはエントリー位置からの固定時間経過後の画像をサムネイルとして利用していた。そのため、選択したサムネイル画像の内容と、再生される映像内容に乖離があり、ユーザーが違和感を覚えることがあった。また、動きの変化が激しい場面のピクチャがサムネイルとして選択された場合、サムネイル画像が何を表示しているのか分からないという不具合もあった。
【0006】
本発明は、上記の課題を解決するためになされたものであり、記録する映像音声コンテンツをシーンに区切るとともに、各シーンについて、適切な画像をサムネイルとして選択することが可能な映像音声記録再生装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る映像再生装置は、映像情報からシーンの境界を抽出するシーン境界抽出手段と、
シーン境界抽出手段によって抽出されたシーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
上記シーン境界抽出手段によって分割されたシーンを代表するサムネイル画像を選択するサムネイル生成手段と、
前記サムネイル生成手段によって選択されたサムネイル画像を表示するサムネイル表示手段と、
表示されたサムネイルから任意のサムネイルを選択するためのサムネイル選択手段と、
選択されたサムネイルに対応するシーンを再生する手段と、を備え、
前記サムネイル生成手段は、シーン境界から所定期間後のピクチャをサムネイル画像として選択するものである。
【発明の効果】
【0008】
本発明の映像音声再生装置によれば、シーン境界から所定期間後のピクチャをサムネイル画像として選択するので、映像音声コンテンツをシーンに区切るとともに、各シーンについて、適切な画像をサムネイルとして選択することができる。
【図面の簡単な説明】
【0009】
【図1】実施の形態1に係る映像音声記録再生装置の構成を示すブロック図である。
【図2】シーン選択操作における表示画面の一例である。
【図3】シーンとサムネイル画像との関係を示す図である。
【図4】シーンチェンジとサムネイル画像との関係を示す図である。
【図5】シーンチェンジとサムネイル画像との関係を示す図である。
【図6】シーンチェンジとサムネイル画像との関係を示す図である。
【図7】エントリー情報生成動作を示すフローチャートである。
【図8】サムネイル生成動作を示すフローチャートである。
【図9】サムネイル生成動作を示すフローチャートである。
【図10】サムネイル表示動作を示すフローチャートである。
【図11】実施の形態2に係る映像音声記録再生装置の構成を示すブロック図である。
【図12】シーン境界検出方法の一例を示す図である。
【図13】実施の形態3に係る映像音声記録再生装置の構成を示すブロック図である。
【発明を実施するための形態】
【0010】
実施の形態1.
図1は、本発明の実施の形態1に関る映像音声記録再生装置1の構成を示すブロック図である。映像音声記録再生装置1は、外部機器とのインターフェースとして、デジタルチューナー3、アナログチューナー4、外部入力端子5、モニター出力端子31、ネットワーク端子30を有する。デジタルチューナー3およびアナログチューナー4は、アンテナ91に接続され、デジタルおよびアナログ放送を受信することができる。外部入力端子5は、主に、アナログ入力と呼ばれるコンポジット入力、Sビデオ入力、LR音声入力等に対応する。モニター出力端子31にはモニター93が接続され、映像音声記録再生装置1が生成する映像および音声信号を表示出力することが可能である。また、映像音声記録再生装置1は、装置を遠隔操作するためのリモコン受信6を備え、赤外線等で受信されたリモコンコードはシステム制御部2に送信される。
【0011】
システム制御部2は、ユーザーの要求に基づくリモコンの制御信号に応じて映像音声記録再生装置1を制御する。システム制御部2は、ユーザーから録画の要求がなされると、録画アプリ9を起動し、録画実行を指示する。録画アプリ9は、録画制御10を制御し、録画の開始、終了および録画中の記録動作を管理する。また、ユーザーから再生の要求がなされると、システム制御部2は、再生アプリ11を起動し、再生実行を指示する。再生アプリ11、は再生制御14を制御し、指定されたコンテンツの再生を開始する。
【0012】
図1を参照し、映像音声記録再生装置1における、デジタル放送の録画機能について説明する。デジタルチューナー3で受信されたデジタル放送は、フルTS(Transport Stream)として入力ストリーム制御8に送られる。入力ストリーム制御8は、AVストリーム記録部17に映像音声データであるAVストリームを安定的に記録するために、データを一時的に蓄えて、AVストリーム記録部17に定常的に書き込む処理を行う。また入力ストリーム制御8は、フルTSから記録する必要のないパケット等を省いたパーシャルTSにも対応する。また、TSのPIDやセクション情報の検出処理を行うほか、記録されるビデオストリーム中のGOP(Group Of Picture)の開始位置の検出等も行う。AVストリーム記録部17は、HDD(Hard Disc Drive)等により構成される。
【0013】
HDDにAVストリームを記録する場合、再生時におけるシーン検索性の向上、特殊再生時における任意時間へのランダムシークを実現するため、HDDに記録されるAVストリームのアドレス情報と時間情報とを対応付けたアドレスマップが必要となる。録画制御10は、録画時に、入力ストリーム制御8により検出されるGOP開始位置情報に基づいてアドレスマップを生成し、AV管理情報記録部18に記録する。AV管理情報記録部18は、前述のアドレスマップを記録するほか、記録された番組のタイトル、記録開始時間、記録終了時間、放送サービス名、チャンネル番号、映像コーデック情報、音声コーデック情報、番組詳細情報等が含まれる再生制御情報を記録し、必要に応じて再生制御14に読み出す。
【0014】
次に、アナログ放送、および外部から入力された映像信号の録画機能について説明する。アンテナ91で受信されたアナログ放送は、アナログチューナー4によってユーザーが指定されたチャンネルの信号のみが取り出される。アナログチューナー4により取り出された信号は、映像信号化され、図示しないAD/DAコンバーターによってデジタル信号化された後、AVエンコーダ7に入力される。AVエンコーダ7は、映像信号をMPEG−2ビデオに符号化するとともに、音声信号をAACにより符号化し、符号化した映像および音声信号をMPEG−2 Transport Streamに多重し、AVストリームを生成する。AVストリームは入力ストリーム制御8に送られ、AVストリーム記録部17に記録される。外部入力5から入力された映像音声信号についても同様に、AD/DA変換された後に、AVエンコーダ7によってAVストリームに変換され、AVストリーム記録部17に記録される。
【0015】
図1を参照し、映像音声記録再生装置1における再生機能について説明する。ユーザーが、図示しないリモコンに設けられた「録画タイトル一覧」ボタンを押下すると、録画された番組タイトルの全て、あるいは一部が画面上に表示される。ユーザーはリモコンに設けられた上下左右のカーソルキーによって希望するタイトルにカーソルを移動させ、「決定」ボタンを押下することで再生するタイトルを選択する。選択されたタイトルは、リモコンから赤外線信号としてリモコン受信6に送信され、ソフトウェアコードに変換された後、システム制御部2に送られ、グラフィックス画面が更新される。また、再生待機状態もしくは録画状態でない場合、これらのコードは再生アプリ11に送られ、対応する再生動作機能が呼び出され、再生状態が変更される。以下、具体的な再生動作について説明する。
【0016】
ユーザーが再生タイトルを決定すると、再生アプリ11は指定タイトルを再生するように再生制御14に指示を行う。再生制御14は、そのタイトルに関する再生制御情報をAV管理情報記録部18から読み出し、図示しないRAM上に入力する。再生制御14は、再生制御情報のうちアドレスマップを用いて、次に再生すべきストリームの再生開始時点に対応するアドレス情報を読み出し、そのアドレスのAVストリームをAVストリーム記録部17から読み出し、出力ストリーム制御16に読み出す。AVデコーダ15は、出力ストリーム制御16から送り込まれたAVストリームを転送された順にデコードし、モニター出力端子31からモニター93に出力する。出力ストリーム制御16は、AVデコーダ15がアンダーフローおよびオーバーフローを生じて映像及び音声が途切れないよう、映像音声データのデコードを行うよう、AVストリーム記録部17に記録されたAVストリームを読み出す。さらに、出力ストリーム制御16は、AVデコーダ15のバッファの状態に応じて、一時的に保存されたAVストリームを、H/WのアシストであるDMA(Direct Memory Access)転送機能を利用してAVデコーダに転送を行う。
【0017】
次に、映像音声記録再生装置1におけるシーン検出部50の動作について説明する。シーン検出部50は、録画動作時に入力ストリーム制御8に一時的に記録されるAVストリームの映像および音声の解析してシーン検出を行う。録画時に入力ストリーム制御8においてGOPの先頭が検出されると、解析用デコーダ21は、GOPの先頭からキーフレーム(Iピクチャ)を抽出し、Iピクチャのデコードを行う。デコードされた輝度信号(Y)、および色差信号(U,V)のデータは、フレームバッファ22に入力される。フレームバッファ22は、デコードされたYUVデータの少なくとも2つの画像を保持できるサイズを有する。シーン境界抽出23は、フレームバッファ22に入力された2つの画像の差を求め、画像の差が予め設定した閾値以上であればシーンチェンジが発生したものと判断し、シーン境界として判定する。
【0018】
2つの画像の差を求める手法としては、比較する各画像のヒストグラムを求め、ヒストグラムの各要素の差分絶対値を累積することによって求める手段が考えられる。また、AVストリーム中の符号化パラメータである動きベクトル等を検出して行ってもよい。また、顔検出および顔認識等によって検出された顔データを用いて、登場人物の構成の変化を捉えることによって実現してもよい。
【0019】
シーン境界抽出23によってシーン境界として判定された位置は、シーン再生開始位置とされる。エントリー生成24は、シーン再生開始位置のアドレス情報および時間情報からなる再生エントリー情報を作成する。こうしたシーンは、一般的にはチャプターと呼ばれる。また、エントリー位置もしくはその情報は、チャプターマーク、あるいは単にチャプターと呼ばれることもある。このように生成されたエントリー情報は、メタデータ記録部19に記録される。
【0020】
シーン境界抽出23によりシーン境界が検出されると、サムネイル生成25は、対応する画像情報をフレームバッファ22から抜き出し、ビットマップのフォーマットに変換し、サムネイル画像を生成する。生成されたサムネイル画像は、サムネイル情報としてメタデータ記録部19に記録する(サムネイルの選択方法の詳細については後述する)。なお、サムネイルのフォーマットはビットマップ以外に、TIFF、JPEG等のフォーマットであってもよい。また、サムネイルの画像データを記録する方法以外に、サムネイル画像が存在するAVストリームの時間情報、アドレス情報をサムネイル情報としてメタデータ記録部19に記録してもよい。この場合、サムネイルのための実データの生成時間を必要とせずシステム負荷を低減できるほか、メタデータ記録部19の領域を小さくするとともに、データ転送にかかる時間およびシステム負荷を低減できるというメリットがある。
【0021】
次に、映像音声記録再生装置1において、エントリー情報とサムネイル情報を用いて任意のシーンを再生する方法について説明する。図2は、モニター93にAVストリームの再生映像とグラフィックス画像が重畳された状態を示している。サムネイル画像は、メタデータ記録部19に保存されているサムネイル情報を、メタデータ制御部12により読み出し、サムネイル表示13において画像化された後、グラフィックス重畳20で再生映像に重畳され、モニター93に表示される。
【0022】
ユーザーが所望のタイトルを選択すると、再生アプリ11は、再生制御14に選択されたタイトルの再生を指示する。再生制御14は、AVストリーム記録部17からAVストリームを出力ストリーム制御16に読み出す。出力ストリーム制御16に読み出されたAVストリームは、AVデコーダ15によってデコードされ、モニター93に表示される。
【0023】
ユーザーが、シーンセレクトのために設けられたリモコンの専用ボタンを押下すると、再生アプリ11がメタデータ制御部12に対して、再生すべきタイトルと、再生映像の経過時間情報を伝える。メタデータ制御部は、経過時間の前後5枚のサムネイルをメタデータ制御部12から読み出す。サムネイル選択枠28は、サムネイルの選択枠を生成しサムネイル表示13に出力する。サムネイル表示13は、サムネイルのメタデータを画像として展開し、選択枠とともにグラフィックス重畳に出力する。
【0024】
上記処理により、図2に示すように、現在のシーンに対応するサムネイル(Scene17)の前後を含む合計5枚のサムネイルが表示される。サムネイルが表示された初期状態においては、リモコン選択枠は、現在再生中のシーンに合わせて表示される。ここでは、シーン17を再生しているためScene17のサムネイルに対してリモコン選択枠が表示される。ユーザーはリモコンの左右キーを使ってリモコン選択枠を左右に移動させ、所望のシーンを選択することができる。サムネイル選択28は、このリモコン動作に連動して、左右に移動する選択枠の生成を行う。さらに、リモコン選択枠が画面の右もしくは左端に到達した状態でさらに左右のカーソルキーを押下すると、表示されているサムネイル全体が、押下されたカーソルキーと反対の方向に移動することによって、現在表示されていないシーンのサムネイルが表示される。ユーザーが、所望のサムネイルにカーソルを合わせ、「決定」キーを押下すると、再生アプリ11は再生制御14に対して再生しているコンテンツの再生状態を一時停止させる。
【0025】
さらに、再生アプリ11は、再生制御14に対して、ユーザーが選択したシーンの開始位置を示すエントリー情報に基づいて、シーンのエントリー情報によって指定される時間から再生を再開するよう指示を行う。再生制御14は、AV管理情報記録部18に記録されているアドレスマップ情報を用いて、エントリーの時間情報をAVストリームのアドレス情報に変換し、出力ストリーム制御16に送る。出力ストリーム制御16は、再生制御14からのアドレス情報に基づいて、選択されたシーンのAVストリームのデータをAVストリーム記録部17から読出し、AVでコーダ15に出力する。AVデコーダ15は、出力ストリーム制御16からのAVストリームのデータをデコードする。これにより、ユーザーが選択したサムネイルに対応するシーンの再生が可能となる。
【0026】
図3は、サムネイルとシーンの開始位置であるエントリーとの関係を示す説明図である。ここでは、映像の変化点であるシーンチェンジをシーンの境界としている。なお、シーンの境界は、シーンチェンジに限らず、例えば音声が発生しない区間、コーデックやフォーマットの変化点、周波数、チャンネル数、量子化数の変化位置に基づいて検出してもよい。また、5分、10分、15分等の所定時間間隔、あるいはユーザー指定による時間間隔で区切ってシーンを構成してもよい。また、外部から与えられた特定のイベントに対してシーンを構成してもよい。このように分割された各シーンにおいて、シーンの内容を表示するサムネイル画像が生成される。
【0027】
本実施の形態は、図3に示すように、シーン先頭のピクチャではなく、シーンの先頭以降のピクチャをサムネイルとすることを特徴とする。映像が継続して変化しているような画像は、その位置をシーンの境界であるエントリーとして採用することは適切であるが、その画像をシーンの代表画であるサムネイル画像として採用することは適切でない。一般的に、継続的に変化する映像から一つの画像を抜き出した場合、その画像だけでは何が表示されているのか分からないことが多い。このため、ユーザーが再生するシーンを選択するために使用されるサムネイル画像として、このような動いている映像の一部を用いることは不適切で、静止画もしくは静止画に近い画像を採用することが適切と考えられる。シーンの開始位置ではなく、所定時間経過後のピクチャをサムネイル画像とすることにより、こうした不具合を解消することができる。
【0028】
シーン境界から時間的に遅れたピクチャをサムネイルとする方法としては、シーンチェンジを検出した後、一定時間、例えば3秒後の位置をサムネイル映像とする方法がある(図4)。また、シーンチェンジ検出後、シーンの変化量が閾値以下になり、かつ閾値以下が一定時間経過(例えば3秒)したところを選択してもよい(図5)。また、映像データが動きベクトル情報を有するデータである場合、動きベクトルの量がある閾値以下になるところを選択してもよい。このように、シーン境界から所定時間経過後のピクチャをサムネイルとして使用することにより、各シーンの内容に整合した画像をシーン選択のための画像としてユーザーに提供することが可能となる。
【0029】
図4は、サムネイル画像の選択方法の一例を示す説明図である。図4において、横軸はピクチャ番号、縦軸は隣接する2つのピクチャの画像差分値である。ここでは、説明を単純化するため、1秒間に1枚のピクチャを解析対象とする。画像差分値は、例えば、2つのピクチャの輝度信号(Y)、色差信号(U,V)のそれぞれのヒストグラムを生成し、各要素の差分絶対値の累積和を全要素数で除算した値としてもよい。この場合、画像差分値は、最小0から1の間の値をとることになる。そしてこの画像差分値が、予め設定しているシーン変化判定閾値を越えた場合、ピクチャ間にシーンチェンジが発生したと判定する。
【0030】
図4では、ピクチャ番号P52において、シーン変化判定閾値を越えているため、ピクチャP51とピクチャP52の間でシーンチェンジが発生していると判定し、ピクチャP52をシーン境界とする。よって、ピクチャP52を、シーン開始位置、つまりエントリーとしてメタデータ記録部19にエントリー情報を記録する。先述の通り、ピクチャP52の画像は、当該シーンに対応するサムネイルとしては採用せず、ピクチャ52から、さらに所定時間経過後(ここでは3秒経過後)のピクチャP55をサムネイル画像として採用する。ピクチャP55は、入力ストリーム制御8により検出され、解析用デコーダ21でデコードされた後、フレームバッファ22に入力される。サムネイル生成25は、フレームバッファ22に入力されたピクチャP55のデータに基づいてサムネイルを生成し、メタデータ記録部19に記録する。
【0031】
このようにシーンチェンジ、すなわちエントリー位置から所定時間経過した画像をサムネイルとすることによって、例えば、カメラのパーン映像、画像エフェクトによる画像変化中の画像、一瞬割り込まれた画像等、サムネイル画像として不適切な画像がサムネイルとして選択されることを防ぐことができる。
【0032】
図5は、サムネイル画像の選択方法の他の例を示す説明図である。図5に示す方法では、シーン変化判定閾値以外に、サムネイル用判定閾値を用いてサムネイル画像を選択する。サムネイル用判定閾値は、サムネイル画像を選択するための閾値であり、シーンチェンジ発生後、画像差分値が当該閾値以下となった場合にサムネイル画像の選択を行う。
【0033】
図6は、サムネイル画像の選択方法の他の例を示す説明図である。図6に示す方法では、
画像差分値がサムネイル用判定閾値を下回ってから所定時間経過後(ここでは3秒経過後)のピクチャP58をサムネイル画像として選択する。これにより、同じ内容の画像が継続して表示される期間(この例ではピクチャP55からピクチャP58)における画像をサムネイル画像として選択できるようになる。そのため、内容を認識しやすい画像をサムネイルとして表示することができるとともに、シーンの映像とサムネイルの画像をより関連付けしやすくなる。
【0034】
図6に示す例では、映像のシーン変化値がサムネイル用判定閾値を下回ってから所定時間経過後のピクチャをサムネイル画像として採用しているが、所定経過時間後に、それ以前のピクチャ(ピクチャP56やピクチャP57)を採用してもよい。
【0035】
以下、フローチャートを用いて本実施の形態に関る映像音声記録再生装置100の動作説明を行う。
図7は、エントリー情報生成のフローを示す図である。録画を開始すると、入力ストリーム制御8にAVストリームが順次入力される(S101)。入力ストリーム制御8は、AVストリームからGOPヘッダの検出を行い、キーフレームと呼ばれるIピクチャのみを解析し、抽出する(S102)。キーフレームが抽出されると、当該ピクチャのデコードが実行され(S103)、画像差分値の算出が行われる(S104)。シーンチェンジが発生しないと判断された場合(S105においてNo)、次のピクチャについてステップS102〜S104の処理が行われる。
【0036】
一方、シーンチェンジが検出されると(S105においてYes)、シーンチェンジが発生した箇所をシーン境界と判定し、その位置のエントリー情報を生成する(S106)。生成されたエントリー情報は、メタデータ記録部19に記録される(S107)。上記動作は録画が完了し、入力ストリーム制御8がストリーム入力の終了を検知するまで行われる。入力ストリーム制御8において、AVストリーム中からストリームの終端を示すフラグが検出された場合(S108においてYes)、録画処理が終了する(S109)。
【0037】
図8は、サムネイル画像生成までの動作の一例を示すフローチャートである。図8のフローチャートは、図4に示す、シーンチェンジ発生から所定時間経過後(3秒経過後)のピクチャをサムネイル画像にする場合の動作を示している。
先に、図7を参照して説明した通り、入力ストリーム制御8は、AVストリームからキーフレームであるIピクチャを抽出し(S102)、デコード処理を行う(S103)。デコード処理の後、サムネイル生成タイマーがセットされているか否かが判別される(S104)。このサムネイル生成タイマーは、シーンチェンジ検出後、すなわちシーン境界検出後、後段のステップS114においてセットされ、以降、キーフレームがデコードされるごとに減算される(S105)。このサムネイル生成タイマーは、シーンチェンジ検出後、サムネイル画像を選択するまでの所定時間(3秒間)をカウントするためのものであり、所定時間が経過してサムネイル生成タイマーがタイムアウトすると(S106)、サムネイル生成25においてサムネイル画像が生成される(S107)。サムネイル画像が生成されると、サムネイル情報がメタデータ記録部19に記録される(S108)。サムネイル画像を生成するまでの所定時間が経過していない場合(S106においてNo)、あるいはサムネイル画像の生成が完了した場合(S109)、ステップS104においてデコードされたキーフレームの画像差分値の算出が行われ(S110)、シーンチェンジ判定処理が行われる(S111)。シーンチェンジが検出された場合、シーン境界を示すエントリー情報が生成され(S112)、メタデータ記録部19に記録される(S113)。エントリー情報が記録されると、サムネイル生成タイマーがセットされ、続く録画ストリームについてキーフレーム抽出処理(S102)が再開される。
以上の処理が、録画ストリームの入力が終了するまで行われる(S115)。
【0038】
ここではピクチャの処理を行うごとにタイマーを減算しているが、装置内に存在するタイマー機能を使ってタイムアウトをカウントしてもよい。また、記録されるAVストリームに重畳されているシステム時間を利用してもよい。
【0039】
図9は、サムネイル画像生成までの動作の一例を示すフローチャートである。図9のフローチャートは、図6に示す、シーンチェンジ発生後、画像差分値がサムネイル用判定閾値を下回ってから所定時間経過後(3秒経過後)のピクチャをサムネイル画像にする場合の動作を示している。
図9において、ステップS102〜S104に示す処理工程は、図7において説明したものと同様である。ステップS104における画像差分値算出後、シーン開始位置であるエントリーが決定しているか否かが判断される(S105)。エントリーが決定しているか否かの判断は、後段のステップS116においてシーン開始状態設定がなされているかにより行われる。すなわち、ステップS113においてシーンチェンジが検出され、エントリー情報生成(S114)、エントリー情報記録(S115)が行われた後、シーン開始状態設定がなされる(S116)。エントリーが決定している場合、画像差分値がサムネイル用判定閾値以下であるかが判別される(S106)。サムネイル用判定閾値以下と判別された場合、サムネイル生成カウントが減算される(S107)。画像差分値がサムネイル用判定閾値を下回ってから所定期間経過後、サムネイル生成カウントがタイムアウトすると(S108)、サムネイル情報が生成され(S109)、メタデータ記録部19に記録される(S110)。サムネイル画像生成処理が終了すると、シーン開始状態が解除される(S111)。これにより、次のシーン境界の検出処理がなされる。一方、画像差分値がサムネイル用判定閾値以下と判別された場合(S106においてNo)、サムネイル生成カウンタのカウント値がリセットされ(S112)、画像差分値が再びサムネイル用判定閾値以下となるまでサムネイル生成カウントの減算は行われない。
以上の処理が、録画ストリームの入力が終了するまで行われる(S117)。
【0040】
図10は、サムネイル選択による再生動作を示すフローチャートである。
ユーザーがリモコン等により所望の処理を映像記録再生装置100に対して入力すると、リモコン受信6でコード化されたコマンドがシステム制御部2に入力される(S102)。システム制御部2はコマンドに応じて処理を分岐する。再生開始指示が入力された場合(S103)、再生アプリ11に対して再生開始指示が行われる(S104)。これにより、AVストリーム記録部17から出力ストリーム制御16へのAVストリームの読み出しが開始され、AVデコーダ15においてデコードおよび出画が開始される。
次に、ユーザーが、リモコンに設けられた「シーンセレクト」ボタンを押下した場合、サムネイル表示コマンドが送られ、サムネイル表示指示が行われる(S105)。これにより、メタデータ記録部19からサムネイル画像が読み出され(S106)、読み出されたサムネイル画像が表示される(S107)。
次に、ユーザーがリモコンの左右キーを押下すると、選択枠移動指示が行われ(S108)、サムネイル選択28によって表示された選択枠を移動させて描画する処理が行われる(ステップS109)。ユーザーが希望するシーンを見つけ、「決定」キーを押下すると、システム制御部2に対し決定指示がなされる(S110)。次に、再生アプリ11に対してエントリー情報を抽出するように指示がなされ、再生制御14はAV管理情報記録部18から再生制御情報を読み出し、指定されたシーンのアドレス位置にシーク動作を行う(S111)。再生終了指示がなされた場合は処理を終了し(S113)、それ以外の場合は、新たなコマンドの入力に従う(S102)。
以上の動作により、ユーザーがサムネイルを画面上で指定することによって、対応するシーンのエントリー位置からの再生が可能になる。
【0041】
以上において説明した本実施の形態に関る映像音声記録再生装置100によれば、シーンチェンジに対応するエントリー位置から、所定時間経過後の画像をサムネイル画像として採用することができる。これにより、シーンチェンジが継続している可能性が高いエントリー直後の画像をサムネイル画像として採用した場合に生じる不具合を解消し、サムネイルとしてより適切な画像を選択することができる。具体的には、動きが激しい映像や、瞬間的に表示されるような映像を避け、動きが少ない静止画に近い画像をサムネイルとすることが可能である。また、サムネイル画像は静止画等の相関性の高い画像が時間的に継続する期間の画像を選択して生成されるので、シーンの内容と整合したサムネイル画像を提供することができるとともに、ユーザーが選択したサムネイル画像をシーンの映像内において確認することができ、ユーザーは安心してサムネイル画像選択によるシーン再生をすることができる。
【0042】
また、サムネイルを選択する条件は、時間経過のみのため、サムネイル生成判定条件を計算するシステムの負荷が少なくて済む。本実施の形態においては、再生するAVストリームを直接解析して、エントリー情報の抽出およびサムネイル画像の選択を行うので、エントリー情報およびサムネイル画像が有する時間情報はAVストリームと関連付けられている。このため、AVストリームの再生経過時間とエントリー情報およびサムネイル画像が示す時間とを対応付けて再生を行うことが可能である。
【0043】
本実施の形態では、シーン境界であるエントリーを生成する方法、およびサムネイルを生成する方法として、HDDなどのAVストリーム記録部に記録されるAVストリームを対象としているが、符号化ストリームに限定されるものではなく、例えば、符号化を行う前の画像データを利用してもよい。また、H/Wなどで実装されたデコーダを解析用デコーダ21として用いてもよい。さらにサムネイル生成を行う処理に専用のH/Wエンコーダを用いても良い。また、記録に関係するチューナー3および4、AVエンコーダ7、入力ストリーム制御8、AVストリーム記録部17を改造することなく装置を構成することができるため、従来の映像音声記録再生装置に容易に搭載することができる。
【0044】
また、サムネイル生成25において、生成しようとするサムネイルの画像が、サムネイル画像としてふさわしくない場合に、サムネイル画像として採用せず、新たに別のサムネイル画像を生成するようにしてもよい。サムネイル画像としてふさわしくない画像の例としては、黒色や白色などの単色の場合や、画像として何も存在しない場合や、カメラのフラッシュ等で画面が白とびした画像や、動きが早すぎて何が写っているのか変わらない画像や、コントラストが低い画像等が考えられる。これにより、適切な画像をサムネイルとして選択するのみでなく、不適切なデータに基づいてサムネイル生成処理を行うことにより、システムがハングするといった不具合を防ぐことができる。
【0045】
また、本実施の形態では、シーン境界を抽出した後にサムネイル画像の選択と生成を行う構成としているが、例えば、サムネイルとして適切な画像を検出し、その後に、時間的に前にあるシーン境界の抽出を行ってもよい。この場合、シーン境界検出(例えば、シーンチェンジ検出)を常に行わなくてもよく、処理負荷の軽減が期待できる。さらに、サムネイル画像として適正な画像が検出されたときのみ、シーンを区切るので、結果的にサムネイル画像として不適切な画像がサムネイルとして選択されることがなくなる。
【0046】
シーン境界の検出を固定値で行った場合、つまり5分間隔等でシーンを区切った場合、シーン境界検出のための負荷を軽減できる。さらには、録画動作と並行してサムネイル生成を行う場合に、シーンの長さが予めわかっているので、シーンの中で最良のサムネイル画像を選択する処理が簡単に実現でき、結果としてより適切なサムネイル画像を選択することが可能になる。
【0047】
なお、本実施の形態にかかわる映像音声記録再生装置100は、再生機能を有しているが、記録機能のみを有する記録装置であってもよい。このような記録装置は、記録したAVストリーム、再生制御情報、メタデータを外部に出力するインターフェース機能を設けることにより実現することができる。また、こうしたインターフェースから出力されたデータ、もしくはデータが記録された媒体を用いて、本実施の形態に関る再生機能を有する再生装置を構成してもよい。
【0048】
実施の形態2.
図11は、本発明の実施の形態2に関る映像音声記録再生装置101の構成を示すブロック図である。本実施の形態に関る映像音声記録再生装置101は、図1に示す映像音声記録再生装置100におけるシーン境界検出23の代わりに音声境界抽出26を備えたことを特徴とする。
【0049】
本実施の形態において、解析デコーダ21は、AVストリーム中の符号化されている音声データに対しても復号を行う。音声境界抽出26は、フレームバッファ22を解して入力される音声データについて、例えば、無音が発生している区間をシーン境界である判定する。エントリー25は、シーン境界の判定結果に基づき、実施の形態1と同様にエントリー情報を作成し、メタデータ記録部19に記録する。
【0050】
音声の解析方法としては、無音検出に限らず、音声の周波数解析を行い、周波数分布より音声情報の特性分類を行ってもよい。音声境界抽出26において、一定区間の音声信号に対し、オーディオフレーム単位で周波数解析を実施し、各周波数の分布を求める。次に、区間ごとの周波数分布の形状が、予め「会話」、「音楽」、「スポーツ」、[動物の声]、「騒音」等に分類された周波数分布パターンのどれに一致するか求める。さらに、複数のオーディオフレームからなる区間窓を設け、最も頻度の多い周波数分布パターンを対応する区間窓のパターンであると判定する。そして、パターンが変化した区間窓の先頭をシーン境界とする。
【0051】
図12は、音声の周波数解析によりシーン境界を検出する方法を示す説明図である。図12(a)に示すように、音声信号はオーディオフレームに分割される。分割されたオーディオフレーム単位でオーディオデータの周波数解析が行われ、各周波数分布に最も近い周波数分布パターンを求める。図12(a)に示す例では、3つのオーディオフレームからなる区間窓を設け、図12の(b)に示すように、区間窓ごとに最も頻度の高い周波数分布パターンを求める。この区間窓に対応付けられた周波数分布パターンが変化したところをシーンの変わり目であるシーン境界と判定し、図12(c)に示すようにシーンを構成する。
【0052】
次に、オーディオ情報に基づいてサムネイル画像の選択する方法について説明する。映像情報と音声情報の区切りは、必ずしも一致することはないが、音声の区切りで映像の変化が発生することが多いので、図12(c)に示す、シーン境界(周波数分布の形状パターンが変化する区間窓の境界)の画像をサムネイル画像とすべきではない。よって、区間窓において、同じ周波数分布パターンが続くところをサムネイルとする。例えば、「スポーツ」が続く区間窓N+1からN+3において、中心の区間窓N+2における中心のオーディオフレームであるAFm+7をサムネイル画像として選択する。
以降のサムネイル生成の処理は実施の形態1と同じである。
【0053】
本実施の形態によれば、音声情報に基づいてシーン境界の検出やサムネイル画像の選択を行うことにより、実施の形態1のように映像情報に基づいてこれらの処理を行う場合に比して解析処理を軽量化し、処理速度を上げることができる。特に、音声信号から無音区間を検出する場合は、解析処理が非常に軽量になり、より早く処理を完了させることができる。また、音声情報を利用するために、音声に特徴のある番組、例えば音楽番組や、スポーツ番組に対して、シーンを分割することにおいてより精度が向上する。
【0054】
さらに、映像と音声とを組み合わせてシーン境界の検出やサムネイル画像の選択を行うことにより、より適切な処理が可能となる。また、映像情報や音声情報に限定されることなく、字幕情報や、その他放送波に重畳されるEPGデータや、著作権管理情報等、さまざまなデータを利用してもよい。これらのデータを利用することによって、正確なシーン分割が可能になる。
【0055】
実施の形態3.
図13は本発明の実施の形態3に関る映像音声記録再生装置102の構成を示すブロック図である。本実施の形態に関る映像音声記録再生装置102は、AVストリーム記録部17に記録されたAVストリームを読み出して、シーン境界の検出およびサムネイル画像の選択を行うことを特徴とする。図13に示す映像音声記録装置102において、ダビング用ストリーム制御27以外の構成は、図1に示す映像音声記録再生装置100と同様である。
【0056】
ダビング用ストリーム制御27は、AVストリーム記録部17からAVストリームを読み出し、解析対象となるAVストリームのデータを解析用デコーダ21に入力する。ダビング用ストリーム制御27は、通常、ダビング用のバッファとして用いられるが、本実施の形態においては、このダビング用ストリーム制御27の構成を用いて、AVストリーム記録部17から読み出されたAVストリームを解析用デコーダに入力する。
【0057】
ダビング用ストリーム制御27は、録画が終了するとAVストリーム記録部17に記録されたAVストリームを順次読出し解析用でコーダ21に入力する。解析用デコーダ21は、GOPの開始コードが検出されると、先頭のIピクチャが含まれるパケットを解析用デコーダ21に転送する。解析用デコーダ21は、当該Iピクチャのデコードを行う。以降の動作は実施の形態1と同様である。
【0058】
このように、録画終了後にシーン境界の検出およびサムネイル画像の選択を行う構成とすることにより、実施の形態1のように、録画時の処理負荷の高い状態ではなく、処理の負荷が低い状態でのAVストリームの解析を行うため、安定した処理が可能となる。また、録画時にAVストリームの解析を行う場合、録画動作の速度と同じか、それ以上の速度でシーン境界の検出およびサムネイル画像の生成を行う必要があったが、録画終了後においては、さほど高速な解析処理を必要としない。また、録画後に処理を行うため、特定の期間のみ(例えば、CM区間を除いた基幹)の解析を行うことができ、トータルの解析負荷を低減し、消費電力の削減に貢献できる。また、一度記録されたタイトルに対して処理を行うことができるため、編集操作等でタイトルの内容が変わった場合に利用することができる。
【符号の説明】
【0059】
100,101,102 録画音声記録再生装置、2 システム制御部、3 デジタルチューナー、4 アナログチューナー、5 外部入力端子、6 リモコン受信部、7 AVエンコーダ、8 入力ストリーム制御、9 録画アプリ、10 録画制御、11 再生アプリ、12 メタデータ制御部、13 サムネイル表示、14 再生制御、15 AVデコーダ、16 出力ストリーム制御、17 AVストリーム記録部、18 AV管理情報記録部、19 メタデータ記録部、20 グラフィック重畳、21 解析用デコーダ、22 フレームバッファ、23 シーン境界抽出、24 エントリー生成、25 サムネイル生成、26 音声境界抽出、27 ダビング用ストリーム制御、28 サムネイル選択、30 ネットワーク端子、31 モニター出力端子、91 アンテナ、92 ネットワーク、93 モニター、94 リモコン、95 画面

【特許請求の範囲】
【請求項1】
映像情報からシーンの境界を抽出するシーン境界抽出手段と、
シーン境界抽出手段によって抽出されたシーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
上記シーン境界抽出手段によって分割されたシーンを代表するピクチャを選択してサムネイル画像を生成するサムネイル生成手段と、
前記サムネイル生成手段によって生成されたサムネイル画像を表示するサムネイル表示手段と、
表示されたサムネイルから任意のサムネイルを選択するためのサムネイル選択手段と、
選択されたサムネイルに対応するシーンを再生する手段と、を備え、
前記サムネイル生成手段は、シーン境界から所定期間後のピクチャをサムネイル画像として選択することを特徴とする映像音声再生装置。
【請求項2】
サムネイル生成手段は、映像情報を解析し、映像変化が少ないピクチャをサムネイル画像として選択することを特徴とする請求項1記載の映像音声再生装置。
【請求項3】
サムネイル生成手段は、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャをサムネイル画像として選択することを特徴とする請求項1記載の映像音声再生装置。
【請求項4】
サムネイル生成手段は、生成されたサムネイル画像に対応するピクチャのアドレス情報をサムネイル情報として生成し、前記サムネイル情報を記憶するメタデータ記憶手段を有することを特徴とする請求項1記載の映像音声再生装置。
【請求項5】
シーン境界抽出手段は、シーンチェンジの検出結果に基づいて、シーン境界を検出することを特徴とする請求項1記載の映像音声再生装置。
【請求項6】
シーン境界抽出手段は、音声データの周波数分布の変化に基づいて、シーン境界を検出することを特徴とする請求項1記載の映像音声再生装置。
【請求項7】
シーン境界抽出手段は、映像情報に重畳されるデータに基づいて、シーン境界を検出することを特徴とする請求項1記載の映像音声再生装置。
【請求項8】
シーン境界抽出手段は、生成されたサムネイル画像に対応するピクチャのアドレス情報を元に、シーン境界を検出することを特徴とする請求項1記載の映像音声再生装置。
【請求項9】
映像情報からシーンの境界を抽出するシーン境界抽出手段と、
シーン境界抽出手段によって抽出されたシーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
上記シーン境界抽出手段によって分割されたシーンを代表するピクチャを選択してサムネイル画像を生成するサムネイル生成手段と、
前記エントリー情報、および生成されたサムネイル画像に対応するピクチャのアドレス情報であるサムネイル情報を記録するメタデータ記録手段と、を備え、
前記サムネイル生成手段は、シーン境界から所定期間後のピクチャをサムネイル画像として選択することを特徴とする映像音声編集装置。
【請求項10】
サムネイル生成手段は、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャをサムネイル画像として選択することを特徴とする請求項9記載の映像音声編集装置。
【請求項11】
映像情報からシーンの境界を抽出し、
抽出されたシーン境界にアクセスするためのエントリー情報を生成し、
抽出されたシーン境界により分割されたシーンを代表するピクチャを選択してサムネイル画像を生成し、
生成されたサムネイル画像を表示し、
表示されたサムネイル画像のうち任意に選択されたサムネイルに対応するシーンを再生する処理を備え、
シーン境界から所定期間後のピクチャをサムネイル画像として選択することを特徴とする映像音声再生方法。
【請求項12】
映像情報を解析し、映像変化が少ないピクチャをサムネイル画像として選択することを特徴とする請求項11記載の映像音声再生方法。
【請求項13】
シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャをサムネイル画像として選択することを特徴とする請求項11記載の映像音声再生方法。
【請求項14】
生成されたサムネイル画像に対応するピクチャのアドレス情報をサムネイル情報として記憶することを特徴とする請求項11記載の映像音声再生方法。
【請求項15】
シーンチェンジの検出結果に基づいて、シーン境界を検出することを特徴とする請求項11記載の映像音声再生方法。
【請求項16】
音声データの周波数分布の変化に基づいて、シーン境界を検出することを特徴とする請求項11記載の映像音声再生方法。
【請求項17】
映像情報に重畳されるデータに基づいて、シーン境界を検出することを特徴とする請求項11記載の映像音声再生方法。
【請求項18】
映像情報からシーンの境界を抽出し、
抽出されたシーン境界にアクセスするためのエントリー情報を生成し、
抽出されたシーン境界により分割されたシーンを代表するピクチャを選択してサムネイル画像を生成し、
前記エントリー情報、および生成されたサムネイル画像に対応するピクチャのアドレス情報であるサムネイル情報を記録する処理を備え、
シーン境界から所定期間後のピクチャをサムネイル画像として選択することを特徴とする映像音声編集方法。
【請求項19】
シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャをサムネイル画像として選択することを特徴とする請求項18記載の映像音声編集方法。
【請求項20】
映像情報を記録する記録手段と、
前記映像情報からシーンの境界を抽出するシーン境界抽出手段と、
シーン境界抽出手段によって抽出されたシーン境界にアクセスするためのエントリー情報を生成するエントリー生成手段と、
上記シーン境界抽出手段によって分割されたシーンを代表するピクチャを選択してサムネイル画像を生成するサムネイル生成手段と、
前記サムネイル生成手段によって生成されたサムネイル画像を表示するサムネイル表示手段と、
表示されたサムネイルから任意のサムネイルを選択するためのサムネイル選択手段と、
選択されたサムネイルに対応するシーンを再生する手段と、を備え、
前記サムネイル生成手段は、シーン境界から所定期間後のピクチャをサムネイル画像として選択することを特徴とする映像音声記録再生装置。
【請求項21】
サムネイル生成手段は、シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャをサムネイル画像として選択することを特徴とする請求項20記載の映像音声記録再生装置。
【請求項22】
サムネイル生成手段は、生成されたサムネイル画像に対応するピクチャのアドレス情報をサムネイル情報として生成し、前記サムネイル情報を記憶するメタデータ記憶手段を有することを特徴とする請求項20記載の映像音声記録再生装置。
【請求項23】
シーン境界抽出手段は、シーンチェンジの検出結果に基づいて、シーン境界を検出することを特徴とする請求項20記載の映像音声記録再生装置。
【請求項24】
シーン境界抽出手段は、音声データの周波数分布の変化に基づいて、シーン境界を検出することを特徴とする請求項20記載の映像音声記録再生装置。
【請求項25】
シーン境界抽出手段は、映像情報に重畳されるデータに基づいて、シーン境界を検出することを特徴とする請求項20記載の映像音声記録再生装置。
【請求項26】
前記サムネイル生成手段は、不適切なサムネイル画像が生成された場合、当該サムネイル画像とは別のサムネイル画像を生成することを特徴とする請求項20記載の映像音声記録再生装置。
【請求項27】
映像情報を記録し、
前記映像情報からシーンの境界を抽出し、
抽出されたシーン境界にアクセスするためのエントリー情報を生成し、
抽出されたシーン境界により分割されたシーンを代表するピクチャを選択してサムネイル画像を生成し、
生成されたサムネイル画像を表示し、
表示されたサムネイル画像のうち任意に選択されたサムネイルに対応するシーンを再生する処理を備え、
シーン境界から所定期間後のピクチャをサムネイル画像として選択することを特徴とする映像音声記録再生方法。
【請求項28】
シーンを構成するピクチャ間の差分値を検出し、当該差分値が所定の閾値以下となるピクチャをサムネイル画像として選択することを特徴とする請求項27記載の映像音声記録再生方法。
【請求項29】
生成されたサムネイル画像に対応するピクチャのアドレス情報をサムネイル情報として記憶することを特徴とする請求項27記載の映像音声記録再生方法。
【請求項30】
シーンチェンジの検出結果に基づいて、シーン境界を検出することを特徴とする請求項27記載の映像音声記録再生方法。
【請求項31】
音声データの周波数分布の変化に基づいて、シーン境界を検出することを特徴とする請求項27記載の映像音声記録再生方法。
【請求項32】
映像情報に重畳されるデータに基づいて、シーン境界を検出することを特徴とする請求項27記載の映像音声記録再生方法。
【請求項33】
不適切なサムネイル画像が生成された場合、当該サムネイル画像とは別のサムネイル画像を生成することを特徴とする請求項27記載の映像音声記録再生方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−142645(P2012−142645A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2009−109309(P2009−109309)
【出願日】平成21年4月28日(2009.4.28)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】