説明

映像処理装置及び映像処理方法

【課題】複数のユーザが撮像されている場合の使い勝手が良い映像処理装置及び映像処理方法の提供。
【解決手段】上記の課題を解決するために、本実施形態の映像処理装置は、検出手段と、選択手段と、通知手段と、処理手段とを備える。検出手段は、撮像装置が撮像した撮像映像から、ユーザの手の画像を検出する。選択手段は、検出された1以上の手の画像のうち1の画像を選択する。通知手段は、選択された前記1の画像の識別情報を通知する。そして処理手段は、選択された前記1の画像の動きに応じた所定処理を実行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、映像処理装置及び映像処理方法に関する。
【背景技術】
【0002】
ユーザのハンドジェスチャ等を撮像装置により撮像し、撮像された映像が示すジェスチャに応じた処理を実行する技術がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−277176号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような装置においては、複数のユーザが撮像されている場合の使い勝手が良いことが好ましい。
そこで本発明の実施形態は、複数のユーザが撮像されている場合の使い勝手が良い映像処理装置及び映像処理方法の提供を目的とする。
【課題を解決するための手段】
【0005】
上記の課題を解決するために、本実施形態の映像処理装置は、撮像装置が撮像した撮像映像から、ユーザの手の画像を検出する検出手段と、検出された1以上の手の画像のうち1の画像を選択する選択手段と、選択された前記1の画像の識別情報を通知する通知手段と、選択された前記1の画像の動きに応じた所定処理を実行する処理手段と備える。
【図面の簡単な説明】
【0006】
【図1】実施形態の映像処理装置の利用形態例を示す図。
【図2】実施形態の映像処理装置のシステム構成例を示す図。
【図3】実施形態の映像処理装置が出力する映像データ例を示す図。
【図4】実施形態の映像処理装置が出力する映像データ例を示す図。
【図5】実施形態の映像処理装置による画像検出処理例を示す図。
【図6】実施形態の映像処理装置による操作者選択処理例を示す図。
【図7】実施形態の映像処理装置による操作者選択に係る処理フロー例を示す図。
【発明を実施するための形態】
【0007】
以下、図面を参照して実施形態を説明する。
図1は本実施形態に係る映像処理装置の利用形態例を示す図である。本実施形態に係る映像処理装置は、例えばラップトップ型のコンピュータ100として実現される。ここでコンピュータ100は、例えば無線通信によりテレビ装置200と接続され、当該テレビ装置200に静止画像や動画像等の映像データを送信する。テレビ装置200は表示部203や撮像部204等を備える。表示部203はコンピュータ100から受信した映像データの映像を表示し、撮像部204は表示部203の表示画面に正対する方向(表示画面の前方)の画像を撮像する。そしてテレビ装置200は撮像画像をコンピュータ100に送信し、コンピュータ100は、受信した撮像画像に含まれるユーザの画像に応じた処理を実行する。
【0008】
なお本実施形態においては、テレビ装置200が撮像を行い、コンピュータ100が撮像映像中からの画像検出やジェスチャ操作に係る処理を実行するとして説明しているが、発明の実施形態はこれに限らない。即ち、テレビ装置200が撮像と画像検出とジェスチャ操作の処理とを実行してもよい。
【0009】
図2はコンピュータ100及びテレビ装置200のシステム構成例を示す図である。コンピュータ100は、記憶部101、受信部102、映像処理部103、表示部104、通信部105、検出部106、ジェスチャ処理部107、GUI生成部108等を備える。記憶部101は、静止画や動画像等の映像データ(コンテンツデータ)を記憶し、記憶した映像データをユーザからの操作入力等に応じて映像処理部103に出力する。受信部102は、例えばチューナや通信モジュール等であり、デジタルテレビ放送やIPテレビ放送等の映像データ(コンテンツデータ)を受信し、受信した映像データを映像処理部103に出力する。なお受信部102は、ユーザからの操作入力に応じたコンテンツの映像データを受信することが可能である。
【0010】
映像処理部103は、記憶部101及び受信部102から入力された映像データをデコードする機能、デコードした映像データを表示部104が表示可能な形式の映像信号に変換する機能、GUI生成部108が生成したGUIと、通信部105から入力される撮像画像と、デコードした映像データ(コンテンツデータ)とを重畳させる機能、重畳により得られた映像データ(コンテンツデータを含む)を通信部105に出力する機能等を有する。
【0011】
通信部105は、映像処理部103から入力された映像データを無線通信によりテレビ装置200に送信する。また通信部105は、テレビ装置200から撮像画像が入力されると、当該撮像画像を映像処理部103と検出部106に出力する。なお通信部105は、例えば接続要求信号をテレビ装置200に送信し、当該要求信号に対する許可応答を受けることでテレビ装置200との通信接続を確立し、映像データの送信を開始する。そして通信部105は、テレビ装置200が撮像機能を有するか否かを問い合わせる機能開示要求信号や、撮像機能を有している場合に撮像機能を有効にする撮像要求信号や、撮像映像の送信を要求する映像要求信号を送信してもよい。なお通信部105は、これら機能開示要求信号や撮像要求信号、映像要求信号を接続要求信号とともに送信しても良いし、あるいは接続確立後に送信しても良い。
【0012】
検出部106は、撮像画像が入力されると、当該撮像画像からユーザの手の画像を検出する。ここで検出部106は、予め記憶された例えば人間の手の照合用データ(形状の特徴量情報等)と、撮像画像中の画像とを比較して一致度を検出すること等により、手画像を検出する。そして検出部106は、検出した手の画像の、撮像画像における位置情報をジェスチャ処理部107とGUI生成部108とに出力する。なお検出部106は、ユーザの顔を検出した後、予め登録された各ユーザの顔画像の照合用データ(特徴量情報等)に基づいて、何れのユーザを検出したかを認識してもよい。なお、手画像やユーザの顔画像の照合用データは例えば記憶部101に記憶され、手画像の検出やユーザの顔検出・顔認識を行う場合に図示しないメモリにロードされ、検出・認識に用いられる。
【0013】
ジェスチャ処理部107は、検出部106から入力された手画像の位置情報に基づいて、撮像画像に画像が含まれる1以上のユーザのうちジェスチャ操作を行う1のユーザ(操作者)を選択・決定する。そして、ジェスチャ処理部107は、操作者の手画像の位置情報をGUI生成部108に出力する。なお当該操作者の選択については図3以降にて後述する。
【0014】
GUI生成部108は、検出部106とジェスチャ処理部107とから入力された位置情報に基づいたGUIを生成する。そしてGUI生成部108は、生成したGUIを映像処理部103に出力する。なおGUIについては図4を参照して後述する。
【0015】
次にテレビ装置200を説明する。
テレビ装置200は、通信部201、映像処理部202、表示部203、撮像部204等を備える。
通信部201は、コンピュータ100と無線通信の接続を確立し、コンピュータ100からの映像データを受信する。また通信部201は、撮像部204から撮像映像が入力されると、当該撮像映像をコンピュータ100に送信する。なお通信部201は、コンピュータ100から機能開示要求信号を受けると、テレビ装置200が利用可能な撮像モジュールの有無をコンピュータ100に応答する。また通信部201は、撮像要求信号を受信すると、撮像部204の機能を有効にして撮像部204による撮像を開始させ、映像要求信号を受けると撮像部204が撮像した映像を取得してコンピュータ100に送信する。
【0016】
映像処理部202は、通信部201から入力された映像データを表示部203が表示可能な形式の映像信号に変換して表示部203に出力する。そして表示部203は入力された映像信号の映像を表示する。
【0017】
撮像部204は、テレビ装置200の筐体前方を撮像するカメラ装置等であり、撮像した映像を、例えば通信部201からの指示に応じて通信部201に出力する。また撮像部204は、撮像の実行/停止を通信部201からの指示に応じて切り替えてもよい。
【0018】
なお図1の説明で述べたようにテレビ装置200は、画像検出とジェスチャ操作の処理とを実行してもよい。即ちテレビ装置200は、検出部106、ジェスチャ処理部107、GUI生成部108に対応する機能のモジュールを有していても良い。この場合に検出部106に対応するモジュールには、撮像部204からの映像が入力され、GUI生成部108に対応するモジュールは、生成したGUIを映像処理部202に出力する。またテレビ装置200は記憶部101及び受信部102に対応するモジュールを有していても良く、これらモジュールの映像データは映像処理部202に出力される。そして映像処理部202は、入力された映像データとGUIと撮像画像とを重畳させた画像を生成して表示部203に出力し、当該重畳させた画像を表示部203に表示させる。
【0019】
図3は、テレビ装置200が表示する画面の画面構成例を示す。即ち、図3は映像処理部103が、撮像映像とGUIとコンテンツデータとを重畳させて生成した映像データの画面構成例である。
【0020】
図3(A)は、ジェスチャ操作の検出対象となる操作者が決定されている状態(以降、操作者確定ステータスと呼ぶ)における画面例である。画面P10には、コンテンツの映像P11と、撮像画像P12とが配置される。ここで撮像画像P12には、ユーザAの画像とユーザBの画像とが含まれている。そして検出部106は、ユーザAの手画像P13を検出し、ユーザBの手画像を検出していない。この場合にジェスチャ処理部107は、ユーザAの手画像P13をジェスチャ操作の検出対象として決定する。そしてGUI処理部108は、操作者の手画像P13の位置情報に基づいて、当該手画像P13に対応する位置に、操作者である旨を示す識別画像P14(例えば赤色)を配置したGUIを生成する。そしてジェスチャ処理部107は、ユーザAの手画像P13の動きに応じた処理をコンピュータ100の各構成に指示する。なお手画像の動きに応じた処理とは、例えばコンテンツの再生、停止、早送り、巻き戻し、ズームイン、ズームアウト等であり、これら処理の夫々に動き(ジェスチャ)が対応付けられている。
【0021】
図3(B)は、操作者の候補が複数存在し、操作者が決定していない状態(以降、衝突ステータスと呼ぶ)における画面例である。画面P20には、コンテンツの映像P21と、撮像画像P22とが配置され、撮像画像P22にはユーザAの画像とユーザBの画像とが含まれている。検出部106は、ユーザAの手画像P23とユーザBの手画像P25を検出している。ここでジェスチャ処理部107は、ユーザAの手画像P23とユーザBの手画像P25とのうち、ジェスチャ操作の検出対象を一定期間の間は決定しない。そしてGUI処理部108は、手画像P23及びP25の位置情報に基づいて、手画像P23及びP25に対応する位置に、操作者が未決定である旨を示す識別画像P24及びP26(例えば黄色)を配置したGUIを生成する。なお、衝突ステータスになる状況としては、例えば何れのユーザの手画像も検出されなかった状態から、複数ユーザの手画像が検出される状態に一定時間以内に変化した場合等が挙げられる。
【0022】
そしてジェスチャ処理部107は、一定期間が経過すると、複数ユーザの手画像のうち1のユーザの手画像を例えばランダムで選択・決定する。
図3(C)は、複数ユーザの手画像が検出されているが操作者確定ステータスである場合、つまり複数ユーザのうち1ユーザが操作者として決定している場合における画面例である。画面P30には、コンテンツの映像P31と、撮像画像P32とが配置され、撮像画像P32にはユーザAの画像とユーザBの画像とが含まれている。検出部106は、ユーザAの手画像P33とユーザBの手画像P35を検出している。ここでジェスチャ処理部107は、例えばユーザBの手画像P35をジェスチャ操作の検出対象として決定する。
【0023】
そしてGUI処理部108は、検出部106から入力される手画像P33の位置情報に基づいて、手画像P33に対応する位置に、操作者ではない旨を示す識別画像P34(例えば灰色)を配置したGUIを生成する。またGUI生成部108は、ジェスチャ処理部107から入力される操作者の手画像P35の位置情報に基づいて、当該手画像P35に対応する位置に、識別画像P36(例えば赤色)を配置したGUIを生成する。
【0024】
図4は、テレビ装置200が表示する画面の他の例を示す図である。
図4(A)は、衝突ステータスにおける画面例を示す図である。画面P40では、コンテンツの映像P41と、衝突ステータスである旨を示す文字画像P42とが配置されている。また文字画像P42は、手画像が検出されている複数ユーザ夫々の名前を示しても良い。即ち、コンピュータ100は、予め複数ユーザの顔照合用データとユーザ名とを対応付けて記憶し、撮像映像中にユーザの顔画像が含まれる場合、当該顔画像に対応する顔照合用データを判別し、当該顔照合用データに対応付けられた名前を含むGUIを生成してもよい。図4(B)は、操作者確定ステータスにおける画面例を示す図である。画面P50では、コンテンツの映像P51と文字画像P52とが配置され、文字画像P52は操作者確定ステータスであることを示している。
【0025】
図4(C)は、操作者確定ステータスにおける画面例を示す図である。画面P60では、コンテンツの映像P61及び手画像P62、P63及びP64が配置される。ここで手画像P62、P63及びP64は、検出部106から入力される手の画像の位置情報に対応して映像P61に重なる位置に例えば半透明の表示形態で配置されている。そしてジェスチャ操作の検出対象となる手画像P62は、所定の表示形態(例えば赤色半透明)で表示される。
【0026】
図5は、検出部106による手画像の位置検出例を示す図である。
検出部106は、図5(A)に示すように、手画像P70の例えば掌の部分の中心の位置を、当該手画像P70の位置として検出する。そして検出部106は、複数の手画像が検出された場合、図5(B)に示すように、撮像画像P80における複数の手画像の位置を検出する。
【0027】
図6は、ジェスチャ処理部107による操作者の選択・決定処理例を示す図である。
図6(A)は、撮像映像に、ユーザAの顔画像、ユーザBの顔画像及びユーザAの手画像が含まれ、ユーザBの手画像が含まれない場合の処理例を示す図である。ここで検出部106は、1の手画像を検出する。また検出部106は、撮像映像内の顔画像を検出し、照合用データとの照合により、夫々の顔画像に対応するユーザ名を判別する。そして検出部106は、検出した手画像の位置情報と、当該手画像が何れのユーザ名のユーザのものであるかを対応付けてジェスチャ処理部107に出力する。また検出部106は、ユーザBの顔画像を検出し、当該ユーザBの手画像を検出できない旨をジェスチャ処理部107に通知する。
【0028】
ジェスチャ処理部107は、入力された情報に基づいて図6(A)のテーブルを作成する。ここでジェスチャ処理部107は、1の手画像の位置情報しか入力されない場合、当該手画像の位置情報を格納するとともに、当該入力された手画像をジェスチャ操作の操作者として決定する。そしてステータスを操作者確定ステータスに変更する。またジェスチャ処理部107は、ユーザ名と手画像の位置情報とユーザ状態とを対応付けて格納する。
【0029】
図6(B)は、撮像映像にユーザAの顔画像及びユーザBの顔画像が含まれ、手画像が含まれない場合の処理例を示す図である。この場合にジェスチャ処理部107は、手画像が検出されないため操作者なしのステータスに変更する。
【0030】
図6(C)は、撮像映像に、ユーザAの顔画像、ユーザBの顔画像、ユーザAの手画像およびユーザBの手画像が含まれる場合の処理例を示す図である。なお当該撮像映像においてユーザAの手画像およびユーザBの手画像の両方が検出されている期間は所定の閾値以下であるとする。この場合にジェスチャ処理部107は、ステータスを衝突ステータスとし、夫々のユーザの位置情報を格納する。
【0031】
図6(D)は、撮像映像に、ユーザAの顔画像、ユーザBの顔画像、ユーザAの手画像およびユーザBの手画像が含まれる場合の処理例を示す図である。ジェスチャ処理部107は、撮像映像においてユーザAの手画像およびユーザBの手画像の両方が検出されている期間が所定の閾値よりも長い期間になると、複数ユーザのうち1ユーザの手画像を操作者として選択する。そしてステータスを衝突ステータスから操作者確定ステータスに変更し、夫々のユーザの位置情報を格納(更新)する。
【0032】
図7は、コンピュータ100による操作者選択に係る処理フロー例を示す図である。
まずコンピュータ100は、テレビ装置200との接続を確立する(S701)。続いてコンピュータ100は、撮像映像を受信し(S702)、当該撮像映像から手画像が検出されると(S703のYes)、現在のステータスを確認する(S704)。ここでステータスが衝突ステータスの場合(S704の衝突)、コンピュータ100は、図3(B)に示したように、手画像の夫々に例えば黄色の識別画像を配置した映像を出力し(S705)、コンピュータ100はS712の処理を実行する。なおS705においてコンピュータ100は、図4(A)に示したような映像を出力しても良い。
【0033】
S704において操作者なしステータスであった場合(S704の操作者なし)、GUI生成部108は、S703で新たに検出された手画像の位置に、図3(C)の識別画像P34のような灰色識別画像を配置した映像を出力し(S706)、コンピュータ100はS712の処理を実行する。一方、S704において操作者確定ステータスであった場合(S704の操作者確定)、コンピュータ100は図6に示したテーブルに格納された操作者の手画像の位置情報を参照し、S703で検出された手画像の位置が、格納されている位置情報が示す位置の近傍であるか否か判別する(S707)。
【0034】
ここで、S703で検出された手画像の位置が、操作者の位置情報が示す位置の近傍にある場合(S707のYes)、ジェスチャ処理部107は検出された手画像の位置情報を操作者の位置情報として格納(更新)し、ステータスを操作者確定ステータスとする(S708)。そしてコンピュータ100は図3(A)や(C)に示したような、操作者の手画像に例えば赤色識別画像を付加した映像を出力する(S709)。
【0035】
そしてコンピュータ100は、操作者として決定された手画像の動き(ジェスチャ)を検出し(S710)、検出したジェスチャに応じた処理を実行する(S711)。
【0036】
一方S707において、S703で検出された手画像が、操作者の位置情報として格納されている位置と離れている場合(S707のNo)、コンピュータ100は手画像を複数検出したか否かを判別する(S712)。複数検出で無い場合(S712のNo)、コンピュータ100はS708の処理を実行する。一方、複数の手画像を検出した場合(S712のYes)、コンピュータ100は衝突ステータスとなってから経過した時間が所定の閾値以上か否かを判別する(S713)。なおステータスが衝突ステータスで無い場合には衝突継続時間は0とする。衝突継続時間が閾値より小さい場合(S713のNo)、コンピュータ100は衝突継続時間のカウントを開始する(S714)。なお、既にカウント中である場合にはカウントを積算する。またコンピュータ100は、新規にカウントを開始する場合、ステータスを衝突ステータスに変更する。
【0037】
一方、S713において衝突継続時間が閾値以上である場合(S713のYes)、コンピュータ100は、複数の手画像のうち1を操作者として選択し(S715)、衝突継続時間をリセットし(S716)、S708の処理を実行する。なおS708においては、S715で選択された手画像の位置情報を、操作者の位置情報として格納する。
【0038】
なお、本フローにおいては、識別画像を識別情報として出力することにより、検出された手画像が操作者として選択されているか否かをユーザに識別させているが、ユーザに識別させる方法としてはこれに限るものではなく、例えば音声により識別させても良い。即ちコンピュータ100は、撮像映像から複数の手画像を検出し、そのうちの1の手画像を操作者として選択している場合、テレビ装置200に「左のユーザの右手を操作者として選択しています」等のアナウンス音声を出力させても良い。
【0039】
つまりコンピュータ100は、少なくとも、何れの手画像が操作者として選択しているかを示す識別情報をユーザに対して通知できれば良い。またコンピュータ100は、衝突ステータスになっている場合にも、当該ステータスであることをユーザが識別できる識別情報を映像や音声等により通知すればよい。
【0040】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0041】
100…コンピュータ、101…記憶部、102…受信部、103…映像処理部、104…表示部、105…通信部、106…検出部、107…ジェスチャ処理部、108…GUI生成部、200…テレビ装置、201…通信部、202…映像処理部、203…表示部、204…撮像部

【特許請求の範囲】
【請求項1】
撮像装置が撮像した撮像映像から、ユーザの手の画像を検出する検出手段と、
検出された1以上の手の画像のうち1の画像を選択する選択手段と、
選択された前記1の画像の識別情報を通知する通知手段と、
選択された前記1の画像の動きに応じた所定処理を実行する処理手段と
を備えた映像処理装置。
【請求項2】
前記通知手段は、前記検出手段が複数の手の画像を検出した場合であって、前記選択手段が前記1の画像を選択していない場合、検出された前記複数の手の画像夫々の識別情報を通知する、請求項1記載の映像処理装置。
【請求項3】
前記通知手段は、表示装置に前記識別情報を表示させる、請求項2記載の映像処理装置。
【請求項4】
前記通知手段は、前記撮像装置により撮像された撮像映像と、前記撮像映像に含まれる前記1の画像を示す前記識別情報とを表示装置に表示させる、請求項2記載の映像処理装置。
【請求項5】
前記表示装置を更に備える、請求項3又は4記載の映像処理装置。
【請求項6】
前記撮像装置を更に備える、請求項1記載の映像処理装置。
【請求項7】
前記撮像装置を備える外部表示装置との通信接続を確立し、コンテンツの映像を出力する映像出力手段と、
前記通信接続を確立する場合に、前記撮像装置の機能を有効にする要求を外部表示装置に出力する要求出力手段と
を更に備える、請求項1記載の映像処理装置。
【請求項8】
前記要求出力手段は、前記外部表示装置に、前記撮像装置の撮像映像の送信要求を送信し、
前記検出手段は、前記送信要求に応じて前記外部表示装置から送信される映像からユーザの手の画像を検出する、請求項5記載の映像処理装置。
【請求項9】
映像処理装置における映像処理方法であって、
撮像装置が撮像した撮像映像から、ユーザの手の画像を検出することと、
検出された1以上の手の画像のうち1の画像を選択することと、
選択された前記1の画像の識別情報を通知することと、
選択された前記1の画像の動きに応じた所定処理を実行することと
を備えた映像処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−30140(P2013−30140A)
【公開日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願番号】特願2011−167746(P2011−167746)
【出願日】平成23年7月29日(2011.7.29)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】