説明

画像処理装置及び、画像処理方法

【課題】
テレビ電話装置において、一旦接続が完了すると、画面を見ていても、見ていなくても、映像データは転送されるため、有限なリソースであるネットワーク帯域を無駄に消費してしまう場合がある。
【解決手段】
テレビ電話装置において、視聴者側端末のおいて、相手側の映像を解析し、相手が画面を見ていると判断される場合は、送出する映像データの圧縮率を低く(ビットレートを高く)し、相手が画面を見ていないと判断される場合は、送出する映像データの圧縮率を高く(ビットレートを低く)し、ネットワーク帯域を無駄に消費しないよう適切に制御する。

【発明の詳細な説明】
【技術分野】
【0001】
本技術は、映像音声によるコミュニケーション手段であるテレビ電話装置に関するもので、特に映像音声データの制御技術に関するものである。
【背景技術】
【0002】
近年、ネットワークの普及、広帯域化と、デジタル放送を始めとするデジタル映像、音声技術の発展により、映像と音声によるコミュニケーション手段であるテレビ電話装置が一般家庭にも普及するものと思われる。
【0003】
これに関連して、参加者の表示画面に対する興味領域を含む視線位置をリアルタイムに検出し、映像画質の劣化を参加者に意識させることなく通信の低コスト化を図る画像圧縮通信方法が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−54830公報 画像圧縮通信方法及び装置
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、上記従来技術では、通信相手から視線情報を受け取り、受け取った視線情報を元に映像の圧縮率が低い値(つまりデータレートが高い値)となるように映像圧縮手段により圧縮して送信手段に出力するものである。従って、通信を行う双方のシステムが前記の方式に対応している必要がある点、および、相互に視線情報を交換するため、その分余分なデータ転送が発生してしまう点が課題である。
【課題を解決するための手段】
【0006】
本技術によるテレビ電話装置では、通信相手の視線情報を、受信した映像から検出し、その検出した視線情報から、通信相手に送信する映像のビットレートを制御する手段を有することを特徴とする。
【発明の効果】
【0007】
これにより、通信相手の視線情報の取得が不要となり、視線情報の余分なデータ転送を発生させることがなくなる。また、ビットレートを制御する機能を持たない従来型のテレビ電話装置との接続においても、通信相手から映像のビットレートの制御機能は動作しないが、システム上の接続性については互換が確保されており、ユーザの利便性を高めることができる。
【図面の簡単な説明】
【0008】
【図1】実施例1における画像処理装置の機能ブロック図の例である。
【図2】実施例1における視線検出処理のフローチャートの例である。
【図3】実施例1における第1の動作例の図である。
【図4】実施例1における第2の動作例の図である。
【図5】実施例1における第3の動作例の図である。
【図6】実施例2における画像処理装置の機能ブロック図の例である。
【図7】実施例2における音声検出処理のフローチャートの例である。
【図8】実施例3における画像処理装置の機能ブロック図の例である。
【図9】実施例3における視線検出処理のフローチャートの例である。
【図10】実施例4における画像処理装置の機能ブロック図の例である。
【図11】実施例4における視線検出処理のフローチャートの例である。
【図12】実施例4におけるレート設定の例である。
【図13】実施例4における動作例の図である。
【図14】実施例5における画像処理装置の機能ブロック図の例である。
【図15】実施例5における視線検出処理のフローチャートの例である。
【図16】実施例5におけるレート設定の例である。
【図17】実施例5における動作例の図である。
【図18】画像処理装置のハードウェア構成図の例である。
【発明を実施するための形態】
【0009】
図18は本実施の形態に係る画像処理装置のハードウェア構成図の例である。
画像処理装置300はストレージ部1801、外部機器制御部1802、通信部1803、メモリ1804、制御部1805から構成され、それぞれがハブ1806により接続されている。
【0010】
外部機器制御部1802は、マイク、カメラ、ディスプレイ、スピーカ等の外部機器に接続され、外部機器と通信を行うことにより、外部機器の動作を制御する。
【0011】
通信部1803は、ネットワーク109に接続され、ネットワークを介して他の画像処理装置、サーバ等と通信を行う。本実施例に係る画像処理装置は、通信部1803を介して他の画像処理装置と接続され、他の画像処理装置に映像・音声を送信し、他の画像処理装置から映像・音声を受信する。
【0012】
制御部1805は、ストレージ部1801に記憶されているソフトウェアプログラムを読み出し、読み出したソフトウェアプログラムをメモリ1804に展開し、ソフトウェアプログラムを実行することにより、画像処理装置300の各機能を発現することができる。
【0013】
制御部1805は、例えば図1に記載される音声信号処理プログラム103、映像信号処理プログラム104、音声エンコード処理プログラムなどの各種プログラムを実行することにより、音声信号処理、映像信号処理、音声エンコード処理などの各種処理を行う。
【0014】
ただし、以下の実施例において、各種処理を行うのは制御部1805とは限らず、音声信号処理部103、映像信号処理部104、音声エンコード処理部105などのように、実施例に記載の各処理部が行う各処理を行う処理部として集積回路化するなどしてハードウェアで実現することもできる。また、複数の処理、もしくは各処理部が行う一部の処理、を集積回路化することも可能である。従って、以下の実施例における画像処理装置のハードウェア構成は図18の例とは異なっていてもよい。
【0015】
以下では説明を簡略化するため、各種プログラムを制御部1805が実行することで実現される各処理を各処理部が主体となって実現されるとして説明する。なお各処理部をハードウェアで実現した場合にはその各処理部が主体となって各処理を行う。
【0016】
以下、実施の形態を図面に基づいて詳細に説明する。
【実施例1】
【0017】
最初に、本実施例の画像処理装置について説明する。
【0018】
図1は実施例1における画像処理装置の機能ブロック図の例である。画像処理装置300は、音声信号処理部103、映像信号処理部104、音声エンコード処理部105、映像エンコード処理部106、AVパケット合成処理部107、ネットワーク処理部108、AVパケット分離処理部110、映像デコード処理部111、音声デコード処理部112、ディスプレイドライバ113、音声ドライバ114、視線検出処理部117、ビットレート設定処理部118を備え、通信部1803を介してネットワーク109に接続され、外部機器制御部1802を介してマイク101、カメラ102、ディスプレイ115、スピーカ116に接続されている。
【0019】
音声信号処理部103は、マイク101からの音声入力を量子化し、出力する。
【0020】
音声エンコード処理部105は、音声信号処理部103から入力された音声信号を圧縮符号化する。
【0021】
映像信号処理部104は、カメラ102からの映像入力を量子化し、出力する。
【0022】
映像エンコード処理部106は、映像信号処理部104から入力された映像信号を圧縮符号化する。
【0023】
AVパケット合成処理部107は、音声エンコード処理部105からの圧縮符号化された音声信号及び、映像エンコード処理部106からの圧縮された映像信号を多重化し、AVパケットとして出力する。
【0024】
ネットワーク処理部108は、AVパケット合成処理部107からのAVパケットをネットワーク109に出力すると共に、ネットワーク109からのAVパケット分離処理110に出力する。
【0025】
AVパケット分離処理部110は、ネットワーク処理部108からのAVパケットを分離し、圧縮符号化された映像信号は映像デコード111に、圧縮符号化された音声信号は音声デコード処理112に出力する。
【0026】
映像デコード処理部111は、AVパケット分離110からの圧縮符号化された映像信号を復号化し、ディスプレイドライバ113及び、視線検出処理117に出力する。
【0027】
音声デコード処理部112は、AVパケット分離110からの圧縮符号化された音声信号を復号化し、音声ドライバ114に出力する。
【0028】
ディスプレイドライバ113および音声ドライバ114は、映像デコード処理111からの復号化映像信号をディスプレイ115へ、音声デコード処理112からの復号化音声信号をスピーカ116へそれぞれ出力する。
【0029】
視線検出処理部117は、視線測定処理、正視判定処理、ビットレート設定処理、ウェイト処理、終了判定処理を行う。視線測定処理とは、映像デコード処理111の出力映像信号中の人物の視線が上下左右のどの範囲の角度であるかを測定する処理である。正視判定処理とは、視線測定処理により得られた角度の情報から、ディスプレイまたはカメラを正視している角度か否かを判定する処理である。ビットレート設定処理とは、正視判定処理により得られた判定結果に従い、ビットレート設定処理部118に対してビットレート値を設定する処理である。ウェイト処理とは、一定期間の実行待ちの処理である。終了判定処理とは、再度、視線測定処理に戻るか、視線測定処理に戻らずに終了するかを判定する処理である。
【0030】
ビットレート設定処理部118は、視線検出処理部117の結果に従い、映像エンコード処理105のビットレート制御に関する符号化パラメータを設定する。
【0031】
まず、画像処理装置300から映像・音声データを送信する処理する手順について説明する。マイク101によって集音された音声は、音声信号処理部103によりデジタル信号に変換され、音声エンコード処理部105によりエンコードされて音声出力データとされる。
【0032】
また、カメラ102によって撮像された映像も、映像信号処理部104によりデジタル信号に変換され、映像エンコード処理部106によりエンコードされて映像出力データとされる。音声出力データと映像出力データは、AVパケット合成処理部107により多重化処理され、ネットワーク109を介して通信相手が利用する画像処理装置に多重化した映像・音声データを送信する。
【0033】
次に、画像処理装置300が受信した映像・音声データを出力する処理について説明する。映像・音声データをネットワーク109を介して画像処理装置300が受信した場合、映像・音声データは、AVパケット分離処理部110により映像出力データと音声出力データに分離される。映像出力データは、映像デコード処理111によりデコードされ、ディスプレイドライバ113で出力映像信号に変換し、ディスプレイ115に映像として出力される。また、音声出力データも音声デコード処理112によりデコードされ、音声ドライバ114で出力音声信号に変換し、スピーカ116に音声としてを出力される。
【0034】
この際、映像デコード処理部111が出力する映像に含まれる画像を、視線検出処理部117が解析することで、視線情報を作成する。ビットレート設定処理部118は、視線検出部117が作成した視線情報を取得し、取得した視線情報を元に、視聴者側の映像エンコード処理部106の符号化パラメータを制御する。
【0035】
次に、実施例1における視線検出処理部117の動作についてフローチャートを用いて説明する。フローチャートにおいて「S」は「ステップ」を意味する。
【0036】
図2は、実施例1における視線検出処理のフローチャートの例である。
図2は、図1の視線検出処理部117が、映像デコード処理部111から受信する映像出力データを入力として視線検出処理を行い、視線検出の結果に基づいてビットレート設定処理部118が、視聴者の使用する映像処理装置300の映像エンコード処理のパラメータとして、映像出力データのビットレートを制御する方法を示すフローチャートである。当該処理は視線検出処理部117が、映像デコード処理111からの出力を入力として解析、判定を行い、ビットレート設定処理118の入力を出力することで実現される。
【0037】
視線検出処理部117は、画像処理装置300の他の機能ブロックと同期して起動されると、視線検出処理を開始し(S501)、ビットレート設定処理部118に対して、初期値ビットレート設定処理を行う(S502)。
【0038】
次に視線検出処理部117は、映像デコード処理部111から受信した映像出力データを解析し、視線測定処理を行い(S503)、その測定結果から、正視判定処理を実行し(S504)、正視と判定された場合には、高いビットレート値を設定する高ビットレート設定処理(S505)を、正視と判定されない場合は、低いビットレート値を設定する低ビットレート設定処理(S506)を、ビットレート設定処理部118に対して行う。
【0039】
更に、一定時間のウェイト処理を実行し(S507)、実行プログラムの終了判定処理を行い(S508)、終了でない場合には、再度、視線測定処理(S503)に戻り、終了の場合には、視線検出処理117を終了する(S509)。
【0040】
図3は、実施例1における第1の動作例の図である。ネットワーク109を介して画像処理装置300A、画像処理装置300Bが接続されており、それぞれにはディスプレイ、スピーカが接続されているものとする。
【0041】
この第1の動作例の図では、画像処理装置300A、画像処理装置300Bの視聴者双方はお互いにディスプレイの画面を注視している例である。
【0042】
図3における画像処理装置300Aの視線検出処理部117の動作は、図2を元に説明すると以下のようになる。画像処理装置300Aの視線検出処理部117は、画像処理装置300Aの他の機能ブロックと同期して起動されると(S501)、ビットレート設定処理部118に対して初期値ビットレート設定処理を行う(S502)。次に映像デコード処理部111から受信した映像信号データを解析し、視線測定処理を行い(S503)、その測定結果から正視判定処理を実行(S504)する。
【0043】
正視判定処理の結果として、正視と判定された場合は高ビットレート設定処理(S505)を、ビットレート設定処理118に対して行う。更に、一定時間のウェイト処理を実行し(S507)、終了判定処理を行う(S508)。この例では、終了していないので、再度、視線測定処理(S503)に戻る。この例では、画像処理装置300Bも全く同様の処理となる。
【0044】
以上のようにして、図3の場合は双方はお互いにディスプレイの画面を注視しているので、臨場感を重視し、圧縮率が低い値(つまりデータレートが高い値)となるように制御される。
【0045】
図4は、実施例1における第2の動作例の図である。図3と同様にネットワーク109を介して画像処理装置300A、画像処理装置300Bが接続されており、それぞれにはディスプレイ、スピーカが接続されているものとする。
【0046】
この第2の動作例の図では、画像処理装置300Aの視聴者は、ディスプレイの画面を注視しているが、画像処理装置300Bの視聴者は、手元の資料を見ており、ディスプレイの画面を注視していない例である。
【0047】
図4における画像処理装置300Aの視線検出処理部117の動作は、図2を元に説明すると以下のようになる。画像処理装置300Aの視線検出処理部117は、画像処理装置300Aの他の機能ブロックと同期して起動されると(S501)、ビットレート設定処理部118に対して初期値ビットレート設定処理を行う(S502)。次に映像デコード処理部111から受信した映像信号データを解析し、視線測定処理を行い(S503)、その測定結果から、正視判定処理を実行する(S504)。
【0048】
画像処理装置300Aの視線検出処理部117は、正視判定処理の結果として画像処理装置300Bの視聴者がディスプレイを正視していないと判定し、低ビットレート設定処理(S506)を、ビットレート設定処理部118に対して行う。更に、一定時間のウェイト処理を実行し(S507)、終了判定処理を行う(S508)。この例では、実行プログラムが終了していないので、再度、視線測定処理(S503)に戻る。
【0049】
一方、画像処理装置300Bの視線検出処理部117は、画像処理装置300Bの他の機能ブロックと同期して起動されると(S501)、ビットレート設定処理部118に対して、初期値ビットレート設定処理を行う(S502)。次に映像デコード処理部111から受信した映像信号データを解析し、視線測定処理を行い(S503)、その測定結果から、正視判定処理を実行(S504)する。
【0050】
画像処理装置300Bの視線検出処理部117は、正視判定処理の結果として、画像処理装置300Aの視聴者がディスプレイを正視していると判定し、高ビットレート設定処理(S505)を、ビットレート設定処理部118に対して行う。更に、一定時間のウェイト処理を実行し(S507)、終了判定処理を行い(S508)、終了でないので、再度、視線測定処理(S503)に戻る。
【0051】
図4の場合、画像処理装置300Aの視聴者は、ディスプレイの画面を注視しているが、画像処理装置300Bの視聴者は、ディスプレイの画面を注視していない。従って、画像処理装置300Aから、画像処理装置300Bに対しては、臨場感は必要ないため、データの転送効率を重視し、圧縮率が高い値(つまりデータレートが低い値)となるように制御される。逆に、画像処理装置300Bから、画像処理装置300Aに対しては、臨場感を重視し、圧縮率が低い値(つまりデータレートが高い値)となるように制御される。
【0052】
図5は、実施例1における第3の動作例の図である。図3と同様にネットワーク109を介して画像処理装置300A、画像処理装置300Bが接続されており、それぞれにはディスプレイ、スピーカが接続されているものとする。
【0053】
この第3の動作例の図では、画像処理装置300A、画像処理装置300Bの双方の視聴者はお互いにディスプレイの画面を注視していない例である。
【0054】
図5における画像処理装置300Aの視線検出処理部117の動作は、図2を元に説明すると以下のようになる。画像処理装置300Aの視線検出処理部117は、画像処理装置300Aの他の機能ブロックと同期して起動されると(S501)、ビットレート設定処理部118に対して初期値ビットレート設定処理を行う(S502)。次に映像デコード処理部111から受信した映像信号データを解析し、視線測定処理を行い(S503)、その測定結果から、正視判定処理を実行する(S504)。
【0055】
画像処理装置300Aの視線検出処理部117は、正視判定処理の結果として、画像処理装置300Bの視聴者がディスプレイを正視していないと判定し、低ビットレート設定処理(S506)を、ビットレート設定処理部118に対して行う。更に、一定時間のウェイト処理を実行し(S507)、終了判定処理を行う(S508)。この例では、実行プログラムが終了していないので、再度、視線測定処理(S503)に戻る。この例では、画像処理装置300Bも全く同様の処理となる。
【0056】
図5の場合、視聴者双方はお互いにディスプレイの画面を注視していないので、臨場感は必要ないため、データの転送効率を重視し、圧縮率が高い値(つまりデータレートが低い値)となるように制御される。
【0057】
本実施例によれば、画像処理装置300は、通信相手の視線状態を検出し、映像エンコード処理の符号化パラメータを制御することにより、通信相手がディスプレイを注視していないと判断された場合には、一方の画像処理装置300から他方の画像処理装置300に対して圧縮率が高い値(つまりデータレートが低い値)の映像データを送出するように動作することで、有限であるネットワークの回線帯域を有効に利用することができるようになる。
【0058】
本実施例では、画像処理装置内部で、通信相手の視線状態を検出し映像符号化パラメータを制御するので、通信相手が利用する画像処理装置が、本実施例のように符号化パラメータを制御する機能を持たない画像処理装置の場合でも、相互接続性は保障される。
【0059】
ただし、両者の画像処理装置300が映像符号化パラメータを制御する機能を有する場合、一方の画像処理装置300において極端に高い圧縮率(つまりデータレートが低い値)が設定されていると、画質が非常に悪くなったり、映像フレームレートが非常に低くなったりして通信相手の視線状態の検出精度が低下してしまい、正視であるにもかかわらず高い圧縮率(つまりデータレートが低い値)で映像信号を送信することになるため、視線検出の精度が所定の精度以上となるように圧縮率を設定する必要がある。
【実施例2】
【0060】
他の本実施例の画像処理装置について説明する。なお、実施例1と同等の機能、処理等については図面において同じ番号を付しており、説明を省略する。
【0061】
図6は実施例2における画像処理装置の機能ブロック図の例である。本実施例の画像処理装置301は、実施例1の画像処理装置300に加えてキャリブレーション制御部119及びメモリ120を備えている。
【0062】
キャリブレーション制御部119は、予め正視している状態の映像デコード処理部111の出力映像を視線検出処理部117での視線検出処理の比較用データとして基準映像を取り込むための制御部である。
【0063】
メモリ120は、キャリブレーション制御部119により基準画像を保持する。
【0064】
また本実施例における視線検出処理部117は、さらに映像デコード処理111の出力映像とメモリ120の基準映像を比較・判定する視線比較処理を実行する。
【0065】
本実施例においても実施例1と同様に、映像デコード処理部111から受信した映像出力データを、視線検出処理部117が解析することで、視線情報を取得し、取得した視線情報を元に、視聴者側の映像エンコード処理部106の符号化パラメータを、ビットレート設定処理部118により制御するが、カメラ102の設置場所により、正しく視線検出処理部117のディスプレイを正視しているか否かの判定に誤差が生じる場合ある。従って本実施例では、キャリブレーション制御部119により、予め正視している状態の映像デコード処理部111の出力映像を視線検出処理部117での視線検出処理の比較用データとして、メモリ120に保存する。
【0066】
次に、実施例2における視線検出処理117の動作についてフローチャートを用いて説明する。フローチャートにおいて「S」は「ステップ」を意味する。
【0067】
図7は、実施例2における視線検出処理のフローチャートの例である。
図7は、図6の視線検出処理部117が、映像デコード処理部111から受信する映像出力データを入力として視線検出処理を行い、視線検出処理の結果に基づいてビットレート設定処理部118が、映像エンコード処理部111の映像エンコード処理におけるビットレートを設定する処理を制御する方法を示すフローチャートであり、当該処理は、映像デコード処理111からの出力を入力として解析、判定を行い、ビットレート設定処理118の入力を出力することで実現される。
【0068】
視線検出処理部117は、画像処理装置301の他の機能ブロックと同期して起動されると、視線検出処理を開始し(S501)、ビットレート設定処理部118に対して、初期値ビットレート設定処理を行う(S502)。
【0069】
次に視線検出処理部117は、映像デコード処理部111から受信した映像出力データを解析し、視線測定処理を行い(S503)、その測定結果と予め保存したメモリ120に保存された視線検出処理の比較用データから、視線比較処理を実行する(S516)。視線比較処理の結果、比較用データと映像出力データの視線が一致と判定された場合には、高ビットレート設定処理(S505)を、視線が不一致と判定された場合は、低ビットレート設定処理(S506)を、ビットレート設定処理部118に対して行う。
【0070】
更に、一定時間のウェイト処理を実行し(S507)、実行プログラムの終了判定処理を行い(S508)、終了でない場合には、再度、視線測定処理(S503)に戻り、終了の場合には、視線検出処理117を終了する(S509)。
【0071】
本実施例によれば、画像処理装置301は、実施例1の効果に加え、画像処理装置301の設置場所(特にカメラ102の位置)により、正視判定に誤差が生じてしまうような場合に、予め基準となる正視した状態の画像を記録するキャリブレーションを行うことで、正視状態の誤判定を軽減することができるようになる。
【実施例3】
【0072】
他の本実施例の画像処理装置について説明する。なお、実施例1と同等の機能、処理等については図面において同じ番号を付しており、説明を省略する。
【0073】
図8は実施例3における画像処理装置の機能ブロック図の例である。本実施例の画像処理装置302は、実施例1の画像処理装置300に加えて音声検出処理部121を備えている。
【0074】
音声検出処理部121は、音声信号処理103からの入力レベルを検出し、ビットレート設定処理118を制御する。
【0075】
また本実施例におけるビットレート設定処理118は、視線検出処理117からの入力および、音声検出処理121からの入力により、映像エンコード処理106を制御する。
【0076】
本実施例においても実施例1と同様に、映像デコード処理部111から受信した映像出力データを、視線検出処理部117が解析することで、視線情報を取得し、取得した視線情報を元に、視聴者側の映像エンコード処理部106の符号化パラメータを、ビットレート設定処理部118により制御するが、本実施例では、実施例1に加えて、音声信号処理部103が出力する音声出力データを、音声検出処理部121が解析することで、マイク101が集音した音声情報を元に、視聴者側の映像エンコード処理部106の符号化パラメータを、ビットレート設定処理部118により制御する。
【0077】
実施例3における視線検出処理部117の動作については、実施例1と同じであるため、説明を省略する。
【0078】
次に、実施例3における音声検出処理部121の動作についてフローチャートを用いて説明する。フローチャートにおいて「S」は「ステップ」を意味する。
【0079】
図9は、実施例3における音声検出処理のフローチャートの例である。
図9は、図8の音声検出処理部121が、視聴者の使用する映像処理装置から送信される音声を入力とし、視聴者の使用する映像処理装置300の映像エンコード処理のパラメータとして、映像出力データのビットレートを制御する方法を示すフローチャートである。当該処理は、音声検出処理部121が音声信号処理部103からの出力を入力として解析、判定を行い、ビットレート設定処理部118の入力の1つとして出力することで実現される。
【0080】
音声検出処理部121は、画像処理装置302の他の機能ブロックと同期して起動されると、音声検出処理を開始し(S510)、音声信号処理部103から入力された出力音声出力データのレベルを測定し(S511)、測定した音声データのレベル判定処理を行う(S512)。測定した音声データのレベルが判定値を越えた場合には、高ビットレート設定処理(S513)を行い、レベルが判定値を越えない場合には、何もしない。
【0081】
更に、一定時間のウェイト処理を実行し(S507)、実行プログラムの終了判定処理を行い(S514)、終了でない場合には、再度、音声測定処理(S511)に戻り、終了の場合には、音声検出処理121を終了する(S515)。
【0082】
本実施例によれば、画像処理装置302は、実施例1の効果に加え、視聴者の音声を入力とし、視聴者の映像エンコード処理のパラメータとして、ビットレート設定処理への制御を行うことで、視聴者が会話を始めた際に、即座にビットレート設定処理への制御を行うことができ、通信相手がモニタに視線を向けるよりも早く、臨場感を重視した、圧縮率が低い値(つまりデータレートが高い値)映像が表示されるようにすることができる。
【0083】
また、本実施例によれば、本実施例の画像処理装置302Aおよび302Bが互いに低ビットレートで映像を送信しており、画像処理装置302Aおよび302Bの視線検出処理部117による視線検出が困難である場合であっても、画像処理装置302Aの視聴者が音声を発することによって高ビットレートの映像を画像処理装置302Bに送信することができる。画像処理装置302Bの視線検出処理部117は、受信した高ビットレートの映像を解析することによって画像処理装置302Aの視聴者がディスプレイを正視していることを検出することができ、画像処理装置302Aに対して高ビットレートの映像を送信するように制御することができる。
【0084】
以上のようにして、本実施例における画像処理装置302は低ビットレートの映像を送信することによって視線検出の精度が低下した場合でも適切にビットレートの切替をすることができ、画像処理装置302間の通信量を低下させることができる。
【0085】
なお、上記の効果は、画像処理装置302本体に設けられたスイッチ、図示しないリモコンに設けられたスイッチ、ディスプレイ上に表示され、マウスなどの入力手段によって選択できるボタンが押下もしくは選択されることによって、視線検出処理部117が高ビットレート処理を行うようにしても同様にして得ることができる。
【実施例4】
【0086】
他の本実施例の画像処理装置について説明する。なお、実施例1と同等の機能、処理等については図面において同じ番号を付しており、説明を省略する。
【0087】
図10は実施例4における画像処理装置の機能ブロック図の例である。本実施例の画像処理装置303は、実施例1の画像処理装置300に加えて音声信号処理部203、映像信号処理部204、音声エンコード処理部205、映像エンコード処理部206、AVパケット合成処理部207、ネットワーク処理部208、AVパケット分離処理部210、映像デコード処理部211、音声デコード処理部212、ディスプレイドライバ213、音声ドライバ214、を備え、外部機器制御部1802を介してマイク201、カメラ202、ディスプレイ215、スピーカ216に接続されている。
【0088】
マイク201、カメラ202、音声信号処理部203、映像信号処理部204、音声エンコード処理部205、映像エンコード処理部206、AVパケット合成処理部207、ネットワーク処理部208、AVパケット分離処理部210、映像デコード処理部211、音声デコード処理部212、ディスプレイドライバ213、音声ドライバ214、ディスプレイ215、スピーカ216の説明は、実施例1で説明した同名の処理部もしくは機器等と同様であるため、説明を省略する。
【0089】
次に、実施例4における視線検出処理部117の動作についてフローチャートを用いて説明する。フローチャートにおいて「S」は「ステップ」を意味する。
【0090】
図11は、実施例4における視線検出処理のフローチャートの例である。
図11は、図10の視線検出処理部117が、映像デコード処理部111から受信する映像出力データを入力として視線検出処理を行い、視線検出の結果に基づいてビットレート設定処理部118が、映像エンコード処理部111の映像エンコード処理におけるビットレートを設定する処理を制御する方法を示すフローチャートであり、当該処理は、映像デコード処理部111/211からの出力を入力として解析、判定を行い、ビットレート設定処理部118の入力を出力することで実現される。
【0091】
視線検出処理部117は、画像処理装置303の他の機能ブロックと同期して起動されると、視線検出処理を開始し(S501)、ビットレート設定処理部118に対して、初期値ビットレート設定処理を行う(S502)。
【0092】
次に視線検出処理部117は、映像デコード処理部111/211から受信した映像出力データを解析し、視線測定処理を行い(S503)、その測定結果から、正視判定処理を実行し(S517)、正視判定処理結果により、図12のレート設定1処理(S518)、レート設定2処理(S519)、レート設定3処理(S520)、レート設定4処理(S521)の何れかを、ビットレート設定処理部118に対して行う。
【0093】
更に、一定時間のウェイト処理を実行し(S507)、実行プログラムの終了判定処理を行い(S508)、終了でない場合には、再度、視線測定処理(S503)に戻り、終了の場合には、視線検出処理を終了する(S509)。
【0094】
図12の表は、図11のレート設定1処理(S518)、レート設定2処理(S519)、レート設定3処理(S520)、レート設定4処理(S521)のビットレート設定処理部118に対して行なわれる設定パラメータの組み合わせの例である。この例では、視線検出処理部117による図11の視線測定処理(S503)、視線判定処理(S517)により、(画面A)の拠点からの送出画像も、(画面B)の拠点からの送出画像も、正視していると判定した場合には、レート設定1処理を選択するように動作するものとする。以下、同様に、視線測定処理(S503)、視線判定処理(S517)により、(画面A)の拠点からの送出画像は正視しているが、(画面B)の拠点からの送出画像は正視していないと判定した場合には、レート設定2処理を選択し、(画面B)の拠点からの送出画像は正視しているが、(画面A)の拠点からの送出画像は正視していないと判定した場合には、レート設定3処理を選択し、(画面A)の拠点からの送出画像も、(画面B)の拠点からの送出画像も、正視していないと判定した場合には、レート設定4処理を選択するように動作するものとする。図12の表では、ビットレート設定処理部118は、視線検出処理部117によりレート設定1処理が選択された場合には、「レート設定1」の「(画面A)の拠点への送出画質制御」として、「高ビットレート」を設定し、「(画面B)の拠点への送出画質制御」として、「高ビットレート」を設定することを示している。以下同様に、ビットレート設定処理部118は、レート設定2処理が選択された場合には、「レート設定2」の「(画面A)の拠点への送出画質制御」として「高ビットレート」を設定し、「(画面B)の拠点への送出画質制御」として「低ビットレート」を設定することを、レート設定3処理が選択された場合には、「レート設定3」の「(画面A)の拠点への送出画質制御」として「低ビットレート」を設定し、「(画面B)の拠点への送出画質制御」として「高ビットレート」を設定することを、レート設定4処理が選択された場合には、「レート設定4」の「(画面A)の拠点への送出画質制御」として、「低ビットレート」を設定し、「(画面B)の拠点への送出画質制御」として、「低ビットレート」を設定することを示している。
【0095】
図13は、実施例4における動作例の図である。ネットワーク109を介して画像処理装置303A、画像処理装置303B、画像処理装置303Cが接続されており、それぞれにはディスプレイ、スピーカが接続されているものとする。
【0096】
この動作例の図では、画像処理装置303A、画像処理装置303B、画像処理装置303Cは、画像処理装置303Aの視聴者は画面Aを注視しており、画面Aの拠点である画像処理装置303Bの視聴者も、画像処理装置303Aの視聴者の画面を注視している。また、画像処理装置303Aの視聴者は画面Bを注視していないが、画面Bの拠点である画像処理装置303Cの視聴者は、画像処理装置303Aの視聴者の画面を注視している例である。
【0097】
図13における画像処理装置303Aの視線検出処理部117の動作は、図11を元に説明すると以下のようになる。画像処理装置303Aの視線検出処理部117は、画像処理装置303Aの他の機能ブロックと同期して起動されると、視線検出処理を開始し(S501)、ビットレート設定処理部218に対して、初期値ビットレート設定処理を行う(S502)。次に映像デコード処理部111/211から受信した映像信号データを解析し、視線測定処理を行う(S503)。
【0098】
視線測定処理の測定結果から、正視判定処理を実行(S517)した結果として、この例では、レート設定1処理(S518)をビットレート設定処理部118に対して行う。
【0099】
更に、一定時間のウェイト処理を実行し(S507)、実行プログラムの終了判定処理を行い(S508)、終了でないので、再度、視線測定処理(S503)に戻る。この例では、画像処理装置303Bも全く同様の処理となり、画像処理装置303Cでは、視線測定処理を行い(S503)、その測定結果から、正視判定処理を実行(S517)した結果として、この例では、レート設定4処理(S521)をビットレート設定処理部118に対して行う。
【0100】
図13の場合、互いに送信される映像・音声データは、画像処理装置303Aと画像処理装置303B間は、双方はお互いにディスプレイの画面を注視しているので、臨場感を重視し、圧縮率が低い値(つまりデータレートが高い値)となるように制御され、画像処理装置303Aと画像処理装置303C間は、画像処理装置303Aから画像処理装置303Cに対しては、臨場感を重視し、圧縮率が低い値(つまりデータレートが高い値)となるように制御されるが、画像処理装置303Cから画像処理装置303Aに対しては、臨場感は必要ないため、データの転送効率を重視し、圧縮率が高い値(つまりデータレートが低い値)となるように制御される。画像処理装置303Bと画像処理装置303C間は、双方はお互いにディスプレイの画面を注視しておらず、臨場感は必要ないため、データの転送効率を重視し、圧縮率が高い値(つまりデータレートが低い値)となるように制御される。
【0101】
本実施例によれば、映像処理装置303が3者間の視線状態を検出し映像符号化パラメータを制御することにより、不必要な映像データを送出せずに済むので、有限であるネットワークの回線帯域を有効に利用することができるようになる。
【実施例5】
【0102】
他の本実施例の画像処理装置について説明する。なお、実施例1と同等の機能、処理等については図面において同じ番号を付しており、説明を省略する。
【0103】
図14は実施例5における画像処理装置のブロック図の例である。本実施例の画像処理装置304は、実施例1の画像処理装置300に加えて音声エンコード処理部205、映像エンコード処理部206、AVパケット合成処理部207、ネットワーク処理部208、AVパケット分離処理部210、映像デコード処理部211、音声デコード処理部212、ディスプレイドライバ213、音声ドライバ214、キャリブレーション制御部119、メモリ120を備え、外部機器制御部1802を介してディスプレイ215、スピーカ216に接続されている。
【0104】
音声エンコード処理部205、映像エンコード処理部206、AVパケット合成処理部207、AVパケット分離処理部210、映像デコード処理部211、音声デコード処理部212、ディスプレイドライバ213、音声ドライバ214の説明は、実施例1で説明した同名の処理部もしくは機器等と同様であるため、説明を省略する。
【0105】
次に、実施例5における視線検出処理217の動作についてフローチャートを用いて説明する。フローチャートにおいて「S」は「ステップ」を意味する。
【0106】
図15は、実施例5における視線検出処理のフローチャートの例である。
図15は、図14の視線検出処理部117において、映像デコード処理部111から受信する映像出力データを入力として視線検出処理を行い、視線検出処理の結果に基づいてビットレート設定処理部118が、映像エンコード処理部111の映像エンコード処理におけるビットレートを設定する処理を制御する方法を示すフローチャートであり、当該処理は、映像デコード処理部111/211からの出力を入力として解析、判定を行い、ビットレート設定処理部118の入力を出力することで実現される。
【0107】
視線検出処理部117は、画像処理装置304の他の機能ブロックと同期して起動されると、視線検出処理を開始し(S501)、ビットレート設定処理部118に対して、初期値ビットレート設定処理を行う(S502)。
【0108】
次に視線検出処理部117は、映像デコード処理部111/211から受信した映像出力データを解析し、視線測定処理を行い(S503)、その測定結果と予め保存したメモリ120に保存された視線検出処理の比較用データから、正視判定処理を実行し(S517)、視線判定比較処理結果により、図16のレート設定1処理(S518)、レート設定2処理(S519)、レート設定3処理(S520)、レート設定4処理(S521)、レート設定5処理(S522)の何れかを、ビットレート設定処理部118に対して行う。
【0109】
更に、一定時間のウェイト処理を実行し(S507)、実行プログラムの終了判定処理を行い(S508)、終了でない場合には、再度、視線測定処理(S503)に戻り、終了の場合には、視線検出処理を終了する(S509)。
【0110】
図16の表は、図15のレート設定1処理(S518)、レート設定2処理(S519)、レート設定3処理(S520)、レート設定4処理(S521)、レート設定5処理(S522)のビットレート設定処理部118に対して行なわれる設定パラメータの組み合わせの例である。視線検出処理部117によるレート設定1から4までの選択の基準は実施例4と同様であるが、本実施例においては、複数のディスプレイのうち、どのディスプレイを見ているか、若しくは複数のディスプレイのどれも見ていないのか、を図17のように1台のカメラで判断しているため、視線検出の精度が低下する。
【0111】
そこで、本実施例では、視線検出処理部117が視線を検出することができなかった場合、および視聴者が複数のディスプレイのうち、どのディスプレイを見ているのかを判定できなかった場合に、視線検出処理部117はレート設定5を選択することとする。
【0112】
ビットレート設定処理部118は、レート設定5が選択された場合は「(画面A)の拠点への送出画質制御」も、「(画面B)の拠点への送出画質制御」も、高ビットレートと低ビットレートとの間のビットレート値である「中ビットレート」を設定する。
【0113】
また、複数の人物の視線が検出された場合や、複数の人物が検出された場合、または複数の人物の視線が検出されてその一部の視線が正視と判断された場合に、レート設定5を選択するようにしてもよい。上記の場合、一台の画像処理装置300を用いて複数の人物が通信を行うことに対応することができる。また、複数の人物が検出された場合にレート設定5を選択するようにすれば、視線検出をするまでもなくビットレートを設定することができるため、視線検出処理部117による処理負担を減少させることができ、また、複数の人物の視線が検出されてその一部の視線が正視と判断された場合に、レート設定5を選択するようにした場合は、カメラ102が撮像する複数の人物の全員が正視していない場合にレート設定4とすることで、画像処理装置間の通信量をさらに減少させることができる。
【0114】
ビットレート設定処理部118は、視線検出処理部117によりレート設定1処理が選択された場合は、(画面A)の拠点への送出画質制御として、高ビットレートを設定し、(画面B)の拠点への送出画質制御として、高ビットレートを設定することを示している。以下同様に、図16の表は、ビットレート設定処理部118が、レート設定2処理が選択された場合に(画面A)の拠点への送出画質制御として高ビットレートを設定し、(画面B)の拠点への送出画質制御として、低ビットレートを設定することを、レート設定3処理が選択された場合に(画面A)の拠点への送出画質制御として低ビットレートを設定し、(画面B)の拠点への送出画質制御として高ビットレートを設定すること、レート設定4処理が選択された場合に(画面A)の拠点への送出画質制御として低ビットレートを設定し、(画面B)の拠点への送出画質制御として低ビットレートを設定すること、レート設定5処理が選択された場合に(画面A)の拠点への送出画質制御として中ビットレートを設定し、(画面B)の拠点への送出画質制御として中ビットレートを設定すること、を示している。
【0115】
図17は、実施例5における動作例の図である。ネットワーク109を介して画像処理装置304A、画像処理装置304B、画像処理装置304Cが接続されており、それぞれにはディスプレイ、スピーカが接続されているものとする。
【0116】
この例では、実施例4の場合とレート設定以外は、同様の動作となるため、簡略化のため説明を省略する。また、図17では、モニタを2台用いた場合について記載しているが、モニタの2画面表示機能を使うことにより、1台のモニタで同様のシステムを構築することもできる。
【0117】
本実施例によれば、映像処理装置303が実施例4と同様に3者間の利用におけるネットワークの回線帯域を有効に利用することができるようになるほか、本実施例では、カメラ、マイク、映像信号処理、音声信号処理の部分が共用化されているので、システムコストを下げる効果がある。一方本実施例では、カメラ、マイク、映像信号処理、音声信号処理の部分が共用化されることにより、視聴者が画面Aを注視しているのか、画面Bを注視しているのかの判定が付かなくなる場合が発生するため、このような場合は、レート設定5処理により、(画面A)の拠点、(画面B)の拠点の両方に対して、中ビットレートを設定できるようにしたものである。また、複数人で同一の画像処理装置を利用した場合に、複数の視線を検出するケースがあり、この場合は、レート設定5処理により、(画面A)の拠点、(画面B)の拠点の両方に対して、中ビットレートを設定できるようにすることも考えられる。
【0118】
以上の実施例では、ディスプレイ、スピーカが外付けの画像処理装置について説明をしたが、ディスプレイ、スピーカを内蔵したデジタルテレビ受信機などを利用して上記の例を実施することも可能である。
【0119】
また、上記の実施例で説明した画像処理装置と同様の機能を持つMCU(Multipoint Control Unit)と、ビットレートを変更する機能を有さない複数の画像処理装置とを有し、画像処理装置はそれぞれがMCUに接続した構成を持つTV会議システムを構成することも可能である。
【0120】
この場合、それぞれの画像処理装置はMCUに対して各視聴者の映像音声データを送信し、MCUから送信された映像音声データをディスプレイ、スピーカで再生する。MCUは各画像処理装置から送信された映像音声データに含まれる映像の視線検出処理、音声のレベル判定処理等を行い、各画像処理装置にビットレートを変更して送信する。以上の構成にすることでMCUを用いたTV会議システムであっても上記の実施例と同様にして各画像処理装置に送信する映像音声データの通信量を低下させることができる。
【0121】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0122】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0123】
101 マイク
102 カメラ
103 音声信号処理部
104 映像信号処理部
105 音声エンコード処理部
106 映像エンコード処理部
107 AVパケット合成処理部
108 ネットワーク処理部
109 ネットワーク
110 AVパケット分離処理部
111 映像デコード処理部
112 音声デコード処理部
113 ディスプレイドライバ
114 音声ドライバ
115 モニタ
116 スピーカ
117 視線検出処理部
118 ビットレート設定処理部
119 キャリブレーション制御部
120 メモリ
121 音声検出処理部
201 マイク
202 カメラ
203 音声信号処理部
204 映像信号処理部
205 音声エンコード処理部
206 映像エンコード処理部
207 AVパケット合成処理部
208 ネットワーク処理部
209 ネットワーク
210 AVパケット分離処理部
211 映像デコード処理部
212 音声デコード処理部
213 ディスプレイドライバ
214 音声ドライバ
215 モニタ
216 スピーカ
300 画像処理装置
301 画像処理装置
302 画像処理装置
303 画像処理装置
304 画像処理装置

【特許請求の範囲】
【請求項1】
第1の入力映像情報の視線検出を行い検出結果を出力する第1の映像処理ユニットと、
第2の入力映像情報を制御入力情報に基づいて圧縮符号化し映像情報を出力する第2の映像処理ユニットと、
前記第1の映像処理ユニットの出力を前記第2の映像処理ユニットの前記制御入力情報に変換する変換処理ユニットと、
他の機器からネットワークを介して受信した入力映像情報を前記第1の映像処理ユニットの前記第1の入力映像情報として出力すると共に、前記第2の映像処理ユニットで圧縮符号化した前記映像情報を前記他の機器へ前記ネットワークを介して送信するネットワーク接続ユニットと
を備えることを特徴とする画像処理装置。
【請求項2】
第1の入力映像情報を予め保持した映像情報を比較して視線検出を行い検出結果を出力する第1の映像処理ユニットと、
第2の入力映像情報を制御入力情報に基づいて圧縮符号化し出力する第2の映像処理ユニットと、
前記第1の映像処理ユニットの出力を前記第2の映像処理ユニットの前記制御入力情報に変換する変換処理ユニットと、
他の機器からネットワークを介して受信した入力映像情報を前記第1の映像処理ユニットの前記第1の入力映像情報として出力すると共に、前記第2の映像処理ユニットで圧縮符号化した前記映像情報を前記他の機器へ前記ネットワークを介して送信するネットワーク接続ユニットと
を備えることを特徴とする画像処理装置。
【請求項3】
請求項1または、請求項2の画像処理装置において、
入力音声情報の特徴検出を行い検出結果を出力する音声処理ユニットを備え、
前記変換処理ユニットは、前記音声処理ユニットの出力を前記第2の映像処理ユニットの前記制御入力情報に変換することを特徴とする画像処理装置。
【請求項4】
第1の入力映像情報を解析して映像情報に含まれる視線検出を行う視線検出ステップと、
前記第1の入力映像情報の解析結果により、制御情報を作成するステップと、
前記制御情報により、第2の入力映像情報の圧縮符号化を制御するステップと、
ネットワークを介して受信した入力映像情報を前記第1の入力映像情報として出力すると共に、圧縮符号化された前記第2の入力映像情報を前記ネットワークに送信するステップと
を有することを特徴とする画像処理方法。
【請求項5】
第1の入力映像情報を予め保持した映像情報と比較して映像情報に含まれる視線検出を行うステップと、
前記第1の入力映像情報の解析結果により、制御情報を作成するステップと、
前記制御情報により、第2の入力映像情報の圧縮符号化を制御するステップと、
ネットワークを介して受信した入力映像情報を前記第1の入力映像情報として出力すると共に、圧縮符号化された前記第2の入力映像情報を前記ネットワークに送信するステップと
を有することを特徴とする画像処理方法。
【請求項6】
入力音声情報を解析して音声情報に含まれる特徴検出を行うステップと、
前記入力音声情報の検出結果により、制御情報を作成するステップと
前記制御情報により、第2の入力映像情報の圧縮符号化を制御するステップと、
ネットワークを介して受信した音声情報を前記入力音声情報として出力すると共に、圧縮符号化された前記第2の映像情報を前記ネットワークに送信するステップと
を有することを特徴とする画像処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2013−46319(P2013−46319A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−184259(P2011−184259)
【出願日】平成23年8月26日(2011.8.26)
【出願人】(509189444)日立コンシューマエレクトロニクス株式会社 (998)
【Fターム(参考)】