情報処理システム、情報処理装置、及び情報処理方法
【課題】映像を表示する画面に対する操作から、制御対象の音声を特定し、制御することができる情報処理システム、情報処理装置、及び情報処理方法を提供すること。
【解決手段】情報処理システムは、複数のマイクロホンと、撮像装置と、音声を処理する音声処理装置と、音声処理装置に対して音声制御情報を出力する情報処理装置とを有し、情報処理装置は、映像を表示する表示部と、表示部の表示画面上の座標位置を入力する座標入力部と、座標入力部によって入力された座標位置付近に音声調整インタフェースを映像に重ねて表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、映像中の座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び音声調整インタフェースに対する座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する。
【解決手段】情報処理システムは、複数のマイクロホンと、撮像装置と、音声を処理する音声処理装置と、音声処理装置に対して音声制御情報を出力する情報処理装置とを有し、情報処理装置は、映像を表示する表示部と、表示部の表示画面上の座標位置を入力する座標入力部と、座標入力部によって入力された座標位置付近に音声調整インタフェースを映像に重ねて表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、映像中の座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び音声調整インタフェースに対する座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理装置、及び情報処理方法に関し、特に、音声制御することの出来る情報処理システム、情報処理装置、及び情報処理方法に関する。
【背景技術】
【0002】
近年、テレビ電話及びテレビ会議など、離れた拠点間をネットワークで結び、遠隔地にいる相手と映像及び音声を用いてコミュニケーションすることができるシステムが利用されるようになってきている。
【0003】
特に、複数人でこのようなシステムを利用する場合には、次のような問題が発生することがある。例えば、音声を取得するマイクからの距離、角度、及び個人の音声の大きさはそれぞれ異なるため、特定の音声について聞き取りづらい状況が発生することがある。また、例えば、プロジェクタなどの機器から発生するファン音などの動作音、及び、PC(Personal Computer)のタイプ音など人の動作に応じて発生する動作音などが、必要以上に大きく集音されてしまうこともある。従って、複数人でコミュニケーションするシステムにおいては、音声の制御が重要となる。
【0004】
そこで、様々な音源からの音声を、分離して取得することによって、分離取得された音声を個別に制御出来るようにする方法が提案されている。例えば、ピン・マイクロホンを個別に装着することによって、人毎に音声を取得することが出来る。また、例えば、特許文献1には、椅子に多数のマイクロホンを埋め込むことによって、ピン・マイクロホンを装着することなく、人毎に音声を分離取得することの出来る椅子が提案されている。また、例えば、特許文献2には、音声を分離取得し、着席位置に応じた放音を行う音声会議システムが提案されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007-336010号公報
【特許文献2】特開2008−17126号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、音源毎に音声を分離取得することが出来たとしても、音声の調整をする際にはどのマイクロホンでどの音源からの音声が取得されているのかを特定する必要があるが、この特定が困難であるという問題があった。
【0007】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、映像を表示する画面に対する操作から、制御対象の音声を特定し、制御することが可能な、新規かつ改良された情報処理装置及び情報処理方法を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明のある観点によれば、複数のマイクロホンと、映像を撮影する撮像装置と、上記複数のマイクロホンによって取得された音声を処理する音声処理装置と、上記映像及び上記音声処理装置において処理された音声を出力し、上記音声処理装置に対して音声制御情報を出力する情報処理装置と、を有し、上記情報処理装置は、映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する、情報処理システムが提供される。
【0009】
かかる構成によれば、複数のマイクロホンによって取得された音声は、音声処理装置において処理され、情報処理装置において出力される。情報処理装置は、表示部において映像を出力すると共に、音声出力部において、音声処理装置において処理された音声を出力する。さらに、情報処理装置は、音声処理装置に音声制御情報を出力することも出来る。このとき、情報処理装置は、ユーザが情報処理装置の表示部に表示された映像を見ながら、座標入力部を用いて音声を制御したい対象を入力すると、その座標位置に音声調整インタフェースを表示する。そして、情報処理装置は、対応情報を用いて座標位置から制御対象のマイクロホンを特定する。ユーザが音声調整インタフェースを操作したときに、情報処理装置は、その操作の情報及び特定したマイクロホンのマイク識別子に基づいて音声制御情報を作成して、音声処理装置に対して出力する。これにより、ユーザは、映像を見ながらの直感的な操作により、操作と制御したいマイクロホンとの対応を考えることなく、音声制御を実行することが出来るようになる。
【0010】
また、音源には予め識別のための音源識別子が付与されており、上記対応情報は、上記音源識別子及び上記マイク識別子の対応関係を収集して生成された情報であってもよい。
【0011】
また、上記複数のマイクロホンは、音声取得装置に内蔵されており、上記音声取得装置は、上記音源識別子を受信する受信器を有し、上記音声取得装置の表面には、音声取得装置を識別するための音声取得装置識別子が埋め込まれた認識コードが表示され、上記対応情報は、上記音声取得装置識別子、上記音源識別子、上記受信器に付与された受信器識別子、及び上記マイク識別子の対応関係を収集して生成された情報であり、上記制御部は、上記映像中の上記認識コードから上記音声取得装置識別子を読取り、読取られた音声取得装置識別子及び上記対応情報を用いて、上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定してもよい。
【0012】
また、上記音声取得装置は、机の形状をしており、上記受信器は、上記音声取得装置の側面に設置され、上記受信器は、人が身につけた、音源識別子発信器から上記音源識別子を受信してもよい。
【0013】
また、上記音声取得装置は、自らの発信器識別子を発信する発信器をさらに有し、上記発信器は、他の音声取得装置と組み合わせられた場合に、他の音声取得装置の受信器と対向するよう配置され、上記受信器は、上記音源識別子又は上記発信器識別子のいずれかを受信し、複数の上記音声取得装置の対応情報を取得し、上記複数の音声取得装置の配置を認識する対応情報作成装置をさらに有してもよい。
【0014】
また、上記音声処理装置は、上記マイクロホンから入力された音声にマイク識別子を付与するマイク識別子付与部と、上記音声に付与されたマイク識別子と、上記音声制御情報とに基づいて、上記音声を処理する音声ミキサと、を有してもよい。
【0015】
また、上記対応情報は、上記座標位置と上記音声取得部識別子との対応関係を予め記憶した情報であってもよい。
【0016】
また上記課題を解決するために、本発明の別の観点によれば、複数のマイクロホンによって取得された音声、及び映像を取得し、出力する情報処理装置であって、上記映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する情報処理装置が提供される。
【0017】
また上記課題を解決するために、本発明の別の観点によれば、映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、制御部と、を有する情報処理装置による方法であって、上記制御部が、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する、情報処理方法が提供される。
【発明の効果】
【0018】
以上説明したように本発明によれば、映像を表示する画面に対する操作から、制御対象の音声を特定し、制御することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。
【図2】本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。
【図3】本発明の第1の実施形態に係る情報処理システムの機能構成を示すブロック図である。
【図4】本発明の第1の実施形態に係る情報処理システムが、マイクロホンを特定するために用いるエリアについて説明するための説明図である。
【図5】マイク識別子とエリアとの対応関係から成る対応情報を示す表である。
【図6】本発明の一実施形態に係る情報処理システムにおける音声調整の動作を説明するフローチャートである。
【図7】本発明の第1の実施形態に係る情報処理システムの音声調整のマイク特定フローを示すサブフローチャートである。
【図8】本発明の第2の実施形態に係る情報処理システムの機能構成を示すブロック図である。
【図9】音声取得装置における対応情報の一例を示す説明図である。
【図10】音声取得装置を上部から見た概観図である。
【図11】音声取得装置を側面から見た概観図である。
【図12】音源識別子発信器と音声取得装置との通信について説明する説明図である。
【図13】バッチホルダの概観構成例について説明する説明図である。
【図14】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図15】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図16】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図17】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図18】対応情報作成装置において認識される音声取得装置の配置例を示す説明図である。
【図19】本発明の第2の実施形態に係る情報処理システムの音声制御について説明するための説明図である。
【図20】本発明の第2の実施形態に係る情報処理システムの音声調整のマイク特定フローを示すサブフローチャートである。
【発明を実施するための形態】
【0020】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0021】
(概要)
まず、本発明の一実施形態に係る情報処理システムの概要を図1及び図2を用いて説明する。図1は、本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。図2は、本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。
【0022】
図1は、本実施形態に係る情報処理システムにおいて、表示部115から入力操作を行うことによって、音声調整をする場面を示している。まず、表示部115は、例えばテレビ会議、テレビ電話などにおいて、相手方の映像を映し出している表示画面である。ここで表示画面は、上部にタッチパネルが積層され、座標入力装置としての機能を有するものとする。表示部115を見ているユーザが、参加者40の音声が聞き取りにくいと感じた場面を想定する。ユーザは、表示部115において参加者40を指差すようにタッチする。すると、情報処理装置100は、参加者40の音声を取得しているマイクロホンを特定し、特定したマイクロホンの音声調整をするための操作表示を、映像の上に重ねて表示する。操作表示は、ここではボリューム調整バー60としたがこれに限られない。例えば、音量、音色、バランス、エフェクトなど、音声に対して調整できるものであればよい。
【0023】
ここで、図2に示すように、ユーザが、操作表示60に対してボリュームを上げる操作をする。すると、情報処理装置100は、先ほど特定したマイクロホンに対して、ユーザ操作に従った制御を行う信号を生成し、出力する。
【0024】
上記のように、本実施形態に係る情報処理システムは、リアルタイムの映像を映し出した画面を見ながら、例えば、現在喋っている人を画面上で確認出来、その人を指差すという直感的な操作によって、映像内の音声を制御することが出来るものである。これにより、場の流れを遮ることなく、音声の調整を実行することが可能となる。また、どのマイクロホンによってどの人の音声を取得しているかを、音声調整するユーザは気にする必要がない。
【0025】
(第1の実施形態)
次に、上記の機能を実現するための、本発明の第1の実施形態に係る情報処理システム100の機能構成について図3〜図5を用いて説明する。図3は、本発明の第1の実施形態に係る情報処理システム100の機能構成を示すブロック図である。図4は、本発明の第1の実施形態に係る情報処理システムが、マイクロホンを特定するために用いるエリアについて説明するための説明図である。図5は、マイク識別子とエリアとの対応関係から成る対応情報を示す表である。
【0026】
(情報処理システム100の構成)
本実施形態に係る情報処理システム100は、情報処理装置110、音声処理装置120、マイクロホン130、及び撮像装置140を主に有する。情報処理装置110は、撮像装置140が撮像した映像を表示すると共に、マイクロホン130によって取得された音声を出力し、ユーザが音声調整操作を入力することの出来る端末装置である。情報処理装置110は、ユーザによって入力された操作情報から、操作対象のマイクロホンを特定し、そのマイクロホンに対する制御情報を生成して、音声処理装置120に入力する。音声処理装置120は、情報処理装置110から入力された制御情報に従って、マイクロホン130によって取得された音声に対する制御を実行する。なお、例えば、遠隔地AB間で双方向通信する際、遠隔地Aにいるユーザaと、遠隔地Bにいるユーザbとが、双方で音声調整操作を行う場合には、ユーザaが音声調整操作するための情報処理システム100aと、ユーザbが音声調整するための情報処理システム100bとが遠隔地ABそれぞれに備わってもよい。
【0027】
マイクロホン130は、音源から音声を取得する音声取得装置である。本実施形態においては、130a〜130fの6つのマイクロホンを用いて、6つのエリア毎に音声を取得する固定マイクロホンである。マイクロホン130は、例えば天井、壁、机などに固定されていてよい。マイクロホン130は、撮像装置140と同じ空間に配置される。即ち、マイクロホン130は、撮像装置140によって撮像される空間の音声を取得する。このとき、マイクロホン130は、所望の音声を特に分離して取得することのできる音源分離マイク、指向性マイクなどであってよい。
【0028】
撮像装置140は、映像を撮影するための装置である。撮像装置140は、映像を撮影し、ネットワークを介して情報処理装置110に入力する。
【0029】
(情報処理装置110)
情報処理装置110は、記憶部111、通信部112、座標入力部113、制御部114、表示部115、及び、音声出力部116を主に有する。
【0030】
記憶部111は、情報を記憶することのできる記憶装置である。例えばHDD(Hard Disk Drive)などの磁気記録媒体や、EEPROM(Electronically Erasable and Programmable Read Only Memory)、フラッシュメモリ、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリが挙げられるが、上記に限られない。
【0031】
記憶部111は、本実施形態においては、対応情報1000を記憶する。対応情報1000は、ユーザが操作する画面上の座標位置から、その位置の音声を取得するマイクロホンを特定するために用いられる情報である。例えば図5に示すマイク識別子1002とエリア名1004とを対応付けた情報であってよい。ここでエリアとは、ユーザが操作する画面を、それぞれのマイクロホンが音声を取得している範囲に区分したものである。エリアの一例は、図4に示す。このような対応情報1000は、予め記憶部111に記憶されている。
【0032】
通信部112は、有線又は無線の通信方式に対応した通信インタフェースである。本実施形態においては、通信部112は、撮像装置140からの映像を受信して制御部114に入力し、また、音声処理装置120から音声を受信し、制御部114に入力する。
【0033】
座標入力部113は、画面上の座標位置を入力する入力装置、又は、入力装置との接続インタフェースである。例えば、タッチパネル、マウス、トラックボール、ジョイスティックなどの入力装置、又は上記の入力装置との接続インタフェースである。本実施形態においては、座標入力部113は、表示部115の上に重ねられたタッチパネルであり、表示部115の表示画面上の座標位置をユーザの操作に応じて入力する。タッチパネルは、ユーザが画面上をタッチすると、その位置及び変化を読み取り、情報処理装置110に入力する。
【0034】
制御部114は、情報処理装置110全体の動きを制御する機能を有する。制御部114は、情報処理装置110における処理手順を記述したプログラムを読み込んで解釈し、実行することにより、情報処理装置110の各機能を実現する。制御部114は、座標入力部113からの入力に応じて、処理を実行してもよい。制御部114は、例えば、CPU(Central Processing Unit)などにより構成されてよい。
【0035】
表示部115は、映像を表示する機能を有するディスプレイ、又はディスプレイへの出力インタフェースである。例えば、ディスプレイの例としては、液晶ディスプレイ(LCD:Liquid Crystal Display)・プラズマディスプレイ(PDP:Plasma Display Panel)・電界放出ディスプレイ(FED:Field Emission Display)・有機エレクトロルミネッセンスディスプレイ(有機EL、OELD:Organic Electroluminescence Display)・ビデオプロジェクタなどが挙げられる。表示部115は、制御部114からの制御に従って、入力された画像を表示する機能を有する。
【0036】
音声出力部116は、音声を出力する機能を有する装置、又は音声を出力する機能を有する装置への出力インタフェースである。例えば、音声出力部116は、スピーカなどの出力装置、又はスピーカへの出力インタフェースである。音声出力部116は、制御部114からの制御に従って、入力された音声を出力する。
【0037】
(音声処理装置120)
音声処理装置120は、通信部121、マイク識別子付与部122、音声ミキサ123、多重化部124を主に有する。
【0038】
通信部121は、有線又は無線の通信方式に対応した通信インタフェースである。本実施形態においては、通信部121は、マイクロホン130及び情報処理装置110の通信部112と接続され、マイクロホン130が取得した音声を受信し、マイク識別子付与部に入力する。また、通信部121は、多重化部124から入力された音声を情報処理装置110に入力するインタフェースである。さらに、通信部121は、情報処理装置110から、音声に対する制御情報を受信し、マイク識別子付与部122に入力する。
【0039】
マイク識別子付与部122は、通信部121から入力された音声に対して、情報処理装置110から制御情報を受信した場合には、マイク識別子を付与して、音声ミキサ123へ入力する。ここでマイク識別子は、予め付与されたマイクロホン130それぞれに固有の番号である。マイク識別子付与部122は、通信部121から受信した制御情報も音声と合わせて音声ミキサ123へ入力する。一方、マイク識別子付与部122は、情報処理装置110から制御情報を受信していない場合には、音声に対して何の処理も実行せずに音声を音声ミキサに入力する。
【0040】
音声ミキサ123は、マイク識別子付与部122からマイク識別子が付与された音声、及び制御情報を受信すると、制御情報に従って特定されたマイク識別子に対応する音声を、マイク識別子付与部122において付与されたマイク識別子を用いて判別し、特定された音声に対して制御情報に従ってミキシング処理を行い、多重化部124に入力する。音声ミキサ123は、情報処理装置110からの制御情報を受信していない場合には、音声に対して何の処理も実行せずに、音声を多重化部に入力する。
【0041】
多重化部124は、音声ミキサ123においてミキシングされた音声について、音源位置及び音量を考慮した上で多重化し、通信部121に入力する。ここで多重化された音声は、通信部121を介してネットワークに送信される。
【0042】
(情報処理システム100の動作)
次に、図6及び図7を用いて、本実施形態に係る情報処理システム100の動作について説明する。図6は、本実施形態に係る情報処理システム100における音声調整の動作を説明するフローチャートである。図7は、本発明の第1の実施形態に係る情報処理システム100のマイク特定の手順を示すフローチャートである。ここで、図7は図6のステップS104のサブフローチャートである。
【0043】
まず、制御部114は、撮像装置において撮影された映像を通信部112を介して取得し、表示部115に表示させると共に、マイクロホン130において取得された音声を、音声処理装置120及び通信部112を介して取得し、音声出力部116に出力させている。そして、例えば、図4に示すように、参加者40が喋っている声が聞こえ難い場合に、ユーザが指50で画面上の参加者40付近を指差すようにタッチする。すると、情報処理装置110の制御部114は、上記タッチの結果、入力された座標位置X(x,y)を取得する(S102)。次に、情報処理装置110の制御部114は、入力された座標位置X(x,y)に対応するマイク識別子を特定する(S104)。
【0044】
次に、図6のステップS104のサブフローチャートである図7を参照しながら、マイク特定手順について説明する。まず、入力された座標位置X(x,y)から、制御部114は、対応するエリアを特定する(S202)。本実施形態においては、対応するエリアは、エリアBであることがわかる。このエリア特定ステップは、例えば、情報処理装置110内の記憶部に、座標位置とエリアとの対応情報を持っておくことによって実現することができる。
【0045】
そして、特定したエリアの音声を取得するマイクロホンを特定し、そのマイク識別子を取得する(S204)。本実施形態においては、エリアは、それぞれのマイクで音声を取得するエリアとして定義されているため、例えば図5のような対応情報1000を予め作成し、保持しておくことによって、これを用いて、マイク識別子を特定することができる。本実施形態においては、エリアBの音声を取得するマイクロホン130のマイク識別子は130bであることがわかる。
【0046】
次に、再び図6に戻って音声調整手順について説明を続ける。ステップS104において、調整対象のマイク識別子を取得すると、制御部114は、特定されたマイクロホンの音声調整機能をONにする(S106)。そして、制御部114は、入力された座標位置X(x,y)付近に音声調整インタフェースを表示する(S108)。
【0047】
そして、例えば図2に示されたように、ユーザが指50によって、音声調整インタフェース60に対して操作をすると、制御部114は、その操作情報を取得する(S110)。
【0048】
制御部114は、ステップS104において特定したマイク識別子、及び、ステップS110において取得したユーザの音声調整操作情報に基づいて、音声制御情報を生成し、出力する。出力された音声制御情報は、通信部112を介して音声処理装置120に出力される。
【0049】
そして、音声調整の完了が検知されると(S114)、音声調整インタフェースの表示をOFFにし、音声調整を終える。
【0050】
(まとめ)
このように、本実施形態に係る情報処理装置100は、映像を映した画面上の特定の位置の音声を取得しているマイクロホン130を、対応情報を用いることによって自動的に特定する。ユーザは、ただ音声の調整をしたい対象を指差して、音声調整操作をするだけで、従来あったどのマイクロホン130によって音声が取得されているかという対応付けを行う必要がなくなる。そのため、直感的な操作により、簡便に音声を調整することができるようになる。
【0051】
(第2の実施形態)
上記の第1の実施形態では、予め設定された対応情報によって、操作画面上の位置から、その位置の音声を取得するマイクロホンを特定することを実現したものである。しかし、このようなシステムは、予めマイクロホンと、画面上のエリアとの対応情報を設定しておく必要がある。そこで、本発明の第2の実施形態は、対応情報をユーザが予め設定することなく、操作対象のマイクロホンの特定をすることができるものである。尚、以下第2の実施形態の説明においては、第1の実施形態と同様である部分については説明を省略し、相違点について主に説明する。
【0052】
(情報処理システム200)
まず、図8を用いて本実施形態に係る情報処理システム200について説明する。図8は、本発明の第2の実施形態に係る情報処理システムの機能構成を示すブロック図である。
【0053】
情報処理システム200は、情報処理装置210、音声処理装置220、撮像装置240、複数の音声取得装置250、及び、対応情報作成装置260を主に有し、ネットワーク300によってそれぞれ接続されている。
【0054】
情報処理システム200は、ユーザが指定した音声を取得しているマイクロホンを特定するために、音声取得装置250及びバッチホルダ800を用いて生成した情報を対応情報作成装置260が収集して作成した、対応情報を用いる。
【0055】
情報処理装置210、音声処理装置220、及び撮像装置240については、第1の実施形態と同様であるため、説明を省略する。尚、情報処理装置210において記憶部を図示していないが、もちろん記憶部を有する構成であってもよい。情報処理装置210が、内部に対応情報を有しないことを図示したものである。情報処理装置210の音量調整時の動作については、後述する。
【0056】
(対応情報作成装置260)
対応情報作成装置260は、通信部261、制御部262、及び記憶部263を主に有する。本実施形態においては、対応情報を作成する機能に着目しているが、対応情報作成装置260は、対応情報を収集することによって、音声取得装置250及び参加者の空間配置を認識することが可能である。
【0057】
(音声取得装置250)
音声取得装置250は、音声を取得するためのマイクロホンが設置された装置である。本実施形態においては、音声取得装置250は、例えば図10及び図11に示した机の形状をしている。図8においては、音声取得装置250は、音声取得装置250aと音声取得装置250bとの2つを有するものとして記載しているが、これに限られない。複数組み合わせて用いることが可能である。
【0058】
音声取得装置250は、記憶部251、制御部252、通信部253、受信器254、発信器255、マイクロホン230を主に有する。尚、ここで受信器254及び発信器255については、複数有するため、それぞれを識別するために、例えば3つの受信器254は受信器2541〜2543の符号を振っている。以下、発信器についてまとめて説明をする際には、発信器255として表記する。受信器についても同様である。
【0059】
記憶部251は、情報を記憶することのできる記憶装置である。例えばHDD(Hard Disk Drive)などの磁気記録媒体や、EEPROM(Electronically Erasable and Programmable Read Only Memory)、フラッシュメモリ、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリが挙げられるが、上記に限られない。
【0060】
記憶部251は、本実施形態においては、例えば図9において示したような対応情報2000を記憶する。図9は、音声取得装置における対応情報の一例を示す説明図である。対応情報2000は、それぞれの音声取得装置250が有する、音声取得装置識別子2002、マイク識別子2004、発信器識別子2006、受信器識別子2008の対応関係を予め記憶したものであり、それぞれの受信器254が、識別情報を受信したときには、受信した識別情報が受信情報2010に格納される。
【0061】
制御部252は、音声取得装置250全体の動作を制御する。例えば、受信器254において、識別情報が受信された場合には、制御部252は、受信した識別情報を記憶部251の対応情報200の、受信器識別子に対応する受信情報2010に記憶すると共に、対応情報2000を通信部253を介して対応情報作成装置260に送信する。制御部252は、例えばCPUなどにより構成されてよい。
【0062】
通信部253は、音声取得装置250がネットワークと接続するための通信インタフェースである。通信部253は、有線のネットワークに接続するためのものであってもよいし、無線のネットワークに接続するためのものであってもよい。通信部253は、制御部252の制御に従って各種データの送受信を行う。
【0063】
受信器254は、制御部252の制御に従って、他の音声取得装置250に設置された発信器255又は音源識別子を発信する音源識別子発信器801と通信し、発信器識別子又は音源識別子を受信する機能を有する。受信器254は、例えば赤外線を用いて通信を行う赤外線受信器であってよい。受信器254の物理的な設置については、後述する。
【0064】
発信器255は、制御部252の制御に従って、発信器識別子を対向する受信器に向かって発信する。発信器255は、例えば赤外線を用いて通信を行う赤外線発信器であってよい。発信器255の通信方式は、受信器254の通信方式と互換性があることを前提とする。
【0065】
マイクロホン230は、音声を取得するための装置である。マイクロホン230は、音声取得装置に設置されている。例えば、マイクロホン230は、音声取得装置250に内蔵されていてもよいし、例えば、音声取得装置250の側面又は上面などに設置されてもよい。マイクロホン230は、机の形状をした音声取得装置250のうち、参加者が座る位置に対応して設置されることが望ましい。
【0066】
(物理構成)
次に、音声取得装置250の物理的な構成について図10及び図11を用いて説明する。図10は、音声取得装置250a、及び、音声取得装置250bを上部から見た概観図である。図11は、音声取得装置250a、及び、音声取得装置250bを側面から見た概観図である。
【0067】
本実施形態において、音声取得装置250は、机の形状をしている。そして、受信器254及び発信器255が一対となって同じ側面に配置されている。尚、受信器254及び発信器255は、図においては、突出形状で示しているが、実際には、机間の隙間をなくすため、例えば、音声取得装置250の参加者に対向する側面に凹状に設けているものとする。受信器254及び発信器255は、本実施形態においては、音声取得装置250当たり、それぞれ3つずつ設置される。なお、情報上の対応関係を示す対応情報(図9)と同様に、マイク230のマイクの向きと机の向きとの物理的な構成(構成上の対応関係)についても関連付く。例えば、図10に示すように、マイク230aのマイクの向きは発信器2551aが備わる側面と対向する向きになっている。つまり、マイク230aは発信器2551aが備わる側に存在する参加者等の音声を主に取得する。
【0068】
図10に示すように、受信器254と発信器255とは、音声取得装置250の各辺が接した際に、一方の音声取得装置250の受信器254と他方の音声取得装置250の発信器255とが対向するように配置されている。例えば、図9においては、机の天板の一番長い辺を合わせたときに、受信器2543aと発信器2553b、発信器2553aと受信器2543bが対向し、通信可能となる。
【0069】
また、図10に点線で示したように、音声取得装置250は、マイクロホン230を内蔵する。マイクロホン230は、受信器254の数に対応して設けられる。本実施形態においては、マイクロホン230は、音声取得装置250当たり3つ設置される。マイクロホン230は、受信器254及び発信器255と対応付けられている。
【0070】
音声取得装置250の天板の表面には、認識コード700が模様として埋め込まれている。認識コード700は、音声取得装置250毎の音声取得装置識別子を示すものである。全体に繰り返し埋め込まれているため、この認識コード700を解読することによって、認識コードを映した映像から、ユーザが指示した地点の最寄の音声取得装置250がどの音声取得装置であるかを識別することが可能となる。なお、本実施形態に係る認識コード700は音声取得装置識別子を示す場合を例に挙げて説明するが、かかる例に限定されず、例えば、認識コード700は複数台のマイク230を一組としたマイクセットを識別する識別子の場合でも良い。例えば、図10に示すように、マイク230a〜cを一組としたマイクセットを例示できる。かかる場合、音声取得装置250に複数台のマイクセットを備えることができる。なお、この場合、例えば、音声取得装置250の表面のうち、第1のマイクセットの備わる周辺部には認識コード700aが表示され、第2のマイクセットの備わる周辺部には認識コード700bが表示される。
【0071】
ここで、認識コード700は、音声取得装置250の識別子を記憶可能なコードであり、その画像から情報を読み取ることができる。例えば、図示したQRコード(登録商標)、その他の2次元コード、及び1次元コードであるバーコードであってもよい。
【0072】
次に、図12、及び図13を用いて、音声取得装置250の受信部254が音源識別子を受信するときの様子について説明する。図12は、音源識別子発信器と音声取得装置との通信について説明する説明図である。図13は、バッチホルダの概観構成例について説明する説明図である。
【0073】
図12に示すように、音声取得装置250に対して参加者10が着席した場合を考える。音声取得装置250の、参加者10が着席した側の側面に、受信器2542が設置されている。このとき、参加者10は、バッチホルダ800を身に着けており、バッチホルダ800が有する音源識別子発信器801が、音源識別子を、音声取得装置250の受信器2542に発信する。図12に示すように、参加者10が着席した際に、バッチホルダ800と受信器2542とが対向する位置にくるよう、音声取得装置250は設計されることが望ましい。
【0074】
ここで、バッチホルダ800の構成について、図13を用いて説明する。バッチホルダ800は、例えば参加者10が自身を示すためのバッチ等を身に着けるためのものである。例えば、バッチホルダ800に、音源識別子を発信するための音源識別子発信器801が取り付けられている。音源識別子は、音源を識別するための符号であり、例えば社員番号のように、個人に割り当てられた識別番号であってもよい。
【0075】
以上、説明してきた通り、本実施形態に係る情報処理システム200は、机の形状をした音声取得装置250を組み合わせた際に、それぞれ側面に設けられた受信器254及び発信器255間において、発信器識別子を送受信することによって、どの受信器がどの発信器と対向しているかを、把握することができるようになる。また、対応情報作成装置260が、予めそれぞれの音声取得装置250の形状などのデータを保持していると、どのような配置で音声取得装置250が配置されているのか、仮想空間に再現することが可能である。
【0076】
また、例えば参加者10に音源識別子をそれぞれ付与し、参加者が着席した箇所の受信器254が音源識別子を受信することができるように、参加者が身につけるバッチホルダ800などに音源識別子発信器801を設けることにより、音声取得装置250及び、音声取得装置250から対応情報を受信した、対応情報作成装置260は、各音声取得装置250のどの位置にどの参加者が着席しているかを把握することができるようになる。
【0077】
(動作例)
ここで、以上のような情報処理システム200を用いた動作例について説明をする。例えば、音声取得装置250を4つ組み合わせた例について説明をする。4つの音声取得装置250を組み合わせると、対向する受信器254と発信器255との間で、発信器識別子の送受信が行われる。そして、受信器254は、発信器識別子を受信すると、制御部252の制御に応じて、受信した発信器識別子を記憶部251の対応情報の受信情報に記憶する。
【0078】
また、そのように組み合わせられた音声取得装置250に、参加者が着席した場合を考える。ここでは、4名の参加者が着席するものとする。参加者が着席すると、参加者の保有するバッチホルダの音源識別子発信器から、音声取得装置250の受信器254に音源識別子が送信される。受信された音源識別子は、制御部252の制御に応じて、記憶部251の対応情報の受信情報に記憶される。
【0079】
このようにして、収集された対応情報を図14〜図17にそれぞれ示す。図14〜図17は、音声取得装置250において取得された、対応情報を示す説明図である。
【0080】
図14は、音声取得装置250aについてのものである。音声取得装置識別子2102、マイク識別子2104、発信器識別子2106、受信器識別子2108が予め記憶されており、受信情報2110に、それぞれ対応する受信器254が受信した情報が格納されている。
【0081】
以下、それぞれ、図15は250b、図16は250c、図17は250dについての対応情報を示す。このように収集された対応情報は、対応情報作成装置260へ送信される。
【0082】
それぞれの音声取得装置250において収集された対応情報が、対応情報作成装置260において受信されると、対応情報作成装置260は、予め保持している、机の形状、構成、及び参加者に割り当てられた音源識別子の情報を用いて、音声取得装置250の配置状況、及び、参加者の着席状況を把握することが可能である。即ち、どの音源の音声をどのマイクロホンによって取得しているかを把握することが可能である。
【0083】
即ち、対応情報作成装置260は、図14〜図17の対応情報を用いて、図18のような配置で音声取得装置が配置されていること、参加者が着席している位置、及び、参加者が着席している位置に対応するマイクロホンを把握することも可能である。図18は、対応情報作成装置260において認識される音声取得装置の配置例を示す説明図である。
【0084】
このような状況において、撮像装置240が撮影した映像を見ながら、情報処理装置210の表示画面上から音声制御をする際の動作について、図19及び図20を用いて説明する。図19は、本発明の第2の実施形態に係る情報処理システムの音声制御について説明するための説明図である。図20は、本発明の第2の実施形態に係る情報処理システム200の音声調整のマイク特定フローを示すサブフローチャートである。
【0085】
音声調整の全体の流れについては、図6において説明した内容と同様であるため、説明を省略する。マイク特定フローについてのみ相違するため、図6のステップS104のサブフローチャートである図20に示したマイク特定フローについて説明する。前提として、情報処理装置210は、音声取得装置250の配置が行われたとき、又は、参加者が着席したときなどの、対応情報が更新されたときに、対応情報作成装置260から対応情報を取得しているものとする。
【0086】
図19において、ユーザは、音声を調整したい対象を画面上において指差すようにタッチする。ここでは、参加者40の音声を調整する場合について考える。参加者40を指差すようにタッチすると、指差した座標位置が取得される。そして、情報処理装置210の制御部214は、座標位置入力時の画像を取得する(S302)。そして、制御部214は、取得された画像から、座標位置に最も近い認識コードを検索する(S304)。
【0087】
次に、対応情報から認識コードに対応する机を特定する(S306)。具体的には、ステップS304において検索された認識コード700を読取ると、各机に付与された音声取得装置識別子「250d」を取得することが出来る。そして、特定された机の対応情報の中から、音源識別子を受信した受信器を特定する(S308)。図17を参照すると、音声取得装置250dの中で、音源識別子を受信しているのは、受信器2542dであることがわかる。
【0088】
そして、この特定された受信器2542dに対応するマイクロホンを特定する(S310)。ここでは、図17を参照すると、対応するマイク識別子は230kであることがわかる。
【0089】
このようにして、操作画面上の位置から、音声調整対象のマイクロホンを特定し、確実に所望のマイクロホンの調整を実行することが可能である。
【0090】
このとき、例えば、特定された机(または、複数台のマイク230からなるマイクセット)に2名以上の参加者が座っている場合には、制御部214は、双方の調整インタフェースを表示させるようにしてもよい。
【0091】
(効果の例)
以上説明したように、本発明の第2の実施形態に係る情報処理システムによると、予めユーザが対応情報を設定することなく、自動的に対応情報を収集し、マイクロホンの特定をすることが出来る。そして特定されたマイクロホンに対して、映像を見ながら音声の調整を実行することが出来るようになる。
【0092】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されないことは言うまでもない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても当然に本発明の技術的範囲に属するものと了解される。
【0093】
例えば、上記第1の実施形態では、固定マイクを用いたが、かかる例に限定されない。例えば、ピンマイクを用いてもよく、その場合には、参加者の着席位置に応じてピンマイクの位置が決まるため、そのエリア情報と予め対応づけておく必要がある。
【0094】
また、例えば、本実施形態においては、表示部の上にタッチパネル式の座標入力部を積層した表示入力部を有する構成としたが、これに限られない。例えば、表示部は、スクリーンに映しだすプロジェクタに接続するインタフェースであってもよい。この場合、例えばマウスなどの入力装置を用いてもよい。
【0095】
また、例えば、上記第2の実施形態においては、音声取得装置は、二等辺三角形形状の机であることとしたが、この形状は限定されない。受信器、送信器、及びマイクロホンが一対となり、机の参加者が座る位置に配置されるものであればよい。
【0096】
また、例えば、上記第2の実施形態においては、音源識別子は、参加者が身につけるバッチホルダから発信されるものとしたが、かかる例に限られない。例えば、プロジェクタなどの音源となりうる装置にそれぞれ音源識別子が付与され、装置に音源識別子発信器を設けてもよい。その場合、音声取得装置の受信器の配置、又は、通信方式を工夫する必要がある。例えば、プロジェクタのファンの音がうるさい場合に、かかる音量を下げるために用いることが出来る。
【0097】
また、例えば、上記第2の実施形態においては、受信器及び発信器は、赤外線を用いたものとしたがこれに限られない。例えば、音波を用いたドップラーセンサ、ZigBee(登録商標)ノード等を用いて信号の送受信を行ってもよい。
【0098】
また、例えば、上記第2の実施形態においては、認識コードは、音声取得装置の上面にのみ埋め込まれているものとしたが、これに限られない。例えば、側面や、机の脚など、表面全体に埋め込まれているものであってもよい。
【0099】
また、例えば、上記第2の実施形態においては、情報処理装置は、対応情報に更新がある度に、対応情報を、対応情報作成装置から取得しているものとしたが、これに限られない。例えば、マイク特定処理を行う前に対応情報を取得してもよい。
【0100】
また、上記第2の実施形態においては、認識コード700は、音声取得装置識別子を示す場合を例に挙げて説明するが、かかる例に限定されない。例えば、認識コード700は複数台のマイク230を一組としたマイクセットを識別する識別子の場合でも良い。例えば、図10に示すように、マイク230a〜cを一組としたマイクセットを例示できる。かかる場合、音声取得装置250に複数台のマイクセットを備えることができる。なお、この場合、例えば、音声取得装置250の表面のうち、第1のマイクセットの備わる周辺部には認識コード700aが表示され、第2のマイクセットの備わる周辺部には認識コード700bが表示される。また、認識コード700は、マイクロホン1台1台のそれぞれを識別するものであってもよい。この場合には、認識コードから音声取得装置を識別し、マイクロホンと紐付けることなく、認識コードから直接マイクロホンを特定することが出来る。
【0101】
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
【符号の説明】
【0102】
110 情報処理装置
113 座標入力部
114 制御部
115 表示部
116 音声出力部
120 音声処理装置
130 マイクロホン
140 撮像装置
【技術分野】
【0001】
本発明は、情報処理システム、情報処理装置、及び情報処理方法に関し、特に、音声制御することの出来る情報処理システム、情報処理装置、及び情報処理方法に関する。
【背景技術】
【0002】
近年、テレビ電話及びテレビ会議など、離れた拠点間をネットワークで結び、遠隔地にいる相手と映像及び音声を用いてコミュニケーションすることができるシステムが利用されるようになってきている。
【0003】
特に、複数人でこのようなシステムを利用する場合には、次のような問題が発生することがある。例えば、音声を取得するマイクからの距離、角度、及び個人の音声の大きさはそれぞれ異なるため、特定の音声について聞き取りづらい状況が発生することがある。また、例えば、プロジェクタなどの機器から発生するファン音などの動作音、及び、PC(Personal Computer)のタイプ音など人の動作に応じて発生する動作音などが、必要以上に大きく集音されてしまうこともある。従って、複数人でコミュニケーションするシステムにおいては、音声の制御が重要となる。
【0004】
そこで、様々な音源からの音声を、分離して取得することによって、分離取得された音声を個別に制御出来るようにする方法が提案されている。例えば、ピン・マイクロホンを個別に装着することによって、人毎に音声を取得することが出来る。また、例えば、特許文献1には、椅子に多数のマイクロホンを埋め込むことによって、ピン・マイクロホンを装着することなく、人毎に音声を分離取得することの出来る椅子が提案されている。また、例えば、特許文献2には、音声を分離取得し、着席位置に応じた放音を行う音声会議システムが提案されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007-336010号公報
【特許文献2】特開2008−17126号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、音源毎に音声を分離取得することが出来たとしても、音声の調整をする際にはどのマイクロホンでどの音源からの音声が取得されているのかを特定する必要があるが、この特定が困難であるという問題があった。
【0007】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、映像を表示する画面に対する操作から、制御対象の音声を特定し、制御することが可能な、新規かつ改良された情報処理装置及び情報処理方法を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明のある観点によれば、複数のマイクロホンと、映像を撮影する撮像装置と、上記複数のマイクロホンによって取得された音声を処理する音声処理装置と、上記映像及び上記音声処理装置において処理された音声を出力し、上記音声処理装置に対して音声制御情報を出力する情報処理装置と、を有し、上記情報処理装置は、映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する、情報処理システムが提供される。
【0009】
かかる構成によれば、複数のマイクロホンによって取得された音声は、音声処理装置において処理され、情報処理装置において出力される。情報処理装置は、表示部において映像を出力すると共に、音声出力部において、音声処理装置において処理された音声を出力する。さらに、情報処理装置は、音声処理装置に音声制御情報を出力することも出来る。このとき、情報処理装置は、ユーザが情報処理装置の表示部に表示された映像を見ながら、座標入力部を用いて音声を制御したい対象を入力すると、その座標位置に音声調整インタフェースを表示する。そして、情報処理装置は、対応情報を用いて座標位置から制御対象のマイクロホンを特定する。ユーザが音声調整インタフェースを操作したときに、情報処理装置は、その操作の情報及び特定したマイクロホンのマイク識別子に基づいて音声制御情報を作成して、音声処理装置に対して出力する。これにより、ユーザは、映像を見ながらの直感的な操作により、操作と制御したいマイクロホンとの対応を考えることなく、音声制御を実行することが出来るようになる。
【0010】
また、音源には予め識別のための音源識別子が付与されており、上記対応情報は、上記音源識別子及び上記マイク識別子の対応関係を収集して生成された情報であってもよい。
【0011】
また、上記複数のマイクロホンは、音声取得装置に内蔵されており、上記音声取得装置は、上記音源識別子を受信する受信器を有し、上記音声取得装置の表面には、音声取得装置を識別するための音声取得装置識別子が埋め込まれた認識コードが表示され、上記対応情報は、上記音声取得装置識別子、上記音源識別子、上記受信器に付与された受信器識別子、及び上記マイク識別子の対応関係を収集して生成された情報であり、上記制御部は、上記映像中の上記認識コードから上記音声取得装置識別子を読取り、読取られた音声取得装置識別子及び上記対応情報を用いて、上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定してもよい。
【0012】
また、上記音声取得装置は、机の形状をしており、上記受信器は、上記音声取得装置の側面に設置され、上記受信器は、人が身につけた、音源識別子発信器から上記音源識別子を受信してもよい。
【0013】
また、上記音声取得装置は、自らの発信器識別子を発信する発信器をさらに有し、上記発信器は、他の音声取得装置と組み合わせられた場合に、他の音声取得装置の受信器と対向するよう配置され、上記受信器は、上記音源識別子又は上記発信器識別子のいずれかを受信し、複数の上記音声取得装置の対応情報を取得し、上記複数の音声取得装置の配置を認識する対応情報作成装置をさらに有してもよい。
【0014】
また、上記音声処理装置は、上記マイクロホンから入力された音声にマイク識別子を付与するマイク識別子付与部と、上記音声に付与されたマイク識別子と、上記音声制御情報とに基づいて、上記音声を処理する音声ミキサと、を有してもよい。
【0015】
また、上記対応情報は、上記座標位置と上記音声取得部識別子との対応関係を予め記憶した情報であってもよい。
【0016】
また上記課題を解決するために、本発明の別の観点によれば、複数のマイクロホンによって取得された音声、及び映像を取得し、出力する情報処理装置であって、上記映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する情報処理装置が提供される。
【0017】
また上記課題を解決するために、本発明の別の観点によれば、映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、制御部と、を有する情報処理装置による方法であって、上記制御部が、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する、情報処理方法が提供される。
【発明の効果】
【0018】
以上説明したように本発明によれば、映像を表示する画面に対する操作から、制御対象の音声を特定し、制御することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。
【図2】本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。
【図3】本発明の第1の実施形態に係る情報処理システムの機能構成を示すブロック図である。
【図4】本発明の第1の実施形態に係る情報処理システムが、マイクロホンを特定するために用いるエリアについて説明するための説明図である。
【図5】マイク識別子とエリアとの対応関係から成る対応情報を示す表である。
【図6】本発明の一実施形態に係る情報処理システムにおける音声調整の動作を説明するフローチャートである。
【図7】本発明の第1の実施形態に係る情報処理システムの音声調整のマイク特定フローを示すサブフローチャートである。
【図8】本発明の第2の実施形態に係る情報処理システムの機能構成を示すブロック図である。
【図9】音声取得装置における対応情報の一例を示す説明図である。
【図10】音声取得装置を上部から見た概観図である。
【図11】音声取得装置を側面から見た概観図である。
【図12】音源識別子発信器と音声取得装置との通信について説明する説明図である。
【図13】バッチホルダの概観構成例について説明する説明図である。
【図14】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図15】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図16】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図17】音声取得装置において取得された、対応情報の一例を示す説明図である。
【図18】対応情報作成装置において認識される音声取得装置の配置例を示す説明図である。
【図19】本発明の第2の実施形態に係る情報処理システムの音声制御について説明するための説明図である。
【図20】本発明の第2の実施形態に係る情報処理システムの音声調整のマイク特定フローを示すサブフローチャートである。
【発明を実施するための形態】
【0020】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0021】
(概要)
まず、本発明の一実施形態に係る情報処理システムの概要を図1及び図2を用いて説明する。図1は、本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。図2は、本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。
【0022】
図1は、本実施形態に係る情報処理システムにおいて、表示部115から入力操作を行うことによって、音声調整をする場面を示している。まず、表示部115は、例えばテレビ会議、テレビ電話などにおいて、相手方の映像を映し出している表示画面である。ここで表示画面は、上部にタッチパネルが積層され、座標入力装置としての機能を有するものとする。表示部115を見ているユーザが、参加者40の音声が聞き取りにくいと感じた場面を想定する。ユーザは、表示部115において参加者40を指差すようにタッチする。すると、情報処理装置100は、参加者40の音声を取得しているマイクロホンを特定し、特定したマイクロホンの音声調整をするための操作表示を、映像の上に重ねて表示する。操作表示は、ここではボリューム調整バー60としたがこれに限られない。例えば、音量、音色、バランス、エフェクトなど、音声に対して調整できるものであればよい。
【0023】
ここで、図2に示すように、ユーザが、操作表示60に対してボリュームを上げる操作をする。すると、情報処理装置100は、先ほど特定したマイクロホンに対して、ユーザ操作に従った制御を行う信号を生成し、出力する。
【0024】
上記のように、本実施形態に係る情報処理システムは、リアルタイムの映像を映し出した画面を見ながら、例えば、現在喋っている人を画面上で確認出来、その人を指差すという直感的な操作によって、映像内の音声を制御することが出来るものである。これにより、場の流れを遮ることなく、音声の調整を実行することが可能となる。また、どのマイクロホンによってどの人の音声を取得しているかを、音声調整するユーザは気にする必要がない。
【0025】
(第1の実施形態)
次に、上記の機能を実現するための、本発明の第1の実施形態に係る情報処理システム100の機能構成について図3〜図5を用いて説明する。図3は、本発明の第1の実施形態に係る情報処理システム100の機能構成を示すブロック図である。図4は、本発明の第1の実施形態に係る情報処理システムが、マイクロホンを特定するために用いるエリアについて説明するための説明図である。図5は、マイク識別子とエリアとの対応関係から成る対応情報を示す表である。
【0026】
(情報処理システム100の構成)
本実施形態に係る情報処理システム100は、情報処理装置110、音声処理装置120、マイクロホン130、及び撮像装置140を主に有する。情報処理装置110は、撮像装置140が撮像した映像を表示すると共に、マイクロホン130によって取得された音声を出力し、ユーザが音声調整操作を入力することの出来る端末装置である。情報処理装置110は、ユーザによって入力された操作情報から、操作対象のマイクロホンを特定し、そのマイクロホンに対する制御情報を生成して、音声処理装置120に入力する。音声処理装置120は、情報処理装置110から入力された制御情報に従って、マイクロホン130によって取得された音声に対する制御を実行する。なお、例えば、遠隔地AB間で双方向通信する際、遠隔地Aにいるユーザaと、遠隔地Bにいるユーザbとが、双方で音声調整操作を行う場合には、ユーザaが音声調整操作するための情報処理システム100aと、ユーザbが音声調整するための情報処理システム100bとが遠隔地ABそれぞれに備わってもよい。
【0027】
マイクロホン130は、音源から音声を取得する音声取得装置である。本実施形態においては、130a〜130fの6つのマイクロホンを用いて、6つのエリア毎に音声を取得する固定マイクロホンである。マイクロホン130は、例えば天井、壁、机などに固定されていてよい。マイクロホン130は、撮像装置140と同じ空間に配置される。即ち、マイクロホン130は、撮像装置140によって撮像される空間の音声を取得する。このとき、マイクロホン130は、所望の音声を特に分離して取得することのできる音源分離マイク、指向性マイクなどであってよい。
【0028】
撮像装置140は、映像を撮影するための装置である。撮像装置140は、映像を撮影し、ネットワークを介して情報処理装置110に入力する。
【0029】
(情報処理装置110)
情報処理装置110は、記憶部111、通信部112、座標入力部113、制御部114、表示部115、及び、音声出力部116を主に有する。
【0030】
記憶部111は、情報を記憶することのできる記憶装置である。例えばHDD(Hard Disk Drive)などの磁気記録媒体や、EEPROM(Electronically Erasable and Programmable Read Only Memory)、フラッシュメモリ、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリが挙げられるが、上記に限られない。
【0031】
記憶部111は、本実施形態においては、対応情報1000を記憶する。対応情報1000は、ユーザが操作する画面上の座標位置から、その位置の音声を取得するマイクロホンを特定するために用いられる情報である。例えば図5に示すマイク識別子1002とエリア名1004とを対応付けた情報であってよい。ここでエリアとは、ユーザが操作する画面を、それぞれのマイクロホンが音声を取得している範囲に区分したものである。エリアの一例は、図4に示す。このような対応情報1000は、予め記憶部111に記憶されている。
【0032】
通信部112は、有線又は無線の通信方式に対応した通信インタフェースである。本実施形態においては、通信部112は、撮像装置140からの映像を受信して制御部114に入力し、また、音声処理装置120から音声を受信し、制御部114に入力する。
【0033】
座標入力部113は、画面上の座標位置を入力する入力装置、又は、入力装置との接続インタフェースである。例えば、タッチパネル、マウス、トラックボール、ジョイスティックなどの入力装置、又は上記の入力装置との接続インタフェースである。本実施形態においては、座標入力部113は、表示部115の上に重ねられたタッチパネルであり、表示部115の表示画面上の座標位置をユーザの操作に応じて入力する。タッチパネルは、ユーザが画面上をタッチすると、その位置及び変化を読み取り、情報処理装置110に入力する。
【0034】
制御部114は、情報処理装置110全体の動きを制御する機能を有する。制御部114は、情報処理装置110における処理手順を記述したプログラムを読み込んで解釈し、実行することにより、情報処理装置110の各機能を実現する。制御部114は、座標入力部113からの入力に応じて、処理を実行してもよい。制御部114は、例えば、CPU(Central Processing Unit)などにより構成されてよい。
【0035】
表示部115は、映像を表示する機能を有するディスプレイ、又はディスプレイへの出力インタフェースである。例えば、ディスプレイの例としては、液晶ディスプレイ(LCD:Liquid Crystal Display)・プラズマディスプレイ(PDP:Plasma Display Panel)・電界放出ディスプレイ(FED:Field Emission Display)・有機エレクトロルミネッセンスディスプレイ(有機EL、OELD:Organic Electroluminescence Display)・ビデオプロジェクタなどが挙げられる。表示部115は、制御部114からの制御に従って、入力された画像を表示する機能を有する。
【0036】
音声出力部116は、音声を出力する機能を有する装置、又は音声を出力する機能を有する装置への出力インタフェースである。例えば、音声出力部116は、スピーカなどの出力装置、又はスピーカへの出力インタフェースである。音声出力部116は、制御部114からの制御に従って、入力された音声を出力する。
【0037】
(音声処理装置120)
音声処理装置120は、通信部121、マイク識別子付与部122、音声ミキサ123、多重化部124を主に有する。
【0038】
通信部121は、有線又は無線の通信方式に対応した通信インタフェースである。本実施形態においては、通信部121は、マイクロホン130及び情報処理装置110の通信部112と接続され、マイクロホン130が取得した音声を受信し、マイク識別子付与部に入力する。また、通信部121は、多重化部124から入力された音声を情報処理装置110に入力するインタフェースである。さらに、通信部121は、情報処理装置110から、音声に対する制御情報を受信し、マイク識別子付与部122に入力する。
【0039】
マイク識別子付与部122は、通信部121から入力された音声に対して、情報処理装置110から制御情報を受信した場合には、マイク識別子を付与して、音声ミキサ123へ入力する。ここでマイク識別子は、予め付与されたマイクロホン130それぞれに固有の番号である。マイク識別子付与部122は、通信部121から受信した制御情報も音声と合わせて音声ミキサ123へ入力する。一方、マイク識別子付与部122は、情報処理装置110から制御情報を受信していない場合には、音声に対して何の処理も実行せずに音声を音声ミキサに入力する。
【0040】
音声ミキサ123は、マイク識別子付与部122からマイク識別子が付与された音声、及び制御情報を受信すると、制御情報に従って特定されたマイク識別子に対応する音声を、マイク識別子付与部122において付与されたマイク識別子を用いて判別し、特定された音声に対して制御情報に従ってミキシング処理を行い、多重化部124に入力する。音声ミキサ123は、情報処理装置110からの制御情報を受信していない場合には、音声に対して何の処理も実行せずに、音声を多重化部に入力する。
【0041】
多重化部124は、音声ミキサ123においてミキシングされた音声について、音源位置及び音量を考慮した上で多重化し、通信部121に入力する。ここで多重化された音声は、通信部121を介してネットワークに送信される。
【0042】
(情報処理システム100の動作)
次に、図6及び図7を用いて、本実施形態に係る情報処理システム100の動作について説明する。図6は、本実施形態に係る情報処理システム100における音声調整の動作を説明するフローチャートである。図7は、本発明の第1の実施形態に係る情報処理システム100のマイク特定の手順を示すフローチャートである。ここで、図7は図6のステップS104のサブフローチャートである。
【0043】
まず、制御部114は、撮像装置において撮影された映像を通信部112を介して取得し、表示部115に表示させると共に、マイクロホン130において取得された音声を、音声処理装置120及び通信部112を介して取得し、音声出力部116に出力させている。そして、例えば、図4に示すように、参加者40が喋っている声が聞こえ難い場合に、ユーザが指50で画面上の参加者40付近を指差すようにタッチする。すると、情報処理装置110の制御部114は、上記タッチの結果、入力された座標位置X(x,y)を取得する(S102)。次に、情報処理装置110の制御部114は、入力された座標位置X(x,y)に対応するマイク識別子を特定する(S104)。
【0044】
次に、図6のステップS104のサブフローチャートである図7を参照しながら、マイク特定手順について説明する。まず、入力された座標位置X(x,y)から、制御部114は、対応するエリアを特定する(S202)。本実施形態においては、対応するエリアは、エリアBであることがわかる。このエリア特定ステップは、例えば、情報処理装置110内の記憶部に、座標位置とエリアとの対応情報を持っておくことによって実現することができる。
【0045】
そして、特定したエリアの音声を取得するマイクロホンを特定し、そのマイク識別子を取得する(S204)。本実施形態においては、エリアは、それぞれのマイクで音声を取得するエリアとして定義されているため、例えば図5のような対応情報1000を予め作成し、保持しておくことによって、これを用いて、マイク識別子を特定することができる。本実施形態においては、エリアBの音声を取得するマイクロホン130のマイク識別子は130bであることがわかる。
【0046】
次に、再び図6に戻って音声調整手順について説明を続ける。ステップS104において、調整対象のマイク識別子を取得すると、制御部114は、特定されたマイクロホンの音声調整機能をONにする(S106)。そして、制御部114は、入力された座標位置X(x,y)付近に音声調整インタフェースを表示する(S108)。
【0047】
そして、例えば図2に示されたように、ユーザが指50によって、音声調整インタフェース60に対して操作をすると、制御部114は、その操作情報を取得する(S110)。
【0048】
制御部114は、ステップS104において特定したマイク識別子、及び、ステップS110において取得したユーザの音声調整操作情報に基づいて、音声制御情報を生成し、出力する。出力された音声制御情報は、通信部112を介して音声処理装置120に出力される。
【0049】
そして、音声調整の完了が検知されると(S114)、音声調整インタフェースの表示をOFFにし、音声調整を終える。
【0050】
(まとめ)
このように、本実施形態に係る情報処理装置100は、映像を映した画面上の特定の位置の音声を取得しているマイクロホン130を、対応情報を用いることによって自動的に特定する。ユーザは、ただ音声の調整をしたい対象を指差して、音声調整操作をするだけで、従来あったどのマイクロホン130によって音声が取得されているかという対応付けを行う必要がなくなる。そのため、直感的な操作により、簡便に音声を調整することができるようになる。
【0051】
(第2の実施形態)
上記の第1の実施形態では、予め設定された対応情報によって、操作画面上の位置から、その位置の音声を取得するマイクロホンを特定することを実現したものである。しかし、このようなシステムは、予めマイクロホンと、画面上のエリアとの対応情報を設定しておく必要がある。そこで、本発明の第2の実施形態は、対応情報をユーザが予め設定することなく、操作対象のマイクロホンの特定をすることができるものである。尚、以下第2の実施形態の説明においては、第1の実施形態と同様である部分については説明を省略し、相違点について主に説明する。
【0052】
(情報処理システム200)
まず、図8を用いて本実施形態に係る情報処理システム200について説明する。図8は、本発明の第2の実施形態に係る情報処理システムの機能構成を示すブロック図である。
【0053】
情報処理システム200は、情報処理装置210、音声処理装置220、撮像装置240、複数の音声取得装置250、及び、対応情報作成装置260を主に有し、ネットワーク300によってそれぞれ接続されている。
【0054】
情報処理システム200は、ユーザが指定した音声を取得しているマイクロホンを特定するために、音声取得装置250及びバッチホルダ800を用いて生成した情報を対応情報作成装置260が収集して作成した、対応情報を用いる。
【0055】
情報処理装置210、音声処理装置220、及び撮像装置240については、第1の実施形態と同様であるため、説明を省略する。尚、情報処理装置210において記憶部を図示していないが、もちろん記憶部を有する構成であってもよい。情報処理装置210が、内部に対応情報を有しないことを図示したものである。情報処理装置210の音量調整時の動作については、後述する。
【0056】
(対応情報作成装置260)
対応情報作成装置260は、通信部261、制御部262、及び記憶部263を主に有する。本実施形態においては、対応情報を作成する機能に着目しているが、対応情報作成装置260は、対応情報を収集することによって、音声取得装置250及び参加者の空間配置を認識することが可能である。
【0057】
(音声取得装置250)
音声取得装置250は、音声を取得するためのマイクロホンが設置された装置である。本実施形態においては、音声取得装置250は、例えば図10及び図11に示した机の形状をしている。図8においては、音声取得装置250は、音声取得装置250aと音声取得装置250bとの2つを有するものとして記載しているが、これに限られない。複数組み合わせて用いることが可能である。
【0058】
音声取得装置250は、記憶部251、制御部252、通信部253、受信器254、発信器255、マイクロホン230を主に有する。尚、ここで受信器254及び発信器255については、複数有するため、それぞれを識別するために、例えば3つの受信器254は受信器2541〜2543の符号を振っている。以下、発信器についてまとめて説明をする際には、発信器255として表記する。受信器についても同様である。
【0059】
記憶部251は、情報を記憶することのできる記憶装置である。例えばHDD(Hard Disk Drive)などの磁気記録媒体や、EEPROM(Electronically Erasable and Programmable Read Only Memory)、フラッシュメモリ、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリが挙げられるが、上記に限られない。
【0060】
記憶部251は、本実施形態においては、例えば図9において示したような対応情報2000を記憶する。図9は、音声取得装置における対応情報の一例を示す説明図である。対応情報2000は、それぞれの音声取得装置250が有する、音声取得装置識別子2002、マイク識別子2004、発信器識別子2006、受信器識別子2008の対応関係を予め記憶したものであり、それぞれの受信器254が、識別情報を受信したときには、受信した識別情報が受信情報2010に格納される。
【0061】
制御部252は、音声取得装置250全体の動作を制御する。例えば、受信器254において、識別情報が受信された場合には、制御部252は、受信した識別情報を記憶部251の対応情報200の、受信器識別子に対応する受信情報2010に記憶すると共に、対応情報2000を通信部253を介して対応情報作成装置260に送信する。制御部252は、例えばCPUなどにより構成されてよい。
【0062】
通信部253は、音声取得装置250がネットワークと接続するための通信インタフェースである。通信部253は、有線のネットワークに接続するためのものであってもよいし、無線のネットワークに接続するためのものであってもよい。通信部253は、制御部252の制御に従って各種データの送受信を行う。
【0063】
受信器254は、制御部252の制御に従って、他の音声取得装置250に設置された発信器255又は音源識別子を発信する音源識別子発信器801と通信し、発信器識別子又は音源識別子を受信する機能を有する。受信器254は、例えば赤外線を用いて通信を行う赤外線受信器であってよい。受信器254の物理的な設置については、後述する。
【0064】
発信器255は、制御部252の制御に従って、発信器識別子を対向する受信器に向かって発信する。発信器255は、例えば赤外線を用いて通信を行う赤外線発信器であってよい。発信器255の通信方式は、受信器254の通信方式と互換性があることを前提とする。
【0065】
マイクロホン230は、音声を取得するための装置である。マイクロホン230は、音声取得装置に設置されている。例えば、マイクロホン230は、音声取得装置250に内蔵されていてもよいし、例えば、音声取得装置250の側面又は上面などに設置されてもよい。マイクロホン230は、机の形状をした音声取得装置250のうち、参加者が座る位置に対応して設置されることが望ましい。
【0066】
(物理構成)
次に、音声取得装置250の物理的な構成について図10及び図11を用いて説明する。図10は、音声取得装置250a、及び、音声取得装置250bを上部から見た概観図である。図11は、音声取得装置250a、及び、音声取得装置250bを側面から見た概観図である。
【0067】
本実施形態において、音声取得装置250は、机の形状をしている。そして、受信器254及び発信器255が一対となって同じ側面に配置されている。尚、受信器254及び発信器255は、図においては、突出形状で示しているが、実際には、机間の隙間をなくすため、例えば、音声取得装置250の参加者に対向する側面に凹状に設けているものとする。受信器254及び発信器255は、本実施形態においては、音声取得装置250当たり、それぞれ3つずつ設置される。なお、情報上の対応関係を示す対応情報(図9)と同様に、マイク230のマイクの向きと机の向きとの物理的な構成(構成上の対応関係)についても関連付く。例えば、図10に示すように、マイク230aのマイクの向きは発信器2551aが備わる側面と対向する向きになっている。つまり、マイク230aは発信器2551aが備わる側に存在する参加者等の音声を主に取得する。
【0068】
図10に示すように、受信器254と発信器255とは、音声取得装置250の各辺が接した際に、一方の音声取得装置250の受信器254と他方の音声取得装置250の発信器255とが対向するように配置されている。例えば、図9においては、机の天板の一番長い辺を合わせたときに、受信器2543aと発信器2553b、発信器2553aと受信器2543bが対向し、通信可能となる。
【0069】
また、図10に点線で示したように、音声取得装置250は、マイクロホン230を内蔵する。マイクロホン230は、受信器254の数に対応して設けられる。本実施形態においては、マイクロホン230は、音声取得装置250当たり3つ設置される。マイクロホン230は、受信器254及び発信器255と対応付けられている。
【0070】
音声取得装置250の天板の表面には、認識コード700が模様として埋め込まれている。認識コード700は、音声取得装置250毎の音声取得装置識別子を示すものである。全体に繰り返し埋め込まれているため、この認識コード700を解読することによって、認識コードを映した映像から、ユーザが指示した地点の最寄の音声取得装置250がどの音声取得装置であるかを識別することが可能となる。なお、本実施形態に係る認識コード700は音声取得装置識別子を示す場合を例に挙げて説明するが、かかる例に限定されず、例えば、認識コード700は複数台のマイク230を一組としたマイクセットを識別する識別子の場合でも良い。例えば、図10に示すように、マイク230a〜cを一組としたマイクセットを例示できる。かかる場合、音声取得装置250に複数台のマイクセットを備えることができる。なお、この場合、例えば、音声取得装置250の表面のうち、第1のマイクセットの備わる周辺部には認識コード700aが表示され、第2のマイクセットの備わる周辺部には認識コード700bが表示される。
【0071】
ここで、認識コード700は、音声取得装置250の識別子を記憶可能なコードであり、その画像から情報を読み取ることができる。例えば、図示したQRコード(登録商標)、その他の2次元コード、及び1次元コードであるバーコードであってもよい。
【0072】
次に、図12、及び図13を用いて、音声取得装置250の受信部254が音源識別子を受信するときの様子について説明する。図12は、音源識別子発信器と音声取得装置との通信について説明する説明図である。図13は、バッチホルダの概観構成例について説明する説明図である。
【0073】
図12に示すように、音声取得装置250に対して参加者10が着席した場合を考える。音声取得装置250の、参加者10が着席した側の側面に、受信器2542が設置されている。このとき、参加者10は、バッチホルダ800を身に着けており、バッチホルダ800が有する音源識別子発信器801が、音源識別子を、音声取得装置250の受信器2542に発信する。図12に示すように、参加者10が着席した際に、バッチホルダ800と受信器2542とが対向する位置にくるよう、音声取得装置250は設計されることが望ましい。
【0074】
ここで、バッチホルダ800の構成について、図13を用いて説明する。バッチホルダ800は、例えば参加者10が自身を示すためのバッチ等を身に着けるためのものである。例えば、バッチホルダ800に、音源識別子を発信するための音源識別子発信器801が取り付けられている。音源識別子は、音源を識別するための符号であり、例えば社員番号のように、個人に割り当てられた識別番号であってもよい。
【0075】
以上、説明してきた通り、本実施形態に係る情報処理システム200は、机の形状をした音声取得装置250を組み合わせた際に、それぞれ側面に設けられた受信器254及び発信器255間において、発信器識別子を送受信することによって、どの受信器がどの発信器と対向しているかを、把握することができるようになる。また、対応情報作成装置260が、予めそれぞれの音声取得装置250の形状などのデータを保持していると、どのような配置で音声取得装置250が配置されているのか、仮想空間に再現することが可能である。
【0076】
また、例えば参加者10に音源識別子をそれぞれ付与し、参加者が着席した箇所の受信器254が音源識別子を受信することができるように、参加者が身につけるバッチホルダ800などに音源識別子発信器801を設けることにより、音声取得装置250及び、音声取得装置250から対応情報を受信した、対応情報作成装置260は、各音声取得装置250のどの位置にどの参加者が着席しているかを把握することができるようになる。
【0077】
(動作例)
ここで、以上のような情報処理システム200を用いた動作例について説明をする。例えば、音声取得装置250を4つ組み合わせた例について説明をする。4つの音声取得装置250を組み合わせると、対向する受信器254と発信器255との間で、発信器識別子の送受信が行われる。そして、受信器254は、発信器識別子を受信すると、制御部252の制御に応じて、受信した発信器識別子を記憶部251の対応情報の受信情報に記憶する。
【0078】
また、そのように組み合わせられた音声取得装置250に、参加者が着席した場合を考える。ここでは、4名の参加者が着席するものとする。参加者が着席すると、参加者の保有するバッチホルダの音源識別子発信器から、音声取得装置250の受信器254に音源識別子が送信される。受信された音源識別子は、制御部252の制御に応じて、記憶部251の対応情報の受信情報に記憶される。
【0079】
このようにして、収集された対応情報を図14〜図17にそれぞれ示す。図14〜図17は、音声取得装置250において取得された、対応情報を示す説明図である。
【0080】
図14は、音声取得装置250aについてのものである。音声取得装置識別子2102、マイク識別子2104、発信器識別子2106、受信器識別子2108が予め記憶されており、受信情報2110に、それぞれ対応する受信器254が受信した情報が格納されている。
【0081】
以下、それぞれ、図15は250b、図16は250c、図17は250dについての対応情報を示す。このように収集された対応情報は、対応情報作成装置260へ送信される。
【0082】
それぞれの音声取得装置250において収集された対応情報が、対応情報作成装置260において受信されると、対応情報作成装置260は、予め保持している、机の形状、構成、及び参加者に割り当てられた音源識別子の情報を用いて、音声取得装置250の配置状況、及び、参加者の着席状況を把握することが可能である。即ち、どの音源の音声をどのマイクロホンによって取得しているかを把握することが可能である。
【0083】
即ち、対応情報作成装置260は、図14〜図17の対応情報を用いて、図18のような配置で音声取得装置が配置されていること、参加者が着席している位置、及び、参加者が着席している位置に対応するマイクロホンを把握することも可能である。図18は、対応情報作成装置260において認識される音声取得装置の配置例を示す説明図である。
【0084】
このような状況において、撮像装置240が撮影した映像を見ながら、情報処理装置210の表示画面上から音声制御をする際の動作について、図19及び図20を用いて説明する。図19は、本発明の第2の実施形態に係る情報処理システムの音声制御について説明するための説明図である。図20は、本発明の第2の実施形態に係る情報処理システム200の音声調整のマイク特定フローを示すサブフローチャートである。
【0085】
音声調整の全体の流れについては、図6において説明した内容と同様であるため、説明を省略する。マイク特定フローについてのみ相違するため、図6のステップS104のサブフローチャートである図20に示したマイク特定フローについて説明する。前提として、情報処理装置210は、音声取得装置250の配置が行われたとき、又は、参加者が着席したときなどの、対応情報が更新されたときに、対応情報作成装置260から対応情報を取得しているものとする。
【0086】
図19において、ユーザは、音声を調整したい対象を画面上において指差すようにタッチする。ここでは、参加者40の音声を調整する場合について考える。参加者40を指差すようにタッチすると、指差した座標位置が取得される。そして、情報処理装置210の制御部214は、座標位置入力時の画像を取得する(S302)。そして、制御部214は、取得された画像から、座標位置に最も近い認識コードを検索する(S304)。
【0087】
次に、対応情報から認識コードに対応する机を特定する(S306)。具体的には、ステップS304において検索された認識コード700を読取ると、各机に付与された音声取得装置識別子「250d」を取得することが出来る。そして、特定された机の対応情報の中から、音源識別子を受信した受信器を特定する(S308)。図17を参照すると、音声取得装置250dの中で、音源識別子を受信しているのは、受信器2542dであることがわかる。
【0088】
そして、この特定された受信器2542dに対応するマイクロホンを特定する(S310)。ここでは、図17を参照すると、対応するマイク識別子は230kであることがわかる。
【0089】
このようにして、操作画面上の位置から、音声調整対象のマイクロホンを特定し、確実に所望のマイクロホンの調整を実行することが可能である。
【0090】
このとき、例えば、特定された机(または、複数台のマイク230からなるマイクセット)に2名以上の参加者が座っている場合には、制御部214は、双方の調整インタフェースを表示させるようにしてもよい。
【0091】
(効果の例)
以上説明したように、本発明の第2の実施形態に係る情報処理システムによると、予めユーザが対応情報を設定することなく、自動的に対応情報を収集し、マイクロホンの特定をすることが出来る。そして特定されたマイクロホンに対して、映像を見ながら音声の調整を実行することが出来るようになる。
【0092】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されないことは言うまでもない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても当然に本発明の技術的範囲に属するものと了解される。
【0093】
例えば、上記第1の実施形態では、固定マイクを用いたが、かかる例に限定されない。例えば、ピンマイクを用いてもよく、その場合には、参加者の着席位置に応じてピンマイクの位置が決まるため、そのエリア情報と予め対応づけておく必要がある。
【0094】
また、例えば、本実施形態においては、表示部の上にタッチパネル式の座標入力部を積層した表示入力部を有する構成としたが、これに限られない。例えば、表示部は、スクリーンに映しだすプロジェクタに接続するインタフェースであってもよい。この場合、例えばマウスなどの入力装置を用いてもよい。
【0095】
また、例えば、上記第2の実施形態においては、音声取得装置は、二等辺三角形形状の机であることとしたが、この形状は限定されない。受信器、送信器、及びマイクロホンが一対となり、机の参加者が座る位置に配置されるものであればよい。
【0096】
また、例えば、上記第2の実施形態においては、音源識別子は、参加者が身につけるバッチホルダから発信されるものとしたが、かかる例に限られない。例えば、プロジェクタなどの音源となりうる装置にそれぞれ音源識別子が付与され、装置に音源識別子発信器を設けてもよい。その場合、音声取得装置の受信器の配置、又は、通信方式を工夫する必要がある。例えば、プロジェクタのファンの音がうるさい場合に、かかる音量を下げるために用いることが出来る。
【0097】
また、例えば、上記第2の実施形態においては、受信器及び発信器は、赤外線を用いたものとしたがこれに限られない。例えば、音波を用いたドップラーセンサ、ZigBee(登録商標)ノード等を用いて信号の送受信を行ってもよい。
【0098】
また、例えば、上記第2の実施形態においては、認識コードは、音声取得装置の上面にのみ埋め込まれているものとしたが、これに限られない。例えば、側面や、机の脚など、表面全体に埋め込まれているものであってもよい。
【0099】
また、例えば、上記第2の実施形態においては、情報処理装置は、対応情報に更新がある度に、対応情報を、対応情報作成装置から取得しているものとしたが、これに限られない。例えば、マイク特定処理を行う前に対応情報を取得してもよい。
【0100】
また、上記第2の実施形態においては、認識コード700は、音声取得装置識別子を示す場合を例に挙げて説明するが、かかる例に限定されない。例えば、認識コード700は複数台のマイク230を一組としたマイクセットを識別する識別子の場合でも良い。例えば、図10に示すように、マイク230a〜cを一組としたマイクセットを例示できる。かかる場合、音声取得装置250に複数台のマイクセットを備えることができる。なお、この場合、例えば、音声取得装置250の表面のうち、第1のマイクセットの備わる周辺部には認識コード700aが表示され、第2のマイクセットの備わる周辺部には認識コード700bが表示される。また、認識コード700は、マイクロホン1台1台のそれぞれを識別するものであってもよい。この場合には、認識コードから音声取得装置を識別し、マイクロホンと紐付けることなく、認識コードから直接マイクロホンを特定することが出来る。
【0101】
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
【符号の説明】
【0102】
110 情報処理装置
113 座標入力部
114 制御部
115 表示部
116 音声出力部
120 音声処理装置
130 マイクロホン
140 撮像装置
【特許請求の範囲】
【請求項1】
複数のマイクロホンと、
映像を撮影する撮像装置と、
前記複数のマイクロホンによって取得された音声を処理する音声処理装置と、
前記映像及び前記音声処理装置において処理された音声を出力し、前記音声処理装置に対して音声制御情報を出力する情報処理装置と、
を備え、
前記情報処理装置は、
映像を表示する表示部と、
前記表示部の表示画面上の座標位置を入力する座標入力部と、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、当該特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、
を有する、情報処理システム。
【請求項2】
音源には予め識別のための音源識別子が付与されており、
前記対応情報は、前記音源識別子及び前記マイク識別子の対応関係を収集して生成された情報である、請求項1に記載の情報処理システム。
【請求項3】
前記複数のマイクロホンは、音声取得装置に備わっており、
前記音声取得装置は、
前記音源識別子を受信する受信器を有し、
前記音声取得装置の表面には、音声取得装置を識別するための音声取得装置識別子が埋め込まれた認識コードが表示され、
前記対応情報は、前記音声取得装置識別子、前記音源識別子、前記受信器に付与された受信器識別子、及び前記マイク識別子の対応関係を収集して生成された情報であり、
前記制御部は、
前記映像中の前記認識コードから前記音声取得装置識別子を読取り、読取られた音声取得装置識別子及び前記対応情報を用いて、前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定する、請求項2に記載の情報処理システム。
【請求項4】
前記音声取得装置は、机の形状をしており、
前記受信器は、前記音声取得装置の側面に設置され、
前記受信器は、人が身につけた、音源識別子発信器から前記音源識別子を受信する、
請求項3に記載の情報処理システム。
【請求項5】
前記音声取得装置は、自らの発信器識別子を発信する発信器をさらに有し、
前記発信器は、他の音声取得装置と組み合わせられた場合に、他の音声取得装置の受信器と対向するよう配置され、
前記受信器は、前記音源識別子又は前記発信器識別子のいずれかを受信し、
複数の前記音声取得装置の対応情報を取得し、前記複数の音声取得装置の配置を認識する対応情報作成装置をさらに備える、請求項4に記載の情報処理システム。
【請求項6】
前記音声処理装置は、
前記マイクロホンから入力された音声にマイク識別子を付与するマイク識別子付与部と、
前記音声に付与されたマイク識別子と、前記音声制御情報とに基づいて、前記音声を処理する音声ミキサと、
を有する、請求項1〜4のいずれか1項に記載の情報処理システム。
【請求項7】
前記対応情報は、前記座標位置と前記音声取得部識別子との対応関係を予め記憶した情報である、請求項1に記載の情報処理システム。
【請求項8】
複数のマイクロホンによって取得された音声、及び映像を取得し、出力する情報処理装置であって、
前記映像を表示する表示部と、
前記表示部の表示画面上の座標位置を入力する座標入力部と、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、
を備える情報処理装置。
【請求項9】
映像を表示する表示部と、前記表示部の表示画面上の座標位置を入力する座標入力部と、制御部と、を備える情報処理装置による方法であって、
前記制御部が、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する、情報処理方法。
【請求項1】
複数のマイクロホンと、
映像を撮影する撮像装置と、
前記複数のマイクロホンによって取得された音声を処理する音声処理装置と、
前記映像及び前記音声処理装置において処理された音声を出力し、前記音声処理装置に対して音声制御情報を出力する情報処理装置と、
を備え、
前記情報処理装置は、
映像を表示する表示部と、
前記表示部の表示画面上の座標位置を入力する座標入力部と、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、当該特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、
を有する、情報処理システム。
【請求項2】
音源には予め識別のための音源識別子が付与されており、
前記対応情報は、前記音源識別子及び前記マイク識別子の対応関係を収集して生成された情報である、請求項1に記載の情報処理システム。
【請求項3】
前記複数のマイクロホンは、音声取得装置に備わっており、
前記音声取得装置は、
前記音源識別子を受信する受信器を有し、
前記音声取得装置の表面には、音声取得装置を識別するための音声取得装置識別子が埋め込まれた認識コードが表示され、
前記対応情報は、前記音声取得装置識別子、前記音源識別子、前記受信器に付与された受信器識別子、及び前記マイク識別子の対応関係を収集して生成された情報であり、
前記制御部は、
前記映像中の前記認識コードから前記音声取得装置識別子を読取り、読取られた音声取得装置識別子及び前記対応情報を用いて、前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定する、請求項2に記載の情報処理システム。
【請求項4】
前記音声取得装置は、机の形状をしており、
前記受信器は、前記音声取得装置の側面に設置され、
前記受信器は、人が身につけた、音源識別子発信器から前記音源識別子を受信する、
請求項3に記載の情報処理システム。
【請求項5】
前記音声取得装置は、自らの発信器識別子を発信する発信器をさらに有し、
前記発信器は、他の音声取得装置と組み合わせられた場合に、他の音声取得装置の受信器と対向するよう配置され、
前記受信器は、前記音源識別子又は前記発信器識別子のいずれかを受信し、
複数の前記音声取得装置の対応情報を取得し、前記複数の音声取得装置の配置を認識する対応情報作成装置をさらに備える、請求項4に記載の情報処理システム。
【請求項6】
前記音声処理装置は、
前記マイクロホンから入力された音声にマイク識別子を付与するマイク識別子付与部と、
前記音声に付与されたマイク識別子と、前記音声制御情報とに基づいて、前記音声を処理する音声ミキサと、
を有する、請求項1〜4のいずれか1項に記載の情報処理システム。
【請求項7】
前記対応情報は、前記座標位置と前記音声取得部識別子との対応関係を予め記憶した情報である、請求項1に記載の情報処理システム。
【請求項8】
複数のマイクロホンによって取得された音声、及び映像を取得し、出力する情報処理装置であって、
前記映像を表示する表示部と、
前記表示部の表示画面上の座標位置を入力する座標入力部と、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、
を備える情報処理装置。
【請求項9】
映像を表示する表示部と、前記表示部の表示画面上の座標位置を入力する座標入力部と、制御部と、を備える情報処理装置による方法であって、
前記制御部が、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する、情報処理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公開番号】特開2011−35524(P2011−35524A)
【公開日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願番号】特願2009−177718(P2009−177718)
【出願日】平成21年7月30日(2009.7.30)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】
【公開日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願日】平成21年7月30日(2009.7.30)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】
[ Back to top ]