説明

音声会議システム及び話者特定用処理装置

【課題】 各地点に一人ずつ居て行う音声会議でも、話者を特定させ易い音声会議システムを提供する。
【解決手段】 本発明の音声会議システムは、N−1人の会議参加者に係るモノラル音声信号をそれぞれ、ステレオ音声信号に変換するモノラル/ステレオ変換手段と、モノラル/ステレオ変換手段からのN−1個のステレオ音声信号を合成し、残り1人の会議参加者への合成ステレオ音声信号とするミキシング手段とを有することを特徴とする。ステレオ音声信号への変換パラメータをN−1人の会議参加者によって変更しておくことにより、会議参加者によって発音元の方向性を変えることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は音声会議システム及び話者特定用処理装置に関し、例えば、複数の地点に一人ずつ居て行う音声会議に適用し得るものである。
【背景技術】
【0002】
パソコンやワークステーションのマルチメディア化が進み、また、これらを相互に接続するマルチメディアネットワークの導入も進んでいる。そのため、パソコンやワークステーションを用いた会議システムも検討されている(非特許文献1参照)。このような複数の地点に一人ずつ居て行う会議における音声処理(音声会議)には、例えば、パソコンやワークステーション上のソフトフォンが利用される。
【非特許文献1】若原俊彦著、「マルチグループ通信システムの構成法の提案と評価」、電子情報通信学会論文誌B Vol.JB2−B No.1 pp.31−42 1999年1月
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、上述した方法では、ある聴取者から見ると、自分以外の他の者は全て別の場所におり、しかも、他の者の声は全て同一条件でミキシングされるため、話者の特定(誰がしゃべっているか)が困難になることもあり得るという問題があった。
【0004】
そのため、各地点に一人ずつ居て行う音声会議でも、話者を特定させ易い音声会議システムや、このようなシステムに好適な話者特定用処理装置が望まれている。
【課題を解決するための手段】
【0005】
かかる課題を解決するため、第1の本発明は、N(Nは2以上の整数)地点に一人ずつ居る会議参加者に音声会議サービスを提供する音声会議システムにおいて、N−1人の上記会議参加者に係るモノラル音声信号をそれぞれ、ステレオ音声信号に変換するモノラル/ステレオ変換手段と、上記モノラル/ステレオ変換手段からのN−1個のステレオ音声信号を合成し、残り1人の上記会議参加者への合成ステレオ音声信号とするミキシング手段とを有することを特徴とする。
【0006】
また、第2の本発明は、N(Nは2以上の整数)地点に一人ずつ会議参加者が居る音声会議で、話者を特定させる処理を行う話者特定用処理装置であって、N−1人の上記会議参加者に係るモノラル音声信号をそれぞれ、ステレオ音声信号に変換するモノラル/ステレオ変換手段と、上記モノラル/ステレオ変換手段からのN−1個のステレオ音声信号を合成し、残り1人の上記会議参加者への合成ステレオ音声信号とするミキシング手段と を有することを特徴とする。
【発明の効果】
【0007】
本発明の音声会議システム及び話者特定用処理装置によれば、各地点に一人ずつ居て行う音声会議でも、話者を特定させることができるようになる。
【発明を実施するための最良の形態】
【0008】
(A)第1の実施形態
以下、本発明による音声会議システム及び話者特定用処理装置を多地点各一人用の音声会議システムに適用した第1の実施形態を、図面を参照しながら説明する。
【0009】
図1は、第1の実施形態の音声会議装置の機能的構成を示すブロック図である。図1に示す音声会議装置10Aが会議参加者1−0、1−1、…、1−N毎に設けられて、音声会議システムが構築される。なお、図1は、会議参加者1−0用の音声会議装置10A(10A−0)を示している。
【0010】
図1において、第1の実施形態の音声会議装置10Aは、機能的には、モノラルマイクロフォン11、ステレオヘッドフォン12及び話者特定用処理部(定位ミキシング部)13Aを有する。話者特定用処理部13Aは、例えば、パソコンやワークステーションに組み込まれているソフトウェアによって実現され、機能的には、他の会議参加者対応の定位処理部14−1〜14−Nと、ステレオミキシング部15とを有する。
【0011】
モノラルマイクロフォン11は、当該音声会議システム10Aに係る会議参加者1−0の音声を捕捉してモノラル音声信号(送話信号)S0を出力するものである。図1では、送信構成を省略しているが、このモノラル音声信号S0が、他の会議参加者1−1〜1−Nの全てに同報送信されるようになされている。
【0012】
また、図1では受信構成を省略しているが、当該音声会議装置10Aには、他の会議参加者1−1〜1−Nの発音に係るモノラル音声信号(受話信号)S1〜SNが与えられ、各モノラル音声信号S1〜SNはそれぞれ、対応する定位処理部14−1〜14−Nに入力されるようになされている。なお、当該音声会議装置10Aと、他の会議参加者用の音声会議装置との間の通信方法や通信システムは限定されない。例えば、VoIPを用いたIPネットワーク通信システムを利用することができる。
【0013】
各定位処理部14−1〜14−Nはそれぞれ、対応する受信モノラル音声信号S1〜SNに対し、HRTFを用いた既存の定位処理を実施して方向性を付加したステレオ音声信号(Rチャンネル音声信号及びLチャンネル音声信号)ST1〜STNを形成し、形成したステレオ音声信号ST1〜STNをステレオミキシング部15に与えるものである。なお、既存の定位処理については、例えば、特開2002−209300号公報や特開2003−102099号公報に記載のものを適用し得る。また、方向性は、他の会議参加者毎に予め固定的に設定しておくものであり、例えば、会議参加者1−1を左90度、会議参加者1−Nを右90度とし、その間を(N−1)等分した方向のそれぞれを、その他の会議参加者1−2〜1−(N−1)の方向とする。
【0014】
ステレオミキシング部15は、ステレオ音声信号(Rチャンネル音声信号及びLチャンネル音声信号)ST1〜STNをミキシングし、総合ステレオ音声信号(総合受話信号)ST0を生成してステレオヘッドフォン12に出力する。なお、ミキシングは、N個のRチャンネル音声信号の合成、N個のLチャンネル音声信号の合成でなる。また、当該会議参加者1−0のモノラル音声信号S0も、ステレオミキシング部15に与え、ステレオミキシング部15が側音信号として総合ステレオ音声信号(総合受話信号)ST0に含めるようにしても良い。
【0015】
ステレオヘッドフォン12は、ステレオミキシング部15から与えられた総合ステレオ音声信号(総合受話信号)を発音出力させるものである。ステレオヘッドフォン12として、周囲音を透過する構造のものが好ましい。
【0016】
なお、ステレオヘッドフォン12に代えて、ステレオスピーカ16を適用するようにしても良い。
【0017】
以上の構成を有する音声会議装置10A(10A−0)により、会議参加者1−0は、他の会議参加者1−1〜1−Nの音声を、他の会議参加者1−1〜1−Nが所定の位置に居る感覚で受話する。
【0018】
第1の実施形態によれば、自分以外の他の会議参加者全てに対して別々の方向性を持たせる(聞こえる方向を変える)ようにしたので、話者特定性が優れたものとなる。
【0019】
第1の実施形態の変形実施形態としては、各定位処理部14−1〜14−Nが付与する方向性が固定ではなく、可変設定できるものを挙げることができる。すなわち、図示は省略するが、各定位処理部14−1〜14−Nに対し、外部から角度情報D1〜DNを入力でき、各定位処理部14−1〜14−Nがそれぞれ、その角度情報D1〜DNが規定している方向性を付与する。
【0020】
このような変形実施形態によれば、発話者の方向性操作に自由度が増し、より臨場感のある音声会議を実現することができる。
【0021】
(B)第2の実施形態
次に、本発明による音声会議システム及び話者特定用処理装置を多地点各一人用の音声会議システムに適用した第2の実施形態を、図面を参照しながら説明する。
【0022】
図2は、第2の実施形態の音声会議装置の概略構成を示しており、第1の実施形態に係る図1との同一、対応部分には同一符号を付して示している。
【0023】
第2の実施形態の音声会議装置10Bは、第1の実施形態に比較すると、モノラル音声信号S1〜SNからステレオ音声信号ST1〜STNを生成する定位処理部14−1〜14−Nが、バランス処理部21−1〜21−Nに置き換わっている点が異なり、その他の点は、第1の実施形態と同様である。すなわち、第2の実施形態の話者特定用処理部(バランスミキシング部)13Bは、バランス処理部21−1〜21−Nとステレオミキシング部15とからなる。
【0024】
n(nは1〜N)番目のバランス処理部21−nは、入力されたモノラル音声信号Snから、Lチャンネル音声信号STn(L)、Rチャンネル音声信号STn(R)を以下の式に従って生成する。
【0025】
STn(L)=Sn*(1−An) STn(R)=Sn*An
但し、An=(n−1)/(N−1)
第2の実施形態によれば、第1の実施形態と同様な効果を奏することができる。さらに、第1の実施形態より簡単な処理によって、他の会議参加者に対して方向性を付与することができる。
【0026】
第2の実施形態の変形実施形態としては、各バランス処理部21−1〜21−Nが付与する方向性が固定ではなく、可変設定できるものを挙げることができる。すなわち、図示は省略するが、各バランス処理部21−1〜21−Nに対し、外部から方向性情報A1〜ANを入力でき、各バランス処理部21−1〜21−Nはそれぞれ、その方向性情報A1〜ANが規定している方向性を付与する。
【0027】
このような変形実施形態によれば、発話者の方向性操作に自由度が増し、より臨場感のある音声会議を実現することができる。
【0028】
(C)第3の実施形態
次に、本発明による音声会議システム及び話者特定用処理装置を多地点各一人用の音声会議システムに適用した第3の実施形態を、図面を参照しながら説明する。
【0029】
上述した第1及び第2の音声会議装置10A、10Bは、各会議参加者毎に設置されるものであったが、この第3の実施形態の音声会議システムの本体(音声会議集中管理装置)は、管理センタなどに設置される、全ての会議参加者に共通なものである。
【0030】
図3は、第3の実施形態の音声会議システムの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
【0031】
図3において、第3の実施形態の音声会議システム10Cは、各会議参加者1−0〜1−Nが居る場所ごとに設けられたモノラルマイクロフォン11−0〜11−N及びステレオヘッドフォン(ステレオスピーカであっても良い)12−0〜12−Nと、管理センタなどに設置される音声会議集中管理装置(話者特定用処理装置)30とを有する。音声会議集中管理装置30は、会議参加者1−0〜1−Nごとの定位ミキシング部13A−0〜13A−Nを有する。なお、図3においては、各会議参加者1−0〜1−Nが居る場所の構成要素と、音声会議集中管理装置30との間の通信構成は省略しているが、その通信構成や通信方法は限定されないものである。例えば、VoIPを用いたIPネットワーク通信システムを利用することができる。
【0032】
モノラルマイクロフォン11−0〜11−Nはそれぞれ、第1の実施形態と同様に、対応する会議参加者1−0〜1−Nの音声を捕捉し、モノラル音声信号S0〜SNを得るものである。
【0033】
各定位ミキシング部13A−0〜13A−Nにはそれぞれ、当該定位ミキシング部に係る会議参加者以外の会議参加者のモノラル音声信号が入力されるようになされている。例えば、定位ミキシング部13A−0には、当該定位ミキシング部に係る会議参加者1−0以外の会議参加者1−1〜1−Nのモノラル音声信号S1〜SNが入力される。また例えば、定位ミキシング部13A−Nには、当該定位ミキシング部に係る会議参加者1−N以外の会議参加者1−0〜1−(N−1)のモノラル音声信号S0〜S(N−1)が入力される。
【0034】
各定位ミキシング部13A−0〜13A−Nにはそれぞれ、図1の話者特定用処理部13Aと同様な詳細構成を有し、入力されたN個のモノラル音声信号に対して定位処理を施した後、各チャンネル別にミキシングし、これにより得られた総合ステレオ音声信号(総合受話信号)st0〜stNを、当該定位ミキシング部に係る会議参加者1−0〜1−Nのステレオヘッドフォン12−0〜12−Nに与えるものである。
【0035】
各ステレオヘッドフォン12−0〜12−Nはそれぞれ、与えられた総合ステレオ音声信号(総合受話信号)st0〜stNを発音出力するものである。
【0036】
以上から明らかなように、定位処理及びミキシングを行う場所が第1の実施形態と異なっているが、各ステレオヘッドフォン12−0〜12−Nから発音される総合ステレオ音声信号(総合受話信号)st0〜stNは第1の実施形態と同様である。
【0037】
従って、第3の実施形態によっても、第1の実施形態と同様な効果を奏することができる。さらに、第3の実施形態によれば、音声会議に供するネットワークトラフィックを抑えることができる。例えば、会議参加者1−0は、第1の実施形態の場合であれば、他の全ての会議参加者1−1〜1−Nと通信しなければならないが、第3の実施形態の場合であれば、音声会議集中管理装置30とのみ通信すれば良い。
【0038】
(D)第4の実施形態
次に、本発明による音声会議システム及び話者特定用処理装置を多地点各一人用の音声会議システムに適用した第4の実施形態を、図面を参照しながら説明する。図4は、第4の実施形態の音声会議システムの機能的構成を示すブロック図であり、図2や図3との同一、対応部分には同一、対応符号を付して示している。
【0039】
上述した第3の実施形態の音声会議システム10Cは、第1の実施形態における定位処理とミキシングとを管理センタ設置の音声会議集中管理装置30に移行したものであった。
【0040】
この第4の実施形態の音声会議システム10Dは、第2の実施形態におけるバランス処理とミキシングとを管理センタ設置の音声会議集中管理装置30に移行したものである。そのため、第3の実施形態の定位ミキシング部13A−0〜13A−Nに代え、バランスミキシング部13B−0〜13B−Nが設けられている。各バランスミキシング部13B−0〜13B−Nはそれぞれ、話者特定用処理部(バランスミキシング部)13Bと同様な詳細構成を有する。
【0041】
第4の実施形態によれば、第3の実施形態と同様な効果を奏することができる。さらに、定位処理ではなく、バランス処理を適用しているため、より簡易な処理でネットワーク負荷の軽減を図ることができる。
【0042】
(E)他の実施形態
本発明の音声会議システムは、テレビ会議などの音声処理部として実現されても良く、単独の音声会議システムとして実現されても良い。また、本発明での会議とは多人数の発話がある事項を言うものである。例えば、ゲーム参加者が分散しているネットワークゲームなども、本発明の会議の概念に入るものである。
【0043】
上記各実施形態においては、定位処理やミキシング、バランス処理やミキシングをソフトウェア的に実行するものを示したが、これらの処理の全て又は一部をハードウェア的に実行するようにしても良い。
【図面の簡単な説明】
【0044】
【図1】第1の実施形態の音声会議装置の機能的構成を示すブロック図である。
【図2】第2の実施形態の音声会議装置の機能的構成を示すブロック図である。
【図3】第3の実施形態の音声会議システムの機能的構成を示すブロック図である。
【図4】第4の実施形態の音声会議システムの機能的構成を示すブロック図である。
【符号の説明】
【0045】
1−0〜1−N…会議参加者、10A、10B…音声会議装置、10C、10D…音声会議システム、11、11−0〜11−N…モノラルマイクロフォン、12、12−0〜12−N…ステレオヘッドフォン、13A…話者特定用処理部(定位ミキシング部)、13A−0〜13A−N…定位ミキシング部、13B…話者特定用処理部(バランスミキシング部)、13B−0〜13B−N…バランスミキシング部、14−1〜14−N…定位処理部、15…ステレオミキシング部、21−1〜21−N…バランス処理部、30…音声会議集中管理装置。


【特許請求の範囲】
【請求項1】
N(Nは2以上の整数)地点に一人ずつ居る会議参加者に音声会議サービスを提供する音声会議システムにおいて、
N−1人の上記会議参加者に係るモノラル音声信号をそれぞれ、ステレオ音声信号に変換するモノラル/ステレオ変換手段と、
上記モノラル/ステレオ変換手段からのN−1個のステレオ音声信号を合成し、残り1人の上記会議参加者への合成ステレオ音声信号とするミキシング手段と
を有することを特徴とする音声会議システム。
【請求項2】
上記モノラル/ステレオ変換手段は、外部から指定されたパラメータに応じて、上記各モノラル音声信号を上記ステレオ音声信号に変換する可変構成のものであることを特徴とする請求項1に記載の音声会議システム。
【請求項3】
上記モノラル/ステレオ変換手段は、定位情報に基づいた、HRTFを用いた定位処理により、上記各モノラル音声信号を上記ステレオ音声信号に変換するものであることを特徴とする請求項1又は2に記載の音声会議システム。
【請求項4】
上記各モノラル/ステレオ変換手段は、加重情報に基づいた、加重演算処理により、上記モノラル音声信号を上記ステレオ音声信号に変換するものであることを特徴とする請求項1又は2に記載の音声会議システム。
【請求項5】
上記各会議参加者用のモノラルマイクロフォンと、
上記合成ステレオ音声信号を発音出力する上記各会議参加者用の発音出力手段と
を有することを特徴とする請求項1〜4に記載の音声会議システム。
【請求項6】
上記各会議参加者が居る近傍に、その会議参加者用の上記モノラルマイクロフォンと、上記発音出力手段と、その会議参加者を残り1人とした上記モノラル/ステレオ変換手段と、上記ミキシング手段とが設けられていることを特徴とする請求項1〜5に記載の音声会議システム。
【請求項7】
上記各会議参加者が居る近傍に、その会議参加者用の上記モノラルマイクロフォンと、上記発音出力手段とが設けられていると共に、全ての会議参加者用の上記モノラル/ステレオ変換手段及び上記ミキシング手段が共通の他の場所に設けられていることを特徴とする請求項1〜5に記載の音声会議システム。
【請求項8】
N(Nは2以上の整数)地点に一人ずつ会議参加者が居る音声会議で、話者を特定させる処理を行う話者特定用処理装置であって、
N−1人の上記会議参加者に係るモノラル音声信号をそれぞれ、ステレオ音声信号に変換するモノラル/ステレオ変換手段と、
上記モノラル/ステレオ変換手段からのN−1個のステレオ音声信号を合成し、残り1人の上記会議参加者への合成ステレオ音声信号とするミキシング手段と
を有することを特徴とする話者特定用処理装置。
【請求項9】
全ての上記会議参加者に、上記合成ステレオ音声信号を供給するため、上記モノラル/ステレオ変換手段及び上記ミキシング手段として、全ての上記会議参加者用のものがそれぞれ設けられていることを特徴とする請求項8に記載の話者特定用処理装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2006−237841(P2006−237841A)
【公開日】平成18年9月7日(2006.9.7)
【国際特許分類】
【出願番号】特願2005−47385(P2005−47385)
【出願日】平成17年2月23日(2005.2.23)
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】