会話ロボット

【課題】状況に応じた自然な会話を行い得る会話ロボットを提案する。
【解決手段】会話ロボット１では、主注目対象角度θ1及び従注目対象角度θ2を算出し、これら主注目対象角度θ1と従注目対象角度θ2とを全て合算した後、認識したユーザ（ユーザＡ及びユーザＢ）の総数で除算して重心方向角度θ_CG1を算出し、胴体部正面8bをこの重心方向角度θ_CG1まで回動させる。このように、会話ロボット１では、胴体部正面8bを重心方向角度θ_CG1まで回動させることで、重心方向に胴体部正面8bを向けさせて、ユーザＡだけでなくユーザＢに対しても、あたかも注目しているかのような印象を与えることができ、かくしてユーザＡ又はユーザＢとの間で状況に応じた自然な会話を実現し得る。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、会話ロボットに関し、例えば話題を共有しながら複数人で行われる会話（以下、これをグループ会話と呼ぶ）を行う際に適用して好適なものである。
【背景技術】
【０００２】
近年、電気的若しくは磁気的な作用を用いて人間や動物の動作に似せた運動を行うロボットが数多く商品化されている。このようなロボットに対し、例えば人間同士が日常的に行う会話と同様の会話をユーザとの間で行い得るような音声会話機能を搭載したロボットも知られている（例えば、非特許文献１参照）。
【０００３】
実際上、これら様々な会話ロボットのなかには、ＣＣＤ（ChargeCoupled Device）カメラやマイクロホン等の各種外部センサを搭載し、これら外部センサの出力に基づいて外部状況を認識して、認識結果に基づいて自律的に行動し得るようになされたものなどもある。例えば、その一例としては、外部センサを基に、発話するユーザの方向を認識し、例えば胴体部を移動させて胴体部正面及び頭部正面を当該ユーザの方向に向けて、あたかもユーザの発話に反応してユーザに視線を向けて会話を行うような会話ロボットも知られている。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】伊吹征太，木村憲次，武田夏佳: コミュニケーションロボットを用いた高齢者生活支援システム,日本機械学会誌，Vol.108，No.1038，pp.392-395(2005)
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、このような会話ロボットでは、実際にグループ会話が行われている際に、発話しているユーザの方向に胴体部正面及び頭部正面を移動させ、発話しているユーザにだけ視線を向けるような動作が行われると、発話していない他のユーザもグループ会話の参加者であるにもかかわらず、あたかもグループ会話から外されたかのような不自然さを、発話しているユーザや他のユーザに感じさせてしまうという問題があった。
【０００６】
本発明は以上の点を考慮してなされたもので、状況に応じた自然な会話を行い得る会話ロボットを提案することを目的とする。
【課題を解決するための手段】
【０００７】
かかる課題を解決するため本発明の請求項１は、胴体部に回動可能に設けられた上体部と、前記上体部に回動可能に設けられた頭部とを備え、外部センサからの出力結果に基づいて自律的に発話する会話ロボットにおいて、前記外部センサから取得した出力結果から複数の対象物の位置を検出する位置検出手段と、前記複数の対象物の位置から求めた重心方向に、前記上体部の正面を向けるように前記上体部の回動角度を制御する胴体部制御手段とを備えることを特徴とする。
【０００８】
また、本発明の請求項２は、前記外部センサから取得した出力結果に基づいて、前記複数の対象物のうち1つを主注目対象物として認識し、他の残りの前記対象物を従注目対象物として認識する役割識別手段と、前記主注目対象物の方向に前記頭部の正面を向けるように前記頭部の回動角度を制御する頭部制御手段とを備え、前記胴体部制御手段は、前記主注目対象物と前記従注目対象物の位置から求めた重心方向に、前記上体部の正面を向けるように前記上体部の回動角度を制御することを特徴とする。
【０００９】
また、本発明の請求項３は、前記外部センサから取得した出力結果に基づいて、前記複数の対象物のうち1つを主注目対象物として認識し、他の残りの前記対象物を従注目対象物として認識する役割識別手段と、前記主注目対象物の方向に指示部を向けるように前記指示部の可動を制御する指示部制御手段とを備え、前記胴体部制御手段は、前記主注目対象物と前記従注目対象物の位置から求めた重心方向に、前記上体部の正面を向けるように前記上体部の回動角度を制御することを特徴とする。
【００１０】
また、本発明の請求項４は、前記重心方向に前記上体部の正面を向けると、前記上体部の回動角度が所定回動角度以上になる場合、前記上体部の回動を前記回動角度の範囲内になるように、前記胴体部を移動手段によって移動させる移動制御手段を備えることを特徴とする。
【００１１】
また、本発明の請求項５は、前記胴体部制御手段は、前記複数の対象物から求めた前記重心方向へ前記上体部の正面を向けると、前記上体部の回動角度が所定回動角度以上になる場合、前記上体部の回動角度が前記所定回動角度範囲内となるように、前記複数の対象物の中から所定の対象物を除外して前記重心方向を求めることを特徴とする。
【００１２】
また、本発明の請求項６は、前記複数の対象物がユーザであり、前記役割識別手段は、前記外部センサから取得した画像及び又は音声に基づいて、複数の前記ユーザのうち、発話するユーザを前記主注目対象物として認識し、他の残りの前記ユーザを前記従注目対象物として認識することを特徴とする。
【００１３】
また、本発明の請求項７は、前記主注目対象物として認識した前記ユーザが注目する次注目対象推定物を認識し、該ユーザが発話終了後に前記次注目対象推定物を新たな主注目対象物とすることを特徴とする。
【発明の効果】
【００１４】
本発明によれば、主注目対象物だけでなく従注目対象物に対しても、あたかも注目しているかのような印象を与えることができ、かくして状況に応じた自然な会話を行い得る。
【図面の簡単な説明】
【００１５】
【図１】本発明の会話ロボットの外観構成を示す概略図である。
【図２】ユーザＢが新たに加わったときの会話ロボットの動作の様子を示す概略図である。
【図３】会話ロボットに搭載された会話装置の回路構成を示すブロック図である。
【図４】重心方向の求め方の説明に供する概略図である。
【図５】ユーザＢがグループ会話から離脱したときの会話ロボットの動作の様子を示す概略図である。
【発明を実施するための形態】
【００１６】
以下図面に基づいて本発明の実施の形態を詳述する。
【００１７】
（１）本願発明の概要
図１において、１は会話ロボットを示し、この会話ロボット１は、人に模して外観が形成されており、胴体部２に対して回動自在に連結された頭部３と、当該胴体部２の左右に可動自在に連結された腕部4a,4bとを備えている。実際上、この胴体部２は、移動可能な車輪５を備えた基台６を有し、基台６に対して上体部８がｚ方向を回動軸として回動方向Caに回動自在に設けられた構成を有する。
【００１８】
上体部８には、上部左右に肩関節部9a,9bを介して腕部4a,4bが設けられているとともに、上部に設けた首部8aに上下左右に可動する頭部３が連結されている。腕部4aには、肩関節部9aによって上体部８に対し上腕部11がx方向、y方向及びz方向に可動するように設けられているとともに、上腕部11に肘関節部12を介して前椀部13が回動自在に設けられ、さらにこの前椀部13に手首関節部14を介して手部15が回動自在に設けられている。これにより、腕部4a,4bは、これら肩関節部9a、肘関節部12及び手首関節部14を各アクチュエータ（図示せず）により駆動させ、上腕部11、前椀部13及び手部15を上体部８の正面（以下、単に胴体部正面と呼ぶ）8b側に向けて突き出す等、人の腕の動作に模した動作を行なえ得る。
【００１９】
また、頭部３は、胴体部正面8bと同じ側を頭部３の正面（以下、単に頭部正面と呼ぶ）3aとして、人の目を模した目部21と、人の口を模した口部22とが当該頭部正面3aに形成されている。また、頭部３には、頭部正面3aの目部21に「目」として機能する一対のＣＣＤ（Charge Coupled Device）カメラ23が設けられているとともに、口部22の内部に発声装置として機能するスピーカ（図示せず）が配設されている。
【００２０】
さらに、この会話ロボット１は、ユーザの音声をマイクロホン（図１では図示せず）により集音し、当該ユーザの発話した内容に応じて、当該ユーザに対し最適な返答や質問等をスピーカから発話したり、頭部３、上体部８、腕部4a,4b及び車輪５を動かして、ユーザとの間で状況に応じた自律的な行動を実行し得るようになされている。また、かかる構成に加えて、本発明による会話ロボット１は、会話するユーザの人数に応じて、頭部３及び上体部８を回動方向Caに回動させて、頭部正面3a及び胴体部正面8bの向く方向を最適な方向に適宜変更させ、会話するユーザが増えても、自然なグループ会話が行なえるようになされている。以下、複数のユーザとの間でグループ会話を行なう際の会話ロボット１の動作について説明する。
【００２１】
ここで、図２（Ａ）は、会話ロボット１とユーザＡとの間で行われる１対１の会話の状況を、上方から見た様子を示し、これに対して、図２（Ｂ）は、新たにユーザＢが加わり、会話ロボット１とユーザＡとユーザＢとの間で行われる複数人によるグループ会話の状況を、上方から見た様子を示している。なお、図２（Ａ）及び（Ｂ）中「△」マークは、ユーザＡやユーザＢの顔正面A1,B2や、会話ロボット１の頭部正面3aを示し、実線の矢印は、ユーザＡ及びユーザＢの顔正面A1,B2、会話ロボット１の頭部正面3aが向けられた方向を示している。また、点線の矢印は、ユーザＡ及びユーザＢの体正面A2,B2、会話ロボット１の胴体部正面8bが向けられた方向を示している。
【００２２】
因みに、この実施の形態の場合では、ユーザＡ及びユーザＢの音声を集音する手法の一例として、ユーザＡ及びユーザＢにそれぞれ専用のマイクロホンを用意し、ユーザＡ及びユーザＢの所定部位にそれぞれ付けたマイクロホンが、会話ロボット１に配線を介して接続されている。これにより、会話ロボット１は、マイクロホンから集音したユーザＡ及びユーザＢの各音声を音声信号として取得し、当該音声信号を解析することによりユーザＡ及びユーザＢの発話状況や発話内容を認識し得るようになされている。
【００２３】
ここで、図２（Ａ）に示すように、この会話ロボット１は、ユーザＡとの間で会話を行うとき、頭部３を回動させて頭部正面3aをユーザＡに向けるとともに、上体部８も回動させて胴体部正面8bをユーザＡに向け、ユーザＡを注視しているかのような動作を行なう。このように、会話ロボット１は、頭部正面3a及び胴体部正面8bをともにユーザＡに向けることで、ユーザＡとの会話を行なうことを明確に意思表示しているかのような印象を、ユーザＡに対し与えることができる。
【００２４】
かかる構成に加えて、この会話ロボット１は、ユーザＡとの間の会話中に、例えばユーザＢが近づくと、ＣＣＤカメラ23により撮像した動画像に基づいて当該ユーザＢの顔正面B1や体正面B2の向きを検出し、この検出結果から、ユーザＢの顔正面B1の一部及び体正面B2の一部（後述する）が、会話ロボット１の方向に向いていると認識すると、ユーザＢが新たに会話に加わりグループ会話が行われると判断し得るようになされている。
【００２５】
また、会話ロボット１は、図２（Ｂ）に示すように、ユーザＡ及びユーザＢを含めたグループ会話であると認識すると、ＣＣＤカメラ23で撮像した動画像を基に、グループ会話の参加者（図２（Ｂ）ではユーザＡ及びユーザＢ）全員の位置を特定しその位置関係から重心方向線CG1（後述する）を算出し、現在会話中のユーザＡの方向に頭部正面3aを向けた状態のまま、上体部８だけを回動させて、重心方向線CG1で示された重心方向へ胴体部正面8bを向けるように構成されている。これにより、会話ロボット１は、頭部正面3aをユーザＡに向けることで、ユーザＡとの会話を継続しているかのような印象をユーザＡ及びユーザＢに対して与えることができる。また、これに加えて会話ロボット１は、ユーザＡ及びユーザＢの位置から求めた重心方向に胴体部正面8bを向けることで、ユーザＡだけでなく、あたかもユーザＢにも注視しているかのような印象をユーザＡ及びユーザＢに与え、ユーザＡ及びユーザＢとの間で自然な会話を実現し得る。
【００２６】
（２）会話ロボットの回路構成
次に、図２（Ａ）及び（Ｂ）に示すような会話ロボット１の行動を、図３に示す回路構成を用いて以下説明する。この実施の形態の場合、会話ロボット１には、図３に示すような会話装置30が内蔵されており、例えば頭部正面3aに設けられたＣＣＤカメラ23は、頭部正面3a方向を撮像して得られた動画像を動画像データとして、顔向き・体向き検出部32と、顔認識部33とにそれぞれ送出する。顔認識部33には、動画像データから生成される動画像の中から、統計的手法によって予め定められた肌色尤度を基に、ほぼ楕円状の肌色領域を特定してこれを顔領域として抽出する。顔認識部33は、この肌色領域を正規化した後、この正規化した画像から両目の距離や鼻の幅等の特徴（顔特徴量）を算出する。ここで、顔認識部33には、ユーザＡやユーザＢの両目の距離や鼻の幅等の顔特徴量が顔データとして予め記憶されている。これにより顔認識部33は、動画像データを基に検出した顔特徴量と、登録されている顔データの特徴量とを比べることで、動画像中にユーザＡやユーザＢが存在していることを認識し得、これを顔識別結果データとして位置検出部35に送出する。
【００２７】
また、この実施の形態の場合、顔向き・体向き検出部32でも、ＣＣＤカメラ23から動画像データを受け取ると、動画像データから生成される動画像の中から、統計的手法によって予め定められた肌色尤度を基に、ほぼ楕円状の肌色領域を特定してこれを顔領域として抽出した後、この肌色領域を正規化し、この正規化した画像から両目の距離や鼻の幅等の特徴（顔特徴量）を算出する。また、顔向き・体向き検出部32は、動画像データから生成される動画像の中から、統計的手法によって予め定められた人の上半身の輪郭データを基に、ユーザＡ及びユーザＢの各上半身を特定してこれを上半身領域として抽出した後、この上半身領域を正規化し、この正規化した画像から肩幅等の特徴（上半身輪郭特徴量）を算出する。ここで、顔向き・体向き検出部32は、例えば顔向きテンプレート情報（後述する）と、体向きテンプレート情報（後述する）とを予め記憶しており、これら顔向きテンプレート情報と顔特徴量とを照らし合わせることで、両目距離の変化等から顔正面A1,B1の向きを識別するとともに、体向きテンプレート情報と上半身輪郭特徴量とを照らし合わせることで、肩幅の変化等から体正面A2,B2の向きを識別し得るようになされている。
【００２８】
例えば、顔向きテンプレート情報は、ＣＣＤカメラ23に対して人の顔が正面のとき、斜め前左右30度のとき、斜め前左右60度のとき、斜め前左右90度のときのそれぞれ統計的な顔特徴量のモデル（以下、統計的顔向き特徴量と呼ぶ）を示したものであり、これら統計的顔向き特徴量と、ユーザＡ及びユーザＢの顔特徴量とを比べることで、顔正面A1,B1の向きを識別し、これを顔向き識別データとして得るようになされている。また、体向きテンプレート情報は、例えばＣＣＤカメラに対して人の上半身が正面のとき、斜め前左右30度のとき、斜め前左右60度のとき、斜め前左右90度のときのそれぞれ統計的な上半身輪郭特徴量のモデル（以下、統計的体向き特徴量と呼ぶ）を示したものであり、これら統計的体向き特徴量と、ユーザＡ及びユーザＢの上半身輪郭特徴量とを比べることで、体正面A2,B2の向きを識別し、これを体向き識別データとして得るようになされている。そして、顔向き・体向き検出部32は、これら動画像データを基に検出したユーザＡ及びユーザＢの顔向き識別データ及び体向き識別データをそれぞれ役割識別部36に送出する。
【００２９】
なお、ここで、ユーザＡ及びユーザＢの顔正面A1,B1及び体正面A2,B2の向きを識別する手法としては、例えば「顔と身体の外観及び形状の変動傾向を考慮した上体輪郭抽出・追跡手法」（俵直弘藤江真也小林哲則（「画像の認・理解シンポジウム（MIRU2010）」2010年7月））に記載された技術内容を適用するようにしてもよく、ユーザＡ及びユーザＢの顔正面A1,B1及び体正面A2,B2の向きを識別できれば、その他種々の手法を適用してもよい。
【００３０】
このときマイクロホン37a,37bは、ユーザＡ及びユーザＢの各音声をそれぞれ集音すると、これらを音声信号としてそれぞれ音声処理部39に送出する。音声処理部39には、ユーザＡ及びユーザＢの音声の特徴（音声特徴量）が音声識別データとして予め記憶されており、マイクロホン37a,37bから受け取った各音声信号からそれぞれ特徴量を抽出し、この特徴量と音声識別データとを比べることで、どのマイクロホン37a,37bがユーザＡ又はユーザＢに用いられているか否かを認識し得るようになされている。
【００３１】
そして、音声処理部39は、例えば一方のマイクロホン37aがユーザＡの音声を集音し、他方のマイクロホン37bがユーザＢの音声を集音していることを示す音声識別結果データを生成し、これを位置検出部35に送出する。また、この音声処理部39は、バイグラム言語モデル、ＨＭＭ（Hidden Markov Model;隠れマルコフモデル）を用いた語彙量約七百のフレーム同期の連続音声認識を行ない、音声信号を単語の列へと変換し、これを単語列データとして行動選択部40に送出する。
【００３２】
一方、位置検出部35は、顔認識部33から受け取った顔識別結果データと、音声処理部39から受け取った音声識別結果データとを対応付けることにより、動画像中のユーザＡ及びユーザＢがどの位置に存在し、かつユーザＡ及びユーザＢのいずれが発話しているかを認識し得るようになされている。
【００３３】
実際上、位置検出部35は、動画像中において認識したユーザＡと、一方のマイクロホン37aで得られた音声信号とを対応付けるとともに、動画像中において認識したユーザＢと、他方のマイクロホン37bで得られた音声信号とを対応付け、動画像中のユーザＡ及びユーザＢのいずれかが発話しているかを認識し、これを位置検出結果データとして役割識別部36に送信する。
【００３４】
役割識別部36は、顔向き・体向き検出部32から受け取った顔向き識別データ及び体向き識別データから、ユーザＡ及びユーザＢが会話に参加しているか否かを判断し得るようになされている。実際上、役割識別部36は、例えばユーザＡの動画像から得られたユーザＡの顔向き識別データ及び体向き識別データから、ユーザＡの顔正面A1の一部及び体正面A2の一部がともに、会話ロボット１側に向いているか否かを判断する。その結果、ユーザＡの顔向き識別データ及び体向き識別データから、ユーザＡの顔正面A1の一部及び体正面A2の一部が、会話ロボット１側に向いている場合（例えば、会話ロボット１に対してユーザＡの顔が正面のとき、斜め前左右30度のとき、斜め前左右60度のとき）、このことはユーザＡが会話ロボット１や他のユーザＢとグループ会話を行うために、会話ロボット１や他のユーザＢ側に顔正面A1及び体正面A2を向けていると判断し、役割識別部36は、ユーザＡがグループ会話の参加者であると認識する。
【００３５】
また、役割識別部36は、ユーザＢについても同様に、ユーザＢの動画像から得られたユーザＢの顔向き識別データ及び体向き識別データから、ユーザＢの顔正面B1の一部及び体正面B2の一部が、会話ロボット１側に向いているか否かを判断する。その結果、ユーザＢの顔向き識別データ及び体向き識別データから、ユーザＢの顔正面B1の一部及び体正面B2の一部が、会話ロボット１側に向いている場合、このことはユーザＢが会話ロボット１や他のユーザＡとグループ会話を行うために、会話ロボット１や他のユーザＡ側に顔正面B1及び体正面B2を向けていると判断し、役割識別部36は、ユーザＢがグループ会話の参加者であると認識する。
【００３６】
次に、役割識別部36は、位置検出部35から受け取った位置検出結果データに基づいて、グループ会話の参加者として判断したユーザＡ及びユーザＢのうち、いずれかが発話者であるか否かを判断し得る。例えば、役割識別部36は、位置検出部35から受け取った位置検出結果データに基づいて、グループ会話の参加者であると判断したユーザＡのマイクロホン37aから音声信号を取得すると、当該ユーザＡを発話者（主注目対象物）とし、他方のユーザＢを聴者（従注目対象物）とし、これらユーザＡ及びユーザＢの各役割（この場合、ユーザＡを発話者（主注目対象物）とし、他方のユーザＢを聴者（従注目対象物）とする）を、位置検出結果データに対応付けた主従注目位置検出データを生成し、これを頭部駆動制御部41及び胴体部駆動制御部42にそれぞれ送出する。
【００３７】
なお、このとき、役割識別部36は、例えば現在発話している発話者たるユーザＡの顔向き識別データに基づいて、ユーザＡの顔正面A1の向きがユーザＢ方向であると判断すると、当該ユーザＡがユーザＢに向けて現在発話しており、ユーザＡの発話終了後にユーザＢが何らかの返答をするため発話する可能性が高いと推定し、このユーザＢを次発話推定者（ユーザＡの発話終了後にこの次発話推定者（次注目対象推定物）を主注目対象物とする）として、これを主従注目位置検出データに対応付けて頭部駆動制御部41に送出する。
【００３８】
さらに、役割識別部36は、後述する行動選択部40にて選択された発話内容を当該行動選択部40から受け取り、会話ロボット１自身が現在発話していると認識したとき、顔向き・体向き検出部32からの顔向き識別データ及び体向き識別データから、会話ロボット１に顔正面A1,B1及び体正面A2,B2を向けているユーザＡ又はユーザＢが存在しているか否かを判断する。その結果、役割識別部36は、顔正面A1,B1及び体正面A2,B2を会話ロボット１に向いているユーザＡ又はユーザＢを主聴者（主注目対象物）とし、これを主従注目位置検出データに対応付けて頭部駆動制御部41及び胴体部駆動制御部42にそれぞれ送出する。因みに、この実施の形態の場合、ユーザＡ及びユーザＢともに顔正面A1,B1及び体正面A2,B2が会話ロボット１に向いているとき、ユーザＡ及びユーザＢのいずれか一方をランダムに主聴者として選択し、これを主従注目位置検出データに対応付けて頭部駆動制御部41に送出する。
【００３９】
頭部駆動制御部41は、役割識別部36から主従注目位置検出データを受け取ると、発話者や主聴者等の主注目対象物としたユーザＡ又はユーザＢの方向（以下、これを主注目対象方向と呼ぶ）を特定した後、頭部正面3aと、主注目対象方向との角度差を算出する。実際上、この頭部駆動制御部41は、図４（Ａ）に示すように、ＣＣＤカメラ23の撮像画枠51の中央線（以下、画枠中央線と呼ぶ）dが頭部正面3aとして予め設定されており、当該画枠中央線下端を角度中心点Oとして、この角度中心点Oから、主注目対象物とした例えばユーザＡの胴体中心方向に延びる主注目対象方向線d1を算出する。また、頭部駆動制御部41は、角度中心点Oを基準に画枠中央線dから主注目対象方向線d1までの角度（以下、これを主注目対象角度と呼ぶ）θ1を算出し、この主注目対象角度θ1を頭部回動命令として頭部アクチュエータ43に送出する。
【００４０】
なお、図４（Ａ）では、既に画枠中央線dと主注目対象方向線d1とが一致していることから、主注目対象角度θ1は0度となる。仮に画枠中央線dと主注目対象方向線d1とがずれているときには、頭部アクチュエータ43が頭部回動命令に基づいて主注目対象角度θ1だけ頭部３を回動させることにより、画枠中央線dと主注目対象方向線d1とを一致させ、主注目対象方向に頭部正面3aを向けさせ得る（図２（Ａ）及び（Ｂ））。
【００４１】
因みに、胴体部駆動制御部42は、会話ロボット１がユーザＡとだけ会話を行なっているとき、上体部８を主注目対象角度θ1まで回動させるのに必要な上体部回動角度を算出し、この上体部回動角度を胴体部回動命令として胴体部アクチュエータ44に送出する。胴体部アクチュエータ44は、胴体部回動命令に基づいて上体部回動角度だけ上体部８を回動させることにより、頭部正面3aが向いている主注目対象方向に胴体部正面8bも向けさせ得る（図２（Ａ））。
【００４２】
これに対して、胴体部駆動制御部42は、ユーザＡだけでなくユーザＢとも会話を行なっているとき、役割識別部36から主従注目位置検出データを受け取ると、図４（Ａ）に示すように、角度中心点Oから、主注目対象物としたユーザＡの胴体中心方向に延びる主注目対象方向線d1を算出し、角度中心点Oを基準に画枠中央線dから主注目対象方向線d1までの主注目対象角度θ1を算出する。
【００４３】
また、このとき胴体部駆動制御部42は、角度中心点Oから、従注目対象物としたユーザＢの胴体中心方向に延びる従注目対象方向線d2を算出し、角度中心点Oを基準に画枠中央線dから従注目対象方向線d2までの角度（以下、これを従注目対象角度と呼ぶ）θ2を算出する。次いで、胴体部駆動制御部42は、これら主注目対象角度θ1と従注目対象角度θ2とを全て合算して、認識したユーザ（ユーザＡ及びユーザＢ）の総数である「２」で除算し、角度中心点Oを基準に画枠中央線dから重心方向線CG1までの角度（以下、これを重心方向角度と呼ぶ）θ_CG1を算出して、これを胴体部回動命令として胴体部アクチュエータ44に送出する。
【００４４】
これにより、胴体部アクチュエータ44は、胴体部回動命令に基づいて重心方向角度θ_CG1だけ上体部８を回動させることにより、胴体部正面8bを重心方向線CG1側に向けさせ得る（図２（Ａ）及び（Ｂ））。かくして、会話ロボット１は、上体部８だけを回動させて、胴体部正面8bを重心方向へ向けることで、あたかも会話ロボット１、ユーザＡ及びユーザＢの全員でグループ会話を行っているかのような意思表示を、ユーザＡ及びユーザＢに行ない得る。
【００４５】
因みに、上述した実施の形態においては、グループ会話として、ユーザＡ及びユーザＢの２人をグループ会話の参加者としたときの会話ロボット１の動作について述べたが、本発明はこれに限らず、３人や４人等その他複数人をグループ会話の参加者としたときでも、この会話ロボット１は同様の動作を実行し得る。例えば、図４（Ｂ）に示すように、ユーザＡ及びユーザＢに加えて、新たにユーザＣが加わり、３人をグループ会話の参加者としたときの会話ロボット１における動作について以下説明する。
【００４６】
この場合、役割識別部36は、ユーザＣについても同様に、ユーザＣの動画像から得られたユーザＣの顔向き識別データ及び体向き識別データから、ユーザＣの顔正面C1の一部及び体正面C2の一部が、会話ロボット１側に向いているか否かを判断する。その結果、ユーザＣの顔向き識別データ及び体向き識別データから、ユーザＣの顔正面C1の一部及び体正面C2の一部が、会話ロボット１側に向いている場合、このことはユーザＣが会話ロボット１や他のユーザＡ、ユーザＢとグループ会話を行うために、会話ロボット１側に顔正面C1及び体正面C2を向けていると判断し、役割識別部36は、ユーザＣがグループ会話の参加者であると認識する。
【００４７】
また、胴体部駆動制御部42は、役割識別部36から主従注目位置検出データを受け取ると、上述と同様にして、角度中心点Oを基準に画枠中央線dから主注目対象方向線d1までの主注目対象角度θ1を算出するとともに、角度中心点Oを基準に画枠中央線dから従注目対象方向線d2までの従注目対象角度θ2を算出する。また、ここでは、図４（Ｂ）に示すように、ユーザＡ及びユーザＢに加えて、新たにユーザＣが認識されている。これにより、胴体部駆動制御部42は、角度中心点Oから、従注目対象物としたユーザＣの胴体中心方向に延びる従注目対象方向線d3を算出し、角度中心点Oを基準に画枠中央線dから従注目対象方向線d3までの従注目対象角度θ3を算出する。
【００４８】
そして、胴体部駆動制御部42は、これら主注目対象角度θ1と従注目対象角度θ2と従注目対象角度θ3を全て合算して、認識したユーザ（ユーザＡ、ユーザＢ及びユーザＣ）の総数である「３」で除算し、画枠中央線dから重心方向線CG1までの重心方向角度θ_CG2を算出して、これを胴体部回動命令として胴体部アクチュエータ44に送出する。すなわち、この胴体部駆動制御部42は、θ1＋θ2＋θ3＋…＋θn／nの計算式に基づいて、角度中心点Oを基準に画枠中央線dからの重心方向角度θ_CGを算出し得るようになされている（但し、θ1は主注目対象角度、θ2〜θnは従注目対象角度を示し、nは認識したユーザ総数を示す）。
【００４９】
因みに、図３に示すように、行動選択部40は、音声処理部39から単語列データを受け取ると、データベース47に予め記憶されているキーワードを読み出して、当該単語列データの中に含まれるキーワードを抽出し、予め定められたテンプレートの中からこれら抽出したキーワード列と対応するテンプレートをデータベース47から読み出す。これにより行動選択部40は、キーワード列に基づいて選択された所定のテンプレートから、キーワード列がどのような意味を示しているのかを判断し得るようになされている。ここでデータベース47には、各テンプレート毎に、会話ロボット１が発話する発話内容や、腕部4a,4bを動かす等の動作内容を示す行動パターンが対応付けられた行動パターンテーブルが予め記憶されている。
【００５０】
これにより、行動選択部40は、文字列データから抽出したキーワード列に対応する行動パターンを、テンプレートを基に行動パターンテーブルの中から選択し、この選択した行動パターンに対応付けられた所定の発話内容及び動作内容をデータベース47から読み出して、発話内容を音声合成部48に送出するとともに、動作内容を腕部4a,4b等の各駆動部に送出する。音声合成部48は、行動選択部40から与えられる発話内容を音声信号に変換する機能を有し、かくして得られた音声信号をスピーカ49に送出するようになされている。これによりこの音声信号に基づく音声をスピーカ49から出力させることができるようになされている。また、腕部4a,4b等の駆動部は、行動選択部40から与えられる動作内容を基に、ユーザＡやユーザＢの発話に応じて手部15を上げる等、状況に応じた自律的な動作を実現し得る。
【００５１】
因みに、会話ロボット１は、図２（Ｂ）に示すように、ユーザＡ及びユーザＢとの間でグループ会話を行なっている際に、図５（Ａ）に示すように、例えばユーザＢが会話ロボット１側に顔正面B1の一部及び体正面B2の一部が向かないように向きを変えると、ユーザＢがグループ会話の参加者ではなくなったと判断し、図５（Ｂ）に示すように、ユーザＡ側に胴体部正面8bを向け、ユーザＡとの間だけで会話を行なうようになされている。
【００５２】
実際上、役割識別部36は、ユーザＢの動画像から得られたユーザＢの顔向き識別データ及び体向き識別データから、ユーザＢの顔正面B1の一部及び体正面B2の一部が、会話ロボット１側に向いていないと判断すると（例えば、会話ロボット１に対してユーザＢの顔が、斜め前左右90度以上のとき）、ユーザＢがグループ会話の参加者でなりことを示す主従注目位置検出データを生成し、これを胴体部駆動制御部42にそれぞれ送出する。
【００５３】
胴体部駆動制御部42は、上体部８を主注目対象角度θ1まで回動させるのに必要な上体部回動角度を算出し、この上体部回動角度を胴体部回動命令として胴体部アクチュエータ44に送出する。胴体部アクチュエータ44は、胴体部回動命令に基づいて上体部回動角度だけ上体部８を回動させることにより、頭部正面3aが向いている主注目対象方向に胴体部正面8bも向けさせ得る（図５（Ｂ））。これにより、会話ロボット１は、ユーザＢがグループ会話から離脱しても、ユーザＡに対し胴体部正面8bを向かせることにより、ユーザＡとの間で会話を続ける意思表示を行なえ、状況に応じた自然な会話を行い得る。
【００５４】
（３）動作及び効果
以上の構成において、会話ロボット１では、ユーザＡやユーザＢの音声や動画像に基づいて、ユーザＡ及びユーザＢのうちいずれが発話者であるかを認識し、ユーザＡ又はユーザＢの発話内容に応じて、スピーカ49から発する発話内容や、腕部4a,4bの動作等の行動パターンを変化させ、ユーザＡやユーザＢとの会話に応じた自律的行動を実現できる。
【００５５】
また、この会話ロボット１では、ユーザＡ及びユーザＢのうち、発話者や主聴者、或いは発話終了後の次発話推定者を主注目対象物と認識し、当該主注目対象物の方向に頭部正面3aが向くように頭部３を回動させる。これにより、会話ロボット１では、あたかも主注目対象物となるユーザＡ又はユーザＢの動作に応じて、ユーザＡ又はユーザＢと会話するため注視しているかのような印象を与えることができ、かくしてユーザＡ又はユーザＢとの間で状況に応じた自然な会話を行い得る。
【００５６】
これに加えて、この会話ロボット１では、主注目対象角度θ1及び従注目対象角度θ2を算出し、これら主注目対象角度θ1と従注目対象角度θ2とを全て合算した後、認識したユーザ（ユーザＡ及びユーザＢ）の総数で除算して重心方向角度θ_CG1を算出し、胴体部正面8bをこの重心方向角度θ_CG1まで回動させる。このように、会話ロボット１では、胴体部正面8bを重心方向角度θ_CG1まで回動させることで、重心方向に胴体部正面8bを向けさせて、ユーザＡだけでなくユーザＢに対しても、あたかも注目しているかのような印象を与えることができ、かくしてユーザＡ又はユーザＢとの間で状況に応じた自然な会話を実現し得る。
【００５７】
（４）他の実施の形態
なお、本発明は、本実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形実施が可能であり、例えば犬等の動物に似せた会話ロボットを適用してもよい。また、上述した実施の形態においては、対象物としてのユーザＡ及びユーザＢのうち、ユーザＡを主注目対象物とし、ユーザＢやユーザＣを従注目対象物とした場合について述べたが、本発明はこれに限らず、例えば筆記具により文字を記載可能な掲示型のボードや、各種情報が表示された表示装置、掲示型の印刷物等を主注目対象物又は従注目対象物（対象物）としてもよい。
【００５８】
この場合、会話ロボット１は、主注目対象物としてボードを認識し、従注目対象物としてユーザＢを認識したとき、腕部4a,4bを可動制御する指示部制御手段（図示せず）によって、指示部としての腕部4a,4bを主注目対象物たるボードの方向に向けるように、当該腕部4a,4bの可動を制御するようにしてもよい。
【００５９】
この際、会話ロボット１は、胴体部駆動制御部42によって、主注目対象物としてのボードの位置から求めた主注目対象角度θ1と、従注目対象物としてのユーザＢの位置から求めた従注目対象角度θ2とを全て合算して、認識した対象物（ボード及びユーザＢ）の総数である「２」で除算し、角度中心点Oを基準に画枠中央線dから重心方向線CGまでの重心方向角度θ_CGを算出して、これを胴体部回動命令として胴体部アクチュエータ44に送出する。
【００６０】
これにより、会話ロボット１では、胴体部アクチュエータ44により、胴体部回動命令に基づいて重心方向角度θ_CGだけ上体部８を回動させ、胴体部正面8bを重心方向線CG1側に向けさせることができる。かくして、会話ロボット１の上体部８だけを回動させて、胴体部正面8bを重心方向へ向けることで、あたかも会話ロボット１が、ボードを腕部4a,4bで指示しつつ、上体部８の一部をユーザＢ側に向けて、ボードに注目しつつユーザＢとの間で会話を行なっているかのような印象を与えることができる。
【００６１】
また、上述した実施の形態においては、撮像画枠51内のユーザＡ及びユーザＢの位置を基に重心方向を求め、基台６を動かすことなく、上体部８のみを回動させて重心方向に胴体部正面8bを向けさせるようにした場合について述べたが、本発明はこれに限らず、例えば撮像画枠51内のユーザＡ及びユーザＢの位置を基に重心方向を求め、この重心方向へ胴体部正面8bを向けるための回動角度が、所定の回動角度以上であるとき、上体部８の回動を所定の回動角度範囲内になるように、移動制御手段によって基台６の車輪５を回動させ、胴体部２自体を回動角度方向に回動させたり、或いは胴体部２を回動角度方向側に平行移動させる等して、回動角度方向に胴体部２を自動的に移動させるようにしてもよい。
【００６２】
さらに、上述した実施の形態においては、撮像画枠51内の全てのユーザＡ及びユーザＢの位置から重心方向を求め、当該上体部８を重心方向へ回動させるようにした場合について述べたが、本発明はこれに限らず、撮像画枠51内の全てのユーザＡ及びユーザＢの位置から求めた重心方向に、胴体部正面8bを向けると、所定回動角度以上に上体部８を回動させる必要があるとき、当該所定回動角度以内となるように、所定回動角度以上の位置に存在するユーザＡ又はユーザＢを除外する等し、ユーザＡ又はユーザＢの中から一部を除外して重心方向を求めるようにしてもよい。
【００６３】
さらに、上述した実施の形態においては、外部センサとして、会話ロボット１の目部21に撮像手段であるＣＣＤカメラ23を設け、このＣＣＤカメラ23で撮像された撮像画枠51内のユーザＡ及びユーザＢの位置から重心方向を求めるようにした場合について述べたが、本発明はこれに限らず、例えば外部センサとして室内天井に撮像手段であるカメラを設置し、ユーザＡ、ユーザＢ及び会話ロボット１の位置関係を上方からカメラで撮像し、この撮像画像内のユーザＡ及びユーザＢの位置から重心方向を求め、当該重心方向に会話ロボット１の胴体部正面8bを向けるようにしてもよい。
【００６４】
また、上述した実施の形態のその他の形態として、例えば、音源方向の特定に関しては、例えば「ロボット頭部に設置した２系統のマイクによる音源定位（日本音響学会、春季研究発表講演論文誌ｐｐ469-470 1999 小林哲則、宮田大介、松坂要佐）」に記載された技術内容を用いていてもよく、この場合、頭部３に２つのマイクロホンを設け、各マイクロホンで受音した信号から音源定位を行い、おおよその到来方向を求めた後、ＣＣＤカメラ23で得られた動画像を画像処理してその方向にいるユーザを検索し、発話者として認定するようにしてもよい。
【符号の説明】
【００６５】
１会話ロボット
２胴体部
３頭部
4a,4b 腕部（指示部）
５車輪（移動手段）
８上体部
23 ＣＣＤカメラ（外部センサ）
37a,37b マイクロホン（外部センサ）
35 位置検出部（位置検出手段）
36 役割識別部（役割識別手段）
41 頭部駆動制御部（頭部制御手段）
42 胴体部駆動制御部（胴体部制御手段）

【特許請求の範囲】
【請求項１】
胴体部に回動可能に設けられた上体部と、前記上体部に回動可能に設けられた頭部とを備え、外部センサからの出力結果に基づいて自律的に発話する会話ロボットにおいて、
前記外部センサから取得した出力結果から複数の対象物の位置を検出する位置検出手段と、
前記複数の対象物の位置から求めた重心方向に、前記上体部の正面を向けるように前記上体部の回動角度を制御する胴体部制御手段と
を備えることを特徴とする会話ロボット。
【請求項２】
前記外部センサから取得した出力結果に基づいて、前記複数の対象物のうち1つを主注目対象物として認識し、他の残りの前記対象物を従注目対象物として認識する役割識別手段と、
前記主注目対象物の方向に前記頭部の正面を向けるように前記頭部の回動角度を制御する頭部制御手段とを備え、
前記胴体部制御手段は、
前記主注目対象物と前記従注目対象物の位置から求めた重心方向に、前記上体部の正面を向けるように前記上体部の回動角度を制御する
ことを特徴とする請求項１記載の会話ロボット。
【請求項３】
前記外部センサから取得した出力結果に基づいて、前記複数の対象物のうち1つを主注目対象物として認識し、他の残りの前記対象物を従注目対象物として認識する役割識別手段と、
前記主注目対象物の方向に指示部を向けるように前記指示部の可動を制御する指示部制御手段とを備え、
前記胴体部制御手段は、
前記主注目対象物と前記従注目対象物の位置から求めた重心方向に、前記上体部の正面を向けるように前記上体部の回動角度を制御する
ことを特徴とする請求項１記載の会話ロボット。
【請求項４】
前記重心方向に前記上体部の正面を向けると、前記上体部の回動角度が所定回動角度以上になる場合、前記上体部の回動を前記回動角度の範囲内になるように、前記胴体部を移動手段によって移動させる移動制御手段を備える
ことを特徴とする請求項１〜３のうちいずれか１項記載の会話ロボット。
【請求項５】
前記胴体部制御手段は、
前記複数の対象物から求めた前記重心方向へ前記上体部の正面を向けると、前記上体部の回動角度が所定回動角度以上になる場合、前記上体部の回動角度が前記所定回動角度範囲内となるように、前記複数の対象物の中から所定の対象物を除外して前記重心方向を求める
ことを特徴とする請求項１〜３のうちいずれか１項記載の会話ロボット。
【請求項６】
前記複数の対象物がユーザであり、
前記役割識別手段は、
前記外部センサから取得した画像及び又は音声に基づいて、複数の前記ユーザのうち、発話するユーザを前記主注目対象物として認識し、他の残りの前記ユーザを前記従注目対象物として認識する
ことを特徴とする請求項２〜５のうちいずれか１項記載の会話ロボット。
【請求項７】
前記主注目対象物として認識した前記ユーザが注目する次注目対象推定物を認識し、該ユーザが発話終了後に前記次注目対象推定物を新たな主注目対象物とする
ことを特徴とする請求項６記載の会話ロボット。

【図１】