説明

検索システム及び検索方法

【課題】誰もが簡単かつ効率的に目的の情報を検索することを可能にする技術を提供する。
【解決手段】検索システムは、複数の語をその語のもつ概念又は意味に基づき体系的に分類し記憶しているシソーラスDB15と、一又は複数の検索語をユーザに入力させる入力部10と、入力された検索語の類語をシソーラスDB15から抽出する類語抽出部11と、入力された検索語とその類語とから検索式を生成する検索式生成部12と、前記検索式を用いて検索を実行し、その検索結果を出力する検索エンジン13と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットやデータベースを検索するための技術に関する。
【背景技術】
【0002】
インターネットの普及と拡大は急速であり、様々な情報がインターネット上から得られる環境が構築されてきている。しかしながら、急速であったがためにこの環境は統一性に欠けており、真に必要かつ重要な情報を入手するには、情報はむしろ過多、あるいは氾濫と言ってもいい状況である。同様に、情報の集積であるデータベースも、コンピュータハードウエアの進歩に伴い、インターネット上にある情報同様、すでに一個人が知識として持っている語彙では検索を賄いきれないほどの情報量と容量を得るに至っている。この混沌の中から如何に無用・無駄な情報を切り捨て、如何に必要とする情報を的確且つ迅速に獲得するか、その手法が求められている。
【0003】
インターネットやデータベースの検索においては、ユーザ(検索者)自身が適切な検索語若しくは検索式を入力しない限り、目的を満足するような的確な検索結果を得ることはできない。とはいえ、一個人の使用語彙には限度がある。理解語彙としてもっている語を想起することは困難であるし、そもそも知識にない語は検索語として思いつかない。
【0004】
たとえば、現状の検索システムでは、「香水」というキーワードで検索を行うと、その文字列を含んでいる情報のみが検索結果として抽出される。検索者の目的が「香水」という言葉で総称されるもの全てに関連する情報の収集にある場合は、「香水」というキーワードでは不十分である。そこで、「香水+オーデコロン+パフューム」のように思いつく限りの関連語を列挙した検索式を作成し、検索を実行することになる。しかしながら、一人の人間の使用語彙には限界があり、どの分野・物事についても関連語をすべて網羅することは不可能である。よって、従来は、検索者の知識やスキルによって検索結果や検索効率に大きな差がでてしまっていた。
【0005】
検索の効率化を図るための手法として、セマンティック・ウェブとよばれる技術が提唱されている。セマンティック・ウェブは、XML(Extensible Markup Language)などで記述したウェブページにそのデータの意味を記述したメタデータを付加しておくことによって、コンピュータによる意味内容の理解や分析を可能にしようとする試みである。ただし、セマンティック・ウェブの実現には、意味内容の記述形式やメタデータの仕様を策定し、さらにはWWW(World Wide Web)内の膨大なウェブ資産にメタデータを浸透させなければならず、相当の時間と技術的な困難を伴うと予想される。
【0006】
また、特許文献1には、検索サーバの中に、ウェブサイトのメタデータを記憶するコンテンツDBを設けておき、そのメタデータを検索に活用するという仕組みが提案されている。このシステムでは、検索サーバがコンテンツDBに複数のサイトのメタデータとコンテンツの評価値を記憶している。利用者による検索要求があると、検索サーバは、メタデータに検索語が含まれている該当コンテンツの有無を検索し、サイトごとにコンテンツの評価値を基礎としてそのサイトの評価計算値を求め、そのサイトのすべてのコンテンツの評価値から総評価計算値を算出する。そして、各サイトを評価計算値を基礎としてソートし、検索結果画面にソートされたサイトを表示させることで、サイト検索の効率化を図っている。ただし、このシステムは、コンテンツDBに登録されていないサイトは検索の対象にならないという根本的な問題がある。
【0007】
セマンティック・ウェブも特許文献1のシステムも、検索対象となる情報(ウェブペー
ジ、ウェブサイトなど)の側に意味表現のためのメタデータを用意する、という点では同じアプローチを採用するものといえる。かかるアプローチには、上述のように、全ての情報に対してメタデータを用意するのが難しい、メタデータのない情報は検索の対象にならない、などの根本的な問題がある。しかも、メタデータを作成するのは人間であるため、そこに作成者の主観や恣意などが入り込むと、客観的な若しくは正確な検索結果が得られない可能性もある。
【特許文献1】特開2006−338346号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明は上記実情に鑑みてなされたものであり、その目的とするところは、誰もが簡単かつ効率的に目的の情報を検索することを可能にする技術を提供することにある。
【0009】
また本発明の別の目的は、ユーザ(検索者)の知識や語彙を補完し、又は、ユーザによる検索語の入力を補助するための技術を提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するために、本発明は、シソーラスデータを、検索語の補完・拡張や、検索語の入力補助に活用する。具体的には、本発明は、以下に述べる手段または処理を採用する。
【0011】
本発明に係る検索システムは、複数の語をその語のもつ概念又は意味に基づき体系的に分類し記憶しているシソーラスデータと、一又は複数の検索語をユーザに入力させる入力手段と、入力された検索語の類語を前記シソーラスデータから抽出する抽出手段と、入力された検索語とその類語とから検索式を生成する検索式生成手段と、前記検索式を用いて検索を実行し、その検索結果を出力する検索手段と、を備える。
【0012】
ここで、前記シソーラスデータが、前記複数の語のそれぞれに対して、一又は複数のURI情報を登録可能な構造を備えており、前記検索手段は、前記検索語又はその類語に登録されているURI情報を前記シソーラスデータから読み出して、検索結果として出力する機能を備えるとよい。
【0013】
また、共起する語の組み合わせ及びその共起頻度を記憶している共起情報データをさらに備え、前記検索手段は、検索結果が複数得られた場合に、前記検索式に含まれる語のうち共起頻度の高い組み合わせの語を含んでいる検索結果を優先的に出力するとよい。
【0014】
また、前記検索式に含まれるそれぞれの語を第1の言語から第2の言語に翻訳する翻訳手段をさらに備え、前記検索式生成手段は、前記第2の言語に翻訳された訳語を前記検索式に追加するとよい。
【0015】
また、前記第2の言語に関して、共起する語の組み合わせ及びその共起頻度を記憶している第2の共起情報データをさらに備え、前記検索式に含まれるそれぞれの語の訳語の組み合わせが複数存在する場合に、前記検索式生成手段は、共起頻度の高い訳語の組み合わせを、前記検索式に追加する訳語の組み合わせとして優先的に選択するとよい。
【0016】
また、共起する語の組み合わせ及びその共起頻度を記憶している共起情報データをさらに備え、前記入力手段は、前記共起情報データを用いてユーザによる複数の語の連続入力を補助する第1の入力補助機能を備えており、前記第1の入力補助機能は、ユーザにより語が入力されると、その語と共起可能な一又は複数の語を次に入力すべき語の候補としてユーザに提示するとよい。
【0017】
また、前記入力手段は、前記シソーラスデータを用いてユーザによる語の入力を補助する第2の入力補助機能を備えており、前記第2の入力補助機能は、ユーザにより語が入力されると、その入力語の下位分類に属する語群を次の入力候補としてユーザに提示する、という処理を順次繰り返すことによって、上位概念の語から下位概念の語へとユーザを導くとよい。
【0018】
本発明は、上記手段の少なくとも一部を有する検索システムとして捉えることができる。また、本発明は、上記処理の少なくとも一部を含む検索方法、または、かかる方法を実現するためのプログラム、さらにはそのプログラムを記憶したコンピュータ読み取り可能な記録媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせることができる。
【0019】
たとえば、本発明の一態様としての検索方法は、複数の語をその語のもつ概念又は意味に基づき体系的に分類し記憶しているシソーラスデータ、を備えるコンピュータが、一又は複数の検索語をユーザに入力させる処理と、入力された検索語の類語を前記シソーラスデータから抽出する処理と、入力された検索語とその類語とから検索式を生成する処理と、前記検索式を用いて検索を実行し、その検索結果を出力する処理と、を実行するものである。
【0020】
また、本発明の一態様としてのプログラムは、複数の語をその語のもつ概念又は意味に基づき体系的に分類し記憶しているシソーラスデータ、を備えるコンピュータに、一又は複数の検索語をユーザに入力させる処理と、入力された検索語の類語を前記シソーラスデータから抽出する処理と、入力された検索語とその類語とから検索式を生成する処理と、前記検索式を用いて検索を実行し、その検索結果を出力する処理と、を実行させるためのものである。
【発明の効果】
【0021】
本発明によれば、誰もが簡単かつ効率的に目的の情報を検索することができる。また、ユーザの知識や語彙を補完し、又は、ユーザによる検索語の入力を補助することができる。
【発明を実施するための最良の形態】
【0022】
以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。
【0023】
<第1実施形態>
図1は、本発明の第1実施形態に係る検索システムの全体構成を示す図である。この検索システムは、インターネット上のウェブサイトやウェブページの検索サービスを提供するものであり、本実施形態では検索サーバ1単体で検索システムが構築されている。ユーザ(検索者)はユーザ端末2からインターネットを介して検索サーバ1にアクセスし、検索サービスを利用する。ユーザ端末2としては、一般的なコンピュータの他、携帯電話、スマートフォン、携帯情報端末などインターネットにアクセス可能なあらゆる端末を利用可能である。
【0024】
検索サーバ1は、主な機能として、入力部10、類語抽出部11、検索式生成部12、検索エンジン13、共起情報DB(データベース)14、シソーラスDB15、検索DB16などを備えている。この検索サーバ1は、ハードウエア的には、CPU(中央演算処理装置)、メモリ、ハードディスクその他の記憶装置、入力装置、表示装置、通信IFなどを具備する一又は複数の汎用のコンピュータで構成可能である。上述した検索サーバ1の機能は、記憶装置に格納されたプログラムをCPUが実行し、必要に応じてハードウエ
ア資源を制御することによって実現されるものである。また、各種DBは記憶装置内に構築されている。
【0025】
(シソーラスDB15)
シソーラスDB15は、多数の語(見出し語)をその語のもつ概念又は意味に基づき体系的に分類し記憶している辞書データである(類語辞典ともよばれる)。名詞、動詞、形容動詞などの単語だけでなく、複数の単語から構成される句や文なども見出し語になり得る。
【0026】
図2は、シソーラスDB15のデータの階層構造の一例を示している。この階層構造において、同一の階層に分類されている語群が類語(類義語、同義語、関連語、異表記語)である。そして階層が上にいくほど広義語に、下にいくほど狭義語になっている。たとえば、「さかな」という語の類語には「水中にすむ哺乳類」があり、それらを包含する概念が「泳ぐ生き物」である。そして「さかな」には、「淡水魚」と「海水魚」があり、さらに「淡水魚」には「コイ」「フナ」「アユ」などが含まれる。ここでは、最上位の階層を第1分類とよび、以下順番に下位の階層を第2分類、第3分類・・・とよぶ。最下層の見出し語には、その語釈と用例が関連付けられている(図示略)。
【0027】
このシソーラスDB15が、従来のシソーラスや類語辞典と最も異なる点は、見出し語に対してURI情報を登録可能な構造を有している点である。URI情報は、リソースのタイトル(リソースの内容を表す名称)と、当該リソースの所在を示すURI(Uniform Resource Identifier)とから構成される。リソースの種類は問わないが、URI情報の
典型的なものはウェブサイトの名称とそのURL(Uniform Resource Locator)である。1つの見出し語に対して、複数のURI情報を登録することができる。図2の例では、「クジラ」という語に対して、ホエールウォッチングを取り扱う旅行サイト、捕鯨に関する情報サイト、鯨料理店の紹介サイトなど、クジラ全般に関連のある様々な種類のURI情報が登録されている。
【0028】
このようなURI情報の活用方法はいろいろと考えられる。たとえば、検索語が与えられたときに、実際にインターネット等を検索する代わりに(または、インターネット等の検索結果と一緒に)、与えられた検索語に登録されているURI情報を検索結果として出力してもよい。また、URI情報として企業、商品、サービスなどを紹介する広告情報を登録しておくことで、いわゆるスポンサードサーチのような仕組みを実現することも可能である。
【0029】
また、シソーラスDB15には、各単語の表記ゆれに関する情報も格納されている。表記ゆれには、漢字表記と仮名表記の違い、送り仮名の違い、外来語のカタカナ表記の違い、異体字、代用漢字など様々なものがある。たとえば、「ワールドワイドウェブ」という語は、「ワールド・ワイド・ウェブ」、「ワールド・ワイド・ウェッブ」、「WWW」などの表記ゆれを有し、「引っ越し」という語は、「引越」「引越し」「引っこし」「ひっこし」などの表記ゆれを有している。本実施形態の検索システムでは、これら異表記語も類語の一つとして取り扱う。
【0030】
(共起情報DB14)
共起情報DB14は、共起情報を記憶しているデータベースである(共起辞書ともよばれる)。共起情報とは、同一の文又は文章中に同時に出現する頻度を表す情報であり、ここでは、少なくとも共起する語の組み合わせとその共起頻度とを共起情報として持たせておく。
【0031】
共起情報は、充分に大きな量のコーパス(大規模な電子化された言語データの構造体)
から、語同士の接続関係を抽出することにより求めることができる。コーパスとしては、たとえば、新聞記事のデータベースや、インターネット上のウェブページなどを利用することができる。
【0032】
図3は、共起情報DB14に格納されている共起情報の一例を示している。本実施形態では、名詞や動詞などの自立語だけでなく、助詞などの付属語も考慮した共起情報を持たせている。つまり、自立語とそれに接続する付属語の間の共起情報(たとえば名詞「鯨」と助詞「が」の共起頻度)や、自立語と付属語からなるひとまとまりの句と他の語との間の共起情報(たとえば「鯨が」と「泳ぐ」の共起頻度)なども用意する。また、「鯨」「クジラ」「くじら」のような異表記語や同義語については、共起情報を1つにまとめておく。
【0033】
図3の共起情報によれば、たとえば、「鯨/クジラ/くじら」という語が「を」という助詞と接続する頻度が最も高いことが分かる。また、「鯨を」というひとまとまりの句と最も共起頻度が高いのは「見る」という動詞であること、さらに「鯨を」「見る」という語と「旅」という語の組み合わせが最も共起頻度が高いこと、などが分かる。
【0034】
本実施形態の検索システムは、このような共起情報を、検索語の入力補助、検索結果の出力順の決定などに利用する。
【0035】
(検索DB16)
検索DB16は、検索エンジン13が検索に利用するデータベースである。検索DB16には、インターネット上にあるウェブサイトやウェブページに関する情報が、検索しやすい形に分類し格納されている。なお、検索DB16に登録される情報は、人手で収集されたものでもよいし(ディレクトリ型)、ロボットとよばれるプログラムにより自動収集されたものでもよい(ロボット型)。
【0036】
(検索語の入力;入力部10)
入力部10は、一又は複数の検索語をユーザに入力させる入力手段である。本実施形態の入力部10は、検索語の入力方式として、(1)通常入力、(2)共起情報による入力補助、(3)シソーラスによる入力補助、の3種類の入力方式を提供する。ユーザはいずれの入力方式を利用することもできる。
【0037】
(1)通常入力
図4は、通常入力の入力画面の一例を示している。入力画面のテキストボックス40に対し、ユーザは任意の文字列を入力することができる。図4に示すように、複数の単語からなる自由文が入力された場合は、入力部10が形態素解析などを行って、重要と思われる検索語をピックアップする。
【0038】
(2)共起情報による入力補助
入力部10は、共起情報DB14に格納された共起情報を用いて、ユーザによる複数の語の連続入力を補助する機能を提供する(第1の入力補助機能)。
【0039】
図5は、共起情報による入力補助画面の一例を示している。入力補助画面は複数の入力ボックスA〜Hから構成されている。AとB、CとD、EとFはそれぞれ自立語と付属語のペアとなっている。初期状態(図5の上段)では、A「だれ/なに/・・・」、B「が/・・・」、C「だれ/なに/どうする/なにをする/・・・」、・・・のように入力語の類型が表示されており、ユーザは原則ボックスAから順番に入力を行っていく。ユーザにより語が入力(選択含む)されると、その入力語と共起可能な語が共起情報DB14から読み出され、それらが次に入力すべき語の候補として次のボックスにリスト表示される
。このとき共起頻度の高い順に候補がリストアップされるとよい。
【0040】
図5の例では、ボックスAに「だれ」「なに」に相当する名詞が要求されている。ユーザがボックスAに「クジラ」と入力すると、共起情報DB14から「クジラ」に接続する付属語(格助詞や格助詞相当語など)が読み出され、それらの付属語が共起頻度順にボックスBにリスト表示される。図3に示す共起情報DBに基づけば、ボックスBには「を/が/は/に/から/・・・」のようにリスト表示されることになる。ユーザがこれらの候補の中から「が」を選択すると、自動的に共起情報DB14から「クジラが」と共起する語が読み出され、ボックスCに「泳ぐ/遊ぶ/歌う/潜る/・・・」などの語がリスト表示される。このようにして各ボックスに単語を連続入力していく。なお、リストの中に所望の語が含まれていない場合には、ボックス内に直接単語を入力することも可能である。また構文によっては空欄が存在する場合もある(図5の「φ」は空欄を表している)。
【0041】
共起情報による入力補助は、次のような利点を有する。第一に、共起関係の強い語の組み合わせを検索に用いることにより、検索結果が適切に絞り込まれるため、目的とする検索結果に到達しやすくなる(検索効率と検索精度の向上)。第二に、共起語の候補がリストアップされるため、ユーザの知識や使用語彙にない言葉、あるいは、ユーザが想起しなかった言葉なども、検索語として入力することが可能になる。
【0042】
(3)シソーラスによる入力補助
入力部10は、シソーラスDB15を用いた入力補助機能も提供する(第2の入力補助機能)。この機能は、シソーラスの分類に沿って上位概念の語から下位概念の語へと順番にユーザを導いていくものである。
【0043】
図6は、シソーラスによる入力補助画面の一例を示している。入力補助画面は、シソーラスの第1分類〜第5分類にそれぞれ対応する複数の入力ボックスから構成されている。ユーザは第1分類から順番に語を入力(選択)していく。
【0044】
まず、第1分類の入力ボックスを選択すると、シソーラスDB15の第1分類に属する語群がリスト表示される。ユーザがリストの中から語を選択すると、その選択された語の下位分類に属する語群がシソーラスDB15から読み込まれ、次の入力候補として第2分類の入力ボックスにリスト表示される。この処理を順次繰り返すことによって、上位概念の語から下位概念の語へと順番に絞り込んでいくのである。図6の例では、「泳ぐ」→「泳ぐ」→「泳ぐ生き物」→「水中にすむ哺乳類」→「クジラ」とたどることで、最終的に検索語「クジラ」を入力している。
【0045】
シソーラスによる入力補助を利用すると、ユーザの知識や使用語彙にない言葉、あるいは、ユーザが想起しなかった言葉なども、検索語として入力できるという利点がある。特に、この入力補助機能は、ユーザが検索の目的物の名称を失念してしまった場合に有利である。目的物の名称が頭に浮かばなくても、その目的物の性質、機能、外観などは理解していることが多く、それらを手がかりにシソーラスの上位概念から順に絞り込んでいくことで、失念していた名称に到達することが可能である。
【0046】
(検索語の補完・拡張;類語抽出部11)
類語抽出部11は、入力部10で入力された検索語の類語をシソーラスDB15から抽出する抽出手段である。
【0047】
たとえば図7に示すように、「クジラ・を・見る・旅」という検索語が与えられたとする。類語抽出部11は、その検索語に含まれる自立語「クジラ」「見る」「旅」のそれぞれについて、シソーラスDB15から類語(類義語、同義語、異表記語、関連語など)を
抽出する。「クジラ」については、「くじら/鯨」という異表記語と「ホエール」という同義語が抽出される。「見る」については、「みる/観る」という異表記語と「観察する」という類義語が得られる。「旅」については、「旅行」「ツアー」「ハネムーン」「船旅」などの類義語が得られる。
【0048】
また、検索語として「香水」という1つの語が与えられた場合でも、たとえば、「香水」「フレグランス/フレグラーンス/フラグランス」「パルファン/パルフアン」「パヒューム/パーヒューム/パヒユーム/パーヒユーム/パフューム/パーフューム」「オーデコロン/オー・デ・コロン/オウ・ドゥ・コロン」「オードトワレ/オー・ド・トワレ/オウ・ドゥ・トワレ」、・・・のように、多数の類語が得られる。
【0049】
このように、類語を用いて検索語の拡張を行うことで、ユーザの知識や使用語彙になかった言葉やユーザが想起し得なかった言葉なども、自動的に検索語に追加されることになる。
【0050】
(検索式の生成;検索式生成部12)
検索式生成部12は、入力部10で入力された検索語と、類語抽出部11で得られた類語とから、検索に用いる検索式を生成する検索式生成手段である。
【0051】
類語抽出部11における処理の結果、「クジラ」を基礎とする「クジラ/くじら/鯨/ホエール」という語群と、「を」という付属語と、「見る」を基礎とする「見る/みる/観る/観察する」という語群と、「旅」を基礎とする「旅/旅行/ツアー/ハネムーン/船旅」という語群と、が得られている。語群を構成する類語同士はOR条件で接続し、語群同士はAND条件で接続することで、検索式が作成される。なお、付属語についてはその前(または後)の自立語と一体のものとして扱う。
【0052】
たとえば、OR条件の表記を「+」、AND条件の表記を「*」とした場合、上記例の検索式は以下のように記述できる。
【0053】
検索式=(クジラを+くじらを+鯨を+ホエールを)*(見る+みる+観る+観察する)*(旅+旅行+ツアー+ハネムーン+船旅)
【0054】
(検索及び結果出力;検索エンジン13)
検索エンジン13は、検索式生成部12で得られた検索式を用いて検索を実行し、その検索結果をユーザ端末2に出力する検索手段である。検索エンジン13は、(1)インターネットの検索と、(2)シソーラスDBの登録URI情報の検索の2種類の検索機能を有している。検索エンジン13は、ユーザ端末2の要求内容に応じて、(1)と(2)の両方の検索を実行することもできるし、いずれか一方の検索だけを実行する場合もある。
【0055】
(1)インターネットの検索
検索エンジン13は、検索DB16を検索し、条件に合致するウェブページを抽出する。本実施形態では、ユーザにより入力された検索語「クジラを見る旅」をそのまま使うのではなく、それを類語で拡張した検索式を用いるため、「くじらを見る旅」「クジラを観察する旅」「鯨を観る旅行」「クジラを見るツアー」などの類似表現を含むウェブページをすべて抽出することができ、検索漏れをなくすことができる。
【0056】
得られた検索結果の数が多い場合には、共起情報を用いて検索結果の出力順を決定するとよい。具体的には、共起頻度の高い語の組み合わせをより多く含むウェブページほど優先的に出力することが考えられる。たとえば上記検索式において、「鯨を」と「船旅」の組み合わせよりも「クジラを」と「ツアー」の組み合わせのほうが共起頻度が高ければ、
「クジラを」と「ツアー」を含むウェブページの順位を高くする。また、「クジラを」と「ツアー」を含むウェブページ同士であれば、それらの語をより多く含むページの順位を高くする。
【0057】
あるいは、自立語とそれに接続する付属語の共起頻度の大小に着目して、検索結果の出力順を決めることもできる。たとえば、「クジラ」という語で検索を行った場合、その検索結果には「クジラを見る旅」とか「クジラが泳ぐ姿は雄大だ。」のようにクジラに直接関係する表現を含むページの他、「クジラのような形の雲がいくつも流れて行きました。」のようにクジラ自体とは無関係なことを記したページも含まれることがある。このとき、「クジラ」に接続する付属語「を」「が」「のように」の共起頻度を比べることにより、「クジラを」とか「クジラが」といった頻出表現を含むページの順位を高くし、逆に「クジラのように」といった稀な表現を含むページを排除することができる。
【0058】
このようにして得られた検索結果(ウェブページのURLなど)は、ユーザ端末2に表示される。
【0059】
(2)シソーラスDBの登録URI情報の検索
検索エンジン13は、入力された検索語やその類語に登録されているURI情報をシソーラスDB15から読み出して、検索結果として出力することもできる。
【0060】
たとえば、「クジラ」という検索語が与えられた場合、検索エンジン13は、シソーラスDB15から「クジラ」又はその類語に登録されているURI情報を取得する。これにより、ホエールウォッチングを取り扱う旅行サイト、捕鯨に関する情報サイト、鯨料理店の紹介サイトなど、クジラ全般に関連のある様々な種類のURLを得ることができる(図2参照)。
【0061】
一方、「クジラを見る旅」のように複数の語から構成される検索語の場合には、検索語に含まれる自立語(通常は名詞だけでよい)「クジラ」「旅」及びその類語をシソーラスDB15から検索し、それぞれの語に関連付けられているURI情報を取得する。「クジラ」という語からは、上記のように、ホエールウォッチング、捕鯨、鯨料理店などに関する情報が得られる。また「旅」という語からは、国内旅行、海外旅行、土産、飛行機、宿泊など、旅全般に関するURI情報が取得される。このようにして得られたURI情報には、「クジラを見る旅」とは無関係な情報も含まれるので、検索語に含まれる語「クジラ」「見る」「旅」及びそれらの類語を用いて絞り込み(マッチング)を行う。その結果、図8に示すように、「クジラを見る旅」に関係するURI情報として、「小笠原ホエールウォッチング」「沖縄ホエールウォッチング」「南アフリカ旅行」「カナダ旅行」などのURLを得ることができる。
【0062】
インターネット検索の結果には無駄な情報が含まれることが多い。これに対して、シソーラスDB15の検索結果は、検索語やその類語に直接関連付けられているスタティックな情報であるため、ユーザの検索目的に合致した情報である蓋然性が高い。よって、インターネット検索の結果と一緒に、あるいは、インターネット検索の代わりに、シソーラスDB15の検索結果を出力することで、ユーザに対して有益な情報を提供することが可能となる。
【0063】
以上述べた本実施形態の検索システムは、シソーラスDBや共起情報DBを活用して、検索語の入力を補助したり、入力された検索語を補完・拡張したりすることで、ユーザ(検索者)の保有知識や使用語彙に制限されない網羅的な検索式の設定を可能とする。よって、知識やスキルに依らず、誰でも的確な検索結果を効率的に得ることができる。さらに、シソーラスや共起情報に基づき検索結果の出力順が決められているので、目的とする情
報の発見が容易になる。しかも、セマンティック・ウェブのように検索対象となる情報の側にメタデータを付加するのではなく、検索を実行する側にシソーラスDBなどの機能拡張を施すだけでよいので、簡単かつ低コストでの実現が可能である。
【0064】
<第2実施形態>
図9を参照して、本発明の第2実施形態に係る検索システムを説明する。第2実施形態の検索システムは、複数の言語での同時検索が可能な点が第1実施形態と異なる。その他の構成および作用については第1実施形態のものと同様なので、以下では第2実施形態に特有の部分のみを説明することとする。
【0065】
図9は、第2実施形態に係る検索システムの全体構成を示している。この検索システムは、翻訳エンジン17と日英対訳辞書18とを備えている。
【0066】
翻訳エンジン17は、検索式生成部12から検索式に含まれるそれぞれの語を受け取り、それらを日本語(第1の言語)から英語(第2の言語)に翻訳する翻訳手段である。検索式生成部12は、翻訳エンジン17から英語に翻訳された訳語を受け取ると、それらを適宜検索式に追加する。
【0067】
たとえば、日本語の検索式に「クジラ」「見る/観察する」「旅/旅行/ツアー」といった語が含まれていたとすると、翻訳エンジン17において、「whale」、「observe/watch/look at/・・・」、「journey/trip/tour/voyage/・・・」などの訳語が得ら
れる。これらの訳語を検索語に加えることで、日本語と英語での同時検索が可能となる。検索式では、日本語と英語をOR条件で並べればよい。あるいは、日本語と英語が共起することは少ないので、日本語検索用の検索式と英語検索用の検索式とを別にしても構わない。
【0068】
本実施形態の仕組みによれば、日本語で検索語を入力するだけで、適切な英語(外国語)の検索語が自動的に設定されるため、日本語のウェブページだけでなく外国語のウェブページも同時に検索可能となる。なお、翻訳エンジンと対訳辞書さえ追加すれば、英語に限らず仏語、独語、中国語、韓国語などの他の外国語にも対応可能であり、3つ以上の言語での同時検索も可能となる。
【0069】
<第3実施形態>
次に、本発明の第3実施形態に係る検索システムを説明する。第3実施形態の検索システムは、複数の言語での同時検索が可能という点では第2実施形態と同じであるが、単純に対訳するだけでなく、外国語におけるシソーラスや共起情報をも考慮した検索を行う点で第2実施形態のものとは異なる。その他の構成および作用について第1実施形態や第2実施形態のものと同様なので、以下では第3実施形態に特有の部分のみを説明することとする。
【0070】
図10は、第3実施形態に係る検索システムの全体構成を示している。この検索システムは、英語の共起情報DB20とシソーラスDB21とを備えている。これらは(1)インターネットの検索と(2)シソーラスDBの登録URI情報の検索の両方に利用される。
【0071】
(1)インターネットの検索
第2実施形態では対訳辞書で得られた訳語をそのまま検索に用いている。もし検索語が「クジラ」のように1つの語から構成され、かつ、その訳語が「whale」のように一意に
決まれば、第2実施形態の方法で問題となることはない。しかしながら、検索語が「クジラを見る旅」のように複数の単語から構成されている場合には、対訳によって得られる多
数の訳語の中に、検索の目的である「クジラを見る旅」とは無関係な訳語も含まれている可能性がある。なぜなら、1つの日本語に対して多数の訳語が得られるのが通常であるし、また対訳辞書では文脈やコロケーションを考慮した翻訳までは行わないからである(もちろん、文脈を考慮した翻訳を行うエンジンも存在する)。
【0072】
そこで、第3実施形態では、図11に示すように、英語の共起情報DB20を参照することによって、対訳で得られた訳語群の中から共起頻度の高い組み合わせのみを抽出する。また必要に応じて、英語のシソーラスDB21を参照することによって、対訳で得られた訳語の類語を取得し、共起頻度がより高い類語が存在すれば、その類語も訳語群に追加する。
【0073】
このように対訳によって得られた訳語群を、当該言語のシソーラスと共起情報に基づき適宜調整(単語の選択、削除、追加など)することによって、その言語に特有の共起関係を考慮した適切な検索語の設定が可能となる。これによって、より的確な同時検索が可能となる。
【0074】
(2)シソーラスDBの登録URI情報の検索
図12に示すように、英語のシソーラスDB21も、日本語のシソーラスDB15と同じように、各見出し語にURI情報を登録可能な構造を有している。したがって、検索エンジン13は、日本語の場合(図8)と同様、「to watch whales in Alaska」という検
索語に基づき、「CAPTAIN JOHN ALASKA」「Alaska Whale Watching Tour」「CANADA & ALASKA TOUR」「Outdoor Holiday Tour」「Alaskan Travel」などのURLを得ることが可
能である。
【0075】
<変形例>
なお、上記実施形態は本発明の一具体例を例示したものにすぎない。本発明の範囲は上記実施形態に限られるものではなく、その技術思想の範囲内で種々の変形が可能である。
【0076】
たとえば、上記実施形態では、シソーラスDB15のURI情報としてウェブサイトのURLを登録したが、URI情報の対象はこれに限らず、メールアドレス、文書やデータの格納場所など様々な種類のリソースを対象にできる。
【0077】
また上記実施形態では、インターネット検索を例に挙げたが、本発明はデータベースの検索にも適用可能である。データベース検索の場合には、検索DB16に検索対象となるデータが格納されることになる。
【0078】
また、検索サーバは外部の検索エンジンを利用することもできる。その場合は、検索サーバは、その外部の検索エンジンの仕様に合わせて検索式を作成し、その検索式と共に外部の検索エンジンに検索要求を送信する。そして、外部の検索エンジンから受け取った検索結果を必要に応じて加工してユーザ端末に出力する。かかる構成においては、検索サーバと外部の検索エンジンとで本発明の検索システムが構成されることになる。
【0079】
また、ユーザ端末側に入力部10、類語抽出部11、検索式生成部12などの機能をもたせることも可能である。その場合は、ユーザ端末側で検索式まで作成し、検索サーバは検索のみを実行することになる。かかる構成においては、ユーザ端末と検索サーバ(検索エンジン)とで本発明の検索システムが構成されることになる。
【図面の簡単な説明】
【0080】
【図1】図1は、本発明の第1実施形態に係る検索システムの全体構成を示す図である。
【図2】図2は、シソーラスDBのデータの階層構造の一例を示す図である。
【図3】図3は、共起情報DBに格納されている共起情報の一例を示す図である。
【図4】図4は、通常入力の入力画面の一例を示す図である。
【図5】図5は、共起情報による入力補助画面の一例を示す図である。
【図6】図6は、シソーラスによる入力補助画面の一例を示す図である。
【図7】図7は、検索語の補完・拡張処理を説明するための図である。
【図8】図8は、シソーラスDBの登録URI情報の検索処理を説明するための図である。
【図9】図9は、本発明の第2実施形態に係る検索システムの全体構成を示す図である。
【図10】図10は、本発明の第3実施形態に係る検索システムの全体構成を示す図である。
【図11】図11は、日本語と英語のシソーラス及び共起情報の連携を説明するための図である。
【図12】図12は、英語におけるシソーラスDBの登録URI情報の検索処理を説明するための図である。
【符号の説明】
【0081】
1 検索サーバ
2 ユーザ端末
10 入力部
11 類語抽出部
12 検索式生成部
13 検索エンジン
14 日本語の共起情報DB
15 日本語のシソーラスDB
16 検索DB
17 翻訳エンジン
18 日英対訳辞書
20 英語の共起情報DB
21 英語のシソーラスDB
40 テキストボックス

【特許請求の範囲】
【請求項1】
複数の語をその語のもつ概念又は意味に基づき体系的に分類し記憶しているシソーラスデータと、
一又は複数の検索語をユーザに入力させる入力手段と、
入力された検索語の類語を前記シソーラスデータから抽出する抽出手段と、
入力された検索語とその類語とから検索式を生成する検索式生成手段と、
前記検索式を用いて検索を実行し、その検索結果を出力する検索手段と、
を備えることを特徴とする検索システム。
【請求項2】
前記シソーラスデータが、前記複数の語のそれぞれに対して、一又は複数のURI情報を登録可能な構造を備えており、
前記検索手段は、前記検索語又はその類語に登録されているURI情報を前記シソーラスデータから読み出して、検索結果として出力する機能を備える
ことを特徴とする請求項1に記載の検索システム。
【請求項3】
共起する語の組み合わせ及びその共起頻度を記憶している共起情報データをさらに備え、
前記検索手段は、検索結果が複数得られた場合に、前記検索式に含まれる語のうち共起頻度の高い組み合わせの語を含んでいる検索結果を優先的に出力する
ことを特徴とする請求項1または2に記載の検索システム。
【請求項4】
前記検索式に含まれるそれぞれの語を第1の言語から第2の言語に翻訳する翻訳手段をさらに備え、
前記検索式生成手段は、前記第2の言語に翻訳された訳語を前記検索式に追加する
ことを特徴とする請求項3に記載の検索システム。
【請求項5】
前記第2の言語に関して、共起する語の組み合わせ及びその共起頻度を記憶している第2の共起情報データをさらに備え、
前記検索式に含まれるそれぞれの語の訳語の組み合わせが複数存在する場合に、前記検索式生成手段は、共起頻度の高い訳語の組み合わせを、前記検索式に追加する訳語の組み合わせとして優先的に選択する
ことを特徴とする請求項4に記載の検索システム。
【請求項6】
前記入力手段は、前記共起情報データを用いてユーザによる複数の語の連続入力を補助する第1の入力補助機能を備えており、
前記第1の入力補助機能は、ユーザにより語が入力されると、その語と共起可能な一又は複数の語を次に入力すべき語の候補としてユーザに提示する
ことを特徴とする請求項3〜5のいずれかに記載の検索システム。
【請求項7】
前記入力手段は、前記シソーラスデータを用いてユーザによる語の入力を補助する第2の入力補助機能を備えており、
前記第2の入力補助機能は、ユーザにより語が入力されると、その入力語の下位分類に属する語群を次の入力候補としてユーザに提示する、という処理を順次繰り返すことによって、上位概念の語から下位概念の語へとユーザを導く
ことを特徴とする請求項1〜6のいずれかに記載の検索システム。
【請求項8】
複数の語をその語のもつ概念又は意味に基づき体系的に分類し記憶しているシソーラスデータ、を備えるコンピュータが、
一又は複数の検索語をユーザに入力させる処理と、
入力された検索語の類語を前記シソーラスデータから抽出する処理と、
入力された検索語とその類語とから検索式を生成する処理と、
前記検索式を用いて検索を実行し、その検索結果を出力する処理と、
を実行することを特徴とする検索方法。
【請求項9】
複数の語をその語のもつ概念又は意味に基づき体系的に分類し記憶しているシソーラスデータ、を備えるコンピュータに、
一又は複数の検索語をユーザに入力させる処理と、
入力された検索語の類語を前記シソーラスデータから抽出する処理と、
入力された検索語とその類語とから検索式を生成する処理と、
前記検索式を用いて検索を実行し、その検索結果を出力する処理と、
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2009−93429(P2009−93429A)
【公開日】平成21年4月30日(2009.4.30)
【国際特許分類】
【出願番号】特願2007−263585(P2007−263585)
【出願日】平成19年10月9日(2007.10.9)
【出願人】(000001166)株式会社講談社 (2)
【出願人】(507335610)
【Fターム(参考)】