説明

近似最近傍探索方法、最近傍探索プログラムおよび装置

【課題】主成分分析に基づく二分木を用いて、最近傍のデータ点を効率的に探索する、近似最近傍探索方法を提供する。
【解決手段】主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベース、およびクエリーベクトルデータが与えられたとき、探索対象クラスターの初期値を前記二分木の根ノードとし、前記クエリーから対象クラスターの平均ベクトルを差引いて補正し、前記対象クラスターの主成分分析を行って得られる第一主成分ベクトルとの内積を、前記対象クラスターに対するクエリー主成分得点とする。前記クエリー主成分得点がゼロ以下ならば、第1子クラスターを、前記クエリー主成分得点が正ならば第2子クラスターを探索クラスターとし、末端の階層に至るまで探索を繰り返す。末端の階層の探索クラスターに属し、クエリーから最も近い距離のベクトルデータを最近傍のデータとする。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、主成分分析に基づく二分木を用いた近似最近傍探索方法、最近傍探索プログラムおよびその方法を用いた装置に関する。
【背景技術】
【0002】
最近傍探索とはデータ集合の中からクエリー(検索質問点)と最も近い距離にあるデータ(最近傍点)を探す問題である。すなわち、d個の数値的特徴を表すためのd次元の距離空間Rd においてn 個のデータの集合S と、それらデータと同じ次元数のクエリー q ∈ Rdが与えられたとき、データの集合S の中からクエリーq と最も近いデータpnn を探索することである。ここで、各データp は距離空間Rd 中の一つの点であり、d次元のベクトルデータで表される。以下で各データをデータ点とも呼ぶ。クエリーも各データと同様に、距離空間Rd 中の一つの点としてd次元のベクトルデータで表される。以下でクエリーをクエリー点とも呼ぶ。
【0003】
最近傍探索の最も基本的な解法は、データ集合S 内の全データ点 とクエリー点q との距離計算を行い、距離の最も近いものを探索する方法である。これを線形探索という。すべてのデータ点とクエリー点q との距離計算を行う方法は、一般に距離計算の対象となるデータ点の数が多いため、処理の高速化を図った手法がいくつか提案されている。しかし、データ点の数および次元数が大きなデータベースを扱う場合、線形探索に比べて処理時間が大幅に短縮される最近傍探索の手法はほとんどない。
そこで、探索の精度をある程度犠牲にするかわりに処理時間を大幅に短縮する近似最近傍探索の手法が提案されている。近似最近傍探索では探索のエラー率を実用上問題ない程度に抑えながら、線形探索に比べて非常に短い処理時間で最近傍点を探索することができる。
【0004】
近似最近傍探索の応用例として、物体認識や顔認識が挙げられる。物体認識や顔認識では、予め様々な物体や顔の画像から特徴量をベクトルデータ(データ点)として抽出しデータベースに保存しておく。検索質問として画像が与えられたとき、その画像から同様に特徴量を取り出して、近似最近傍探索のクエリーとする。そして、クエリーに近い特徴量を持つデータ点を出力結果とすることで、そのデータ点が抽出された物体や顔画像を特定する。これによって、物体認識や顔認識が可能となる。
近似最近傍探索の応用分野として、前述の物体認識や顔認識の他に知識発見、データマイニング、機械学習、データ圧縮、マルチメディア・データベース、文書検索および統計処理などが知られている。
【0005】
近似最近傍探索の代表的な手法として、LSH(Locality Sensitive Hashing)が挙げられる(例えば、非特許文献1参照)。LSHの手法では、データベースに登録すべきデータ点を表すベクトルデータを入力するとスカラ値を出力するハッシュ関数を各データ点に適用し、前記ハッシュ関数から出力される値(ハッシュ値)に基づいてデータ点を分類する。そして、分類されたデータ点のテーブル(ハッシュテーブル)を作成し前記データベースに含めて登録しておく。このハッシュ関数は、ベクトル間距離の近いものが似たハッシュ値をとり、遠いものは似たハッシュ値をとらないように定義される。その結果、近い距離にあるデータ点が同じ類に属するように分類されてハッシュテーブルに登録される。
【0006】
クエリー点が与えられたとき、そのクエリー点に前記ハッシュ関数を適用してクエリー点のハッシュ値を得る。前記データベースに登録されたデータ点のうち、クエリー点のハッシュ値と等しいハッシュ値の類に属するデータ点のみとの間で距離計算を行う。距離計算の対象となるデータ点は、クエリー点のハッシュ値を用いてハッシュテーブルを参照することで得られる。LSHは、距離計算の対象を特定の類に属するデータ点に限定することによって処理時間を短縮している。
【0007】
一方、LSHとは異なるアプローチとして、二分木を用いた近似最近傍探索の手法が提案されている(例えば、非特許文献2参照)。
また、データ集合を探索することなく識別を行う手法が提案されており、その中で主成分得点を用いてクラスターを2分割することが記載されている(例えば、非特許文献3〜5参照)。ただし、非特許文献3および4は、データ点の全体集合を二分割することのみが記載されている。非特許文献5は、非特許文献3および4の木の高さを任意の自然数まで拡張したものである。
非特許文献5で、データ点のクラスタリング(分割)に主成分分析(Principal component analysis, PCA)を用いているが、これは、識別精度が分割位置のランダムな選択によって変動するのを防止するためである。より詳細には、主成分得点(Principal Component Score)の正負の符号によるクラスターの2分割を繰り返し行って二分木を生成するが、葉ノード(リーフ)が初期分割である。また、非特許文献5では、クラスタリングのための繰り返しアルゴリズムによって最終的なクラスターが決定され、その中心ベクトルと共分散行列のみが識別器に用いられる。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】M.Datar, N.Immorlica, P.Indyk and V.S. Mirrokni, Locality-sensitive hashing scheme based on p-stable distributions, Proc. of the 20th annual symposium on Computational Geometry, pp.253-262, 2004.
【非特許文献2】S.Arya, D.M. Mount, R.Silverman and A.Y. Wu, "An optimal algorithm for approximate nearest neighbor searching," Journal of the ACM, vol.45, no.6, pp.891-923, 1998.
【非特許文献3】H. Ichihashi, A. Notsu and K. Honda, "Semi-hard c-means clustering with application to classifier design," Proc. of the IEEE International Conference on Fuzzy System, World Congress on Computational Intelligence, Barcelona, Spain, pp. 2788-2795, 2010.
【非特許文献4】H. Ichihashi, A. Notsu, K. Honda, T. Katada and M. Fujiyoshi, "Improvement in the performance of camera based vehicle detector for parking lot," Proc. of 2010 IEEE International Conference on Fuzzy System, Barcelona, Spain, Juli. 18-23, 2010.
【非特許文献5】H. Ichihashi, K. Honda and A. Notsu, "Comparison of Scaling Behavior Between Fuzzy c-Means Based Classifier with Many Parameters and LibSVM," Proc. of the IEEE International Conference on Fuzzy Systems, pp. 386-393, 2011.
【発明の概要】
【発明が解決しようとする課題】
【0009】
LSHなど、ハッシュ関数を用いた手法は、距離計算に要する処理時間が短縮されるという利点があるが、ハッシュテーブルを格納するメモリー領域を必要とする。また、各データ点にハッシュ関数を適用して得られるハッシュ値は、一種の乱数と捉えることができ、探索の精度はランダムに変化する。安定した精度を得るためには十分な数のデータ点を探索することが前提となるが、データ点が増加すると探索に要する処理時間も増大するため両者はトレードオフの関係にあるとの見方もできる。
一方、二分木構造を用いた手法は、ハッシュ関数を用いた手法に比べると木構造を保持するために必要なメモリー容量が一般に少なくてすむ。また、ハッシュ関数を用いて乱数を発生させることがないため個々の探索の精度が安定している。しかし、ハッシュ関数を用いた手法に比べると、木構造を辿って探索を行うために要する処理時間が一般的に長くかかると考えられている。しかし、二分木によって距離計算対象とすべきデータ点を効率的に絞り込むことができれば、処理時間を短縮できる。
この発明は、以上のような事情を考慮してなされたものであって、主成分分析(Principal Component Analysis、PCA)に基づく二分木を用いて最近傍のデータ点を効率的に探索して推定し、処理時間の短縮を実現する近似最近傍探索方法、装置およびプログラムを提供する。
【課題を解決するための手段】
【0010】
この発明は、コンピュータが、主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベースおよびクエリーとしてのベクトルデータが与えられたとき、探索の対象とする対象クラスターの初期値を前記二分木の根ノードのクラスターとする工程と、前記クエリーから対象クラスターに属する各ベクトルデータの平均としての平均ベクトルを差引いて前記クエリーを補正するクエリー補正工程と、補正されたクエリーと、前記対象クラスターの主成分分析を行って得られる第一主成分ベクトルとの内積を計算して前記対象クラスターに対するクエリー主成分得点とするクエリー得点算出工程と、前記クエリー主成分得点がゼロ以下ならば前記対象クラスターを親クラスターとしたときの第1子クラスターを前記クエリーに対する最近傍点が含まれ得る探索クラスターとし、前記クエリー主成分得点が正ならば前記対象クラスターを親クラスターとしたときの第2子クラスターを探索クラスターとし、同じ階層のすべての対象クラスターについて探索クラスターを決定する選択工程と、前記選択工程で決定された探索クラスターを対象クラスターとして前記クエリー補正工程、前記クエリー得点算出工程および前記選択工程を前記二分木の末端の階層に至るまで繰り返す二分木探索工程と、末端の階層の1以上の探索クラスターに属する各ベクトルデータとクエリーとの距離を計算し、クエリーから最も近い距離のベクトルデータを最近傍のデータとする工程とを実行することを特徴とする近似最近傍探索方法を提供する。
【0011】
また異なる観点から、この発明は、主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベースおよびクエリーとしてのベクトルデータが与えられたとき、探索の対象とする対象クラスターの初期値を前記二分木の根ノードのクラスターにする初期化部と、前記クエリーから対象クラスターに属する各ベクトルデータの平均としての平均ベクトルを差引いて前記クエリーを補正するクエリー補正部と、補正されたクエリーと、前記対象クラスターの主成分分析を行って得られる第一主成分ベクトルとの内積を計算して前記対象クラスターに対するクエリー主成分得点とするクエリー得点算出部と、前記クエリー主成分得点がゼロ以下ならば前記対象クラスターを親クラスターとしたときの第1子クラスターを前記クエリーに対する最近傍点が含まれ得る探索クラスターとし、前記クエリー主成分得点が正ならば前記対象クラスターを親クラスターとしたときの第2子クラスターを探索クラスターとし、同じ階層のすべての対象クラスターについて探索クラスターを決定する選択部と、前記選択部で決定された探索クラスターを対象クラスターとして前記クエリー補正部、前記クエリー得点算出部および前記選択部による処理を前記二分木の末端の階層に至るまで繰り返す二分木探索部と、末端の階層の1以上の探索クラスターに属する各ベクトルデータとクエリーとの距離を計算し、クエリーから最も近い距離のベクトルデータを最近傍のデータとする最近傍点決定部とを備えることを特徴とする近似最近傍探索装置を提供する。
【0012】
さらに異なる観点から、この発明は、主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベースおよびクエリーとしてのベクトルデータが与えられたとき、探索の対象とする対象クラスターの初期値を前記二分木の根ノードのクラスターにする初期化部と、前記クエリーから対象クラスターに属する各ベクトルデータの平均としての平均ベクトルを差引いて前記クエリーを補正するクエリー補正部と、補正されたクエリーと、前記対象クラスターの主成分分析を行って得られる第一主成分ベクトルとの内積を計算して前記対象クラスターに対するクエリー主成分得点とするクエリー得点算出部と、前記クエリー主成分得点がゼロ以下ならば前記対象クラスターを親クラスターとしたときの第1子クラスターを前記クエリーに対する最近傍点が含まれ得る探索クラスターとし、前記クエリー主成分得点が正ならば前記対象クラスターを親クラスターとしたときの第2子クラスターを探索クラスターとし、同じ階層のすべての対象クラスターについて探索クラスターを決定する選択部と、前記選択部で決定された探索クラスターを対象クラスターとして前記クエリー補正部、前記クエリー得点算出部および前記選択部による処理を前記二分木の末端の階層に至るまで繰り返す二分木探索部と、末端の階層の1以上の探索クラスターに属する各ベクトルデータとクエリーとの距離を計算し、クエリーから最も近い距離のベクトルデータを最近傍のデータとする最近傍点決定部としてコンピュータを機能させることを特徴とする近似最近傍探索プログラムを提供する。
【発明の効果】
【0013】
近似最近傍探索方法は、主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベースを探索するにあたり、探索の対象とする対象クラスターの初期値を前記二分木の根ノードのクラスターとする工程と、前記クエリーから平均ベクトルを差引いて前記クエリーを補正するクエリー補正工程と、補正されたクエリーと、前記対象クラスターの第一主成分ベクトルとの内積を計算してクエリー主成分得点とするクエリー得点算出工程と、前記クエリー主成分得点がゼロ以下ならば前記対象クラスターを親クラスターとしたときの第1子クラスターを探索クラスターとし、前記クエリー主成分得点が正ならば第2子クラスターを探索クラスターとし、同じ階層のすべての対象クラスターについて探索クラスターを決定する選択工程と、前記選択工程で決定された探索クラスターを対象クラスターとして前記クエリー補正工程、前記クエリー得点算出工程および前記選択工程を前記二分木の末端の階層に至るまで繰り返す二分木探索工程とを備えるので、クエリーとの距離計算を行うベクトルデータを絞り込むことができる。クエリー主成分得点はベクトルの内積という単純な計算で得ることができる。よって、最近傍とされるデータ点を効率的に探索できる。
この発明による近似最近傍探索装置および近似最近傍探索プログラムも同様の効果を奏する。
【0014】
この発明において、クラスターは、同じ類に属するベクトルデータの集合を示すもので、二分木構造のノードに対応する。その具体的な態様の例は、各要素の値がメモリーに格納されたベクトルデータのリストである。
この発明によれば、データベースは平衡な完全二分木の構造を有する。末端の葉ノードのクラスターを除いた各クラスターは、2つの子クラスターをそれぞれ有する。即ち、二分木の根と葉を除いた階層(高さ)にある各クラスターは、根ノード側にあるクラスターの子ノードであると同時に、葉ノード側にあるクラスターの親ノードである。
主成分分析は、複数の変数間の相関を把握するために導入される公知の手法であって、クラスターが与えられたとき第一主成分ベクトルおよび主成分得点(主成分スコアとも呼ばれる)を算出する手法は公知である。例えば、第一主成分ベクトルは、共分散行列の固有値問題を解いて得ることができる。
【図面の簡単な説明】
【0015】
【図1】この発明に係る二分木を用いたデータ点分割の様子を示す説明図である。
【図2】この発明に係る登録処理を実行するコンピュータの、ハードウェア構成例を示すブロック図である。
【図3】この発明に係る登録処理をコンピュータが実行する処理手順を擬似コードで示した説明図である。
【図4】この発明に係る登録処理によって生成された木構造の一例を示す説明図である。
【図5】この発明に係るデータベースの具体的な構造の例を示す説明図である。
【図6】この発明に係る探索クラスター・テーブルの具体例を示す説明図である。
【図7】この発明に係る探索処理をコンピュータが実行する処理手順を擬似コードで示した説明図である。
【図8】この発明による近似最近傍探索と従来の線形探索との比較実験の結果を示すグラフである。
【発明を実施するための形態】
【0016】
以下、この発明の好ましい態様について説明する。
この発明によるデータベースの生成方法において、前記データベースは、その二分木の階層構造における末端の階層のクラスターごとに各ベクトルデータが連続するように各ベクトルデータの順序が並べ替えられてなるものであってもよい。このようにすれば、クラスターごとの各ベクトルデータが連続していない場合に比べて、クラスターごとにベクトルデータを読み込んで探索に係る計算をする際の処理時間を短縮することができる。
【0017】
さらに、前記選択工程に先立って、前記対象クラスターのクエリー主成分得点の絶対値を得、得られた絶対値が閾値以下か否かを判断する精度判定工程をさらに備え、前記選択工程は、前記絶対値の大きさが前記閾値以下のときは前記対象クラスターを親クラスターとしたときの第1および第2子クラスターをいずれも探索クラスターとし、前記クエリー主成分得点の絶対値が前記閾値より大きいときは、前記クエリー主成分得点がゼロ以下ならば前記第1子クラスターのみを探索クラスターとし、前記クエリー主成分得点が正ならば前記第2子クラスターのみを探索クラスターとし、前記二分木探索工程は、前記クエリー補正工程、前記クエリー得点算出工程、前記精度判定工程および前記選択工程を前記二分木の末端の階層に至るまで繰り返すようにしてもよい。ここで、クエリー主成分得点の絶対値は、第一主成分ベクトルに沿う方向においてクエリーがクラスターの境界からどれだけ離れた距離にあるかを表す。クエリーがクラスターの境界に近いときは、前記境界の向こう側のクラスターに最近傍点が存する可能性が無視できない。この発明によれば、前記距離が閾値以下のときは前記境界の両側のクラスターをいずれも探索クラスターとするので、一方のクラスターのみを探索クラスターとする場合に比べて真の最近傍点を探索できる可能性がより高くなる。
【0018】
また、前記データベースは、(i)登録すべきベクトルデータの集合を親クラスターの初期値とする工程、(ii)親クラスターに属する各ベクトルデータの平均としての平均ベクトルを各ベクトルデータから差引いて差分ベクトルをそれぞれ生成する平均補正工程、(iii)親クラスターの主成分分析を行って得られる第一主成分ベクトルと親クラスターに属する各差分ベクトルとの内積をそのベクトルデータの主成分得点としてそれぞれ計算する得点算出工程、(iv)ゼロ以下の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第1の子クラスターに分類し、正の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第2の子クラスターに分類するクラスター分割工程、(v)生成された第1および第2の子クラスターをそれぞれ親クラスターとして前記平均補正工程、前記得点算出工程および前記クラスター分割工程の処理を繰り返し、予め定められた階層の二分木を生成する二分木生成工程により生成されたものであってもよい。
【0019】
前記平均補正工程は、各クラスターについて得られた平均ベクトルを前記データベースの一部として格納し、前記得点算出工程は、各クラスターについて得られた第一主成分ベクトルを前記データベースの一部として格納してもよい。このようにすれば、格納された平均ベクトルおよび第一主成分ベクトルを探索の際に用いることができる。
【0020】
さらに、この発明は、前述したこの発明によるデータベースの生成装置において、前記データベースは、その二分木の階層構造における末端の階層のクラスターごとに各ベクトルデータが連続するように各ベクトルデータの順序が並べ替えられてなるものであってもよい。このようにすれば、クラスターごとの各ベクトルデータが連続していない場合に比べて、クラスターごとにベクトルデータを読み込んで探索に係る計算をする際の処理時間を短縮することができる。
【0021】
さらに、前記選択部による処理に先立って、前記対象クラスターのクエリー主成分得点の絶対値を得、得られた絶対値が閾値以下か否かを判断する精度判定部をさらに備え、前記選択部は、前記絶対値の大きさが前記閾値以下のときは前記対象クラスターを親クラスターとしたときの第1および第2子クラスターをいずれも探索クラスターとし、前記クエリー主成分得点の絶対値が前記閾値より大きいときは、前記クエリー主成分得点がゼロ以下ならば前記第1子クラスターのみを探索クラスターとし、前記クエリー主成分得点が正ならば前記第2子クラスターのみを探索クラスターとし、前記二分木探索部は、前記クエリー補正部、前記クエリー得点算出部、前記精度判定部および前記選択部による処理を前記二分木の末端の階層に至るまで繰り返すようにしてもよい。ここで、クエリー主成分得点の絶対値は、第一主成分ベクトルに沿う方向においてクエリーがクラスターの境界からどれだけ離れた距離にあるかを表す。クエリーがクラスターの境界に近いときは、前記境界の向こう側のクラスターに最近傍点が存する可能性が無視できない。この発明によれば、前記距離が閾値以下のときは前記境界の両側のクラスターをいずれも探索クラスターとするので、一方のクラスターのみを探索クラスターとする場合に比べて真の最近傍点を探索できる可能性がより高くなる。
【0022】
また、この発明によるデータベースの生成装置において、前記平均補正部は、各クラスターについて得られた平均ベクトルをデータベースの一部として格納し、前記得点算出部は、各クラスターについて得られた第一主成分ベクトルをデータベースの一部として格納してもよい。このようにすれば、格納された平均ベクトルおよび第一主成分ベクトルを探索の際に用いることができる。
【0023】
前記データベースは、(i)登録すべきベクトルデータの集合を親クラスターの初期値とする初期設定部、(ii)親クラスターに属する各ベクトルデータの平均としての平均ベクトルを各ベクトルデータから差引いて差分ベクトルをそれぞれ生成する平均補正部、(iii)親クラスターの主成分分析を行って得られる第一主成分ベクトルと親クラスターに属する各差分ベクトルとの内積をそのベクトルデータの主成分得点としてそれぞれ計算する得点算出部、(iv)ゼロ以下の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第1の子クラスターに分類し、正の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第2の子クラスターに分類するクラスター分割部、(v)生成された第1および第2の子クラスターをそれぞれ親クラスターとして前記平均補正部、前記得点算出部および前記クラスター分割部による処理を繰り返し、予め定められた階層の二分木を生成する二分木生成部により生成されたものであってもよい。
この発明の好ましい態様は、ここで示した複数の態様のうち何れかを組み合わせたものも含む。
【0024】
以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
≪主成分分析に基づく2分木を用いる近似最近傍探索≫
図1は、この発明に係る二分木を用いたクラスター分割の様子を示す説明図である。クラスター分割は、主成分分析に基づいて行われる。
【0025】
図1に示すように二分木の根(ルート)ノードに相当する全データ点の集合S(図1のクラスター1〜4を合わせた全体のクラスター)が与えられたとする。近似最近傍探索の処理を実行するコンピュータは、そのクラスターSをまず2分割し、2つのノード(図1のクラスター1および3のクラスターとクラスター2および4のクラスター)を作る。次に、前記コンピュータは、2つのノードをそれぞれ2分割する。即ち、クラスター1および3のデータ点集合を2分割し、リーフノードとしてのクラスター1およびクラスター3を作る。また、クラスター2および4のデータ点集合を2分割し、リーフノードとしてのクラスター2およびクラスター4を作る。以上のように全データ点の集合Sに対して二分割を繰り返して二分木構造を生成し、各データ点をリーフノードとしてのクラスター1〜4に分類することによって、近似最近傍探索用のデータベースを生成する。
【0026】
≪データベースへの登録処理と探索処理≫
この発明に係る近似最近傍探索の処理およびその近似最近傍探索の前提となるデータベースの登録処理は、コンピュータが予め用意された処理プログラムを実行することによって実現される。登録処理を実行するコンピュータと近似最近傍探索の処理を実行するコンピュータは同一のものでもよいが、異なるものであってもよい。また、いわゆるクラウドコンピュータのように、登録処理および/または最近傍探索の処理(探索処理)を複数のコンピュータが協働して処理する態様であってもよい。
【0027】
図2は、この発明に係る登録処理を実行するコンピュータの、ハードウェア構成例を示すブロック図である。図2に示すように、コンピュータ25は、ROM13、CPU11、RAM15、データベース格納部17、指示入力部19および通信インターフェイス部23を備える。ROM13は、登録処理に係るプログラムを予め格納する。CPU11は、ROM13に格納されたプログラムを実行する。RAM15は、CPU11が処理に用いるワークエリアを提供する。データベース格納部17は、生成されたデータベースを格納する、指示入力部19は、ユーザーからの指示を受付ける、表示部21は、ユーザーに対して情報を表示する。通信インターフェイス部23は、外部の機器と通信を行う。
【0028】
コンピュータ25の具体的態様としては、ファイルサーバやパーソナルコンピュータが挙げられる。また、必要とされるメモリー容量や処理能力を満足すれば、携帯情報端末、高機能携帯電話や機器に組み込まれたマイクロコンピュータも前記態様に含まれる。
データベース格納部17としては、例えばフラッシュメモリなどの不揮発性記憶素子やハードディスクドライブなどの記憶装置が適用可能である。指示入力部19の具体的態様としては、キーボード、マウス、タッチパネルなどが挙げられる。表示部21の具体的態様としては液晶や有機ELを用いた表示装置が挙げられる。通信インターフェイス部23の具体的態様としては、有線、無線を問わずインターネットやLANに接続される各種通信インターフェイスやUSBインターフェイスなどが挙げられる。
探索処理を実行するコンピュータも同様のハードウェア構成を備える。以下の説明では、簡単のために登録処理と探索処理が同じコンピュータで実行されるものとする。
【0029】
≪登録処理:二分木の生成≫
この実施形態で、CPU11が、データベースにデータ点を登録する際に二分木構造を如何に生成するのか、その処理手順について具体的に述べる。
データ点の集合の一例として、各顔画像から抽出された特徴量データが与えられたとする。各特徴量データは、それが抽出された顔画像のデータと関連付けて提供されるものとする。各データ点は30次元のベクトルデータであって、データ点数は100万件であるとする。これは、100万人の顔画像が登録されたデータベースからある人物の顔認識を行うことを意味する。
【0030】
CPU11は、データ点の全体集合Sを対象にSに属する全データの平均値(平均ベクトル)を求める。さらに、全体集合Sを対象に主成分分析を行い、第一主成分ベクトルを求める。全体集合Sは、二分木構造の根ノードに対応する。CPU11は、各データ点を表すベクトルデータから前記平均ベクトルを引いた差分のベクトルを求め、その差分ベクトルと前記第一主成分ベクトルとの内積を、各データ点の主成分得点として求める。そして、主成分得点の符号の正負、詳細には主成分得点がゼロ以下か正かに応じて全体集合Sに属するデータ点を2分割する。
【0031】
ここで、前記差分ベクトルと前記第一主成分ベクトルとの内積は、前記差分ベクトルを第一主成分ベクトルに射影したときのベクトル成分といえる。そして、前記差分ベクトルは、各データ点を表すベクトルから平均ベクトルを引いたものであるが、これは各データ点を表すベクトルの座標原点を全データの平均値の座標点にとりなおしたベクトルといえる。よって、各データ点の主成分得点、即ち、前記平均値を原点とした第一主成分ベクトル方向の成分は、全体集合Sに属する約半数のデータ点が正の値をとり、約半数のデータ点がゼロ以下の値をとる。
【0032】
結果的に、根ノードは、主成分得点がゼロ以下の約50万件のデータ点の子クラスター(子ノード)C201と、主成分得点が正の約50万件のデータ点の子クラスターC202とに分けられる。
続いてCPU11は、それぞれの子クラスターC201およびC202を同様の手順でさらに2分割する。この処理を階層の深さm回(mは末端の葉ノードの階層を除いた二分木の高さを表す自然数)だけ繰り返して、100万件の全データを2m個のクラスター(ノード)、Cmi(1≦i≦2m)に分ける。mの値は、正しく最近傍点を探し出す割合が最もよくなるように予め定められる。
【0033】
CPU11は、各クラスターに属するデータ点の平均値、即ち平均ベクトルと主成分ベクトルとをそれぞれデータベース格納部17に記憶しておく。以上の手順で生成される二分木構造は、根ノードから2分割を繰り返して生成される高さ(m+1)の完全二分木である。m+1階層目に得られる2m個のクラスターはそれぞれ葉ノードと呼ばれる。
各データ点には、どの葉ノードのクラスターに含まれるかのクラスター番号が対応付けられてデータベースに格納される。なお、各データ点とそれが抽出された顔画像のデータとの対応関係および各顔画像のデータも前記データベースに格納される。
クラスター(ノード)の分割について、さらに詳しく説明する。ある一つのクラスターに入っているデータ点の集合を
【0034】
【数1】

とする。ここでxkは距離空間Rdにおけるベクトルデータ(縦ベクトル)を表す。x*kをxkから全データの平均値を引いたベクトル、即ち、平均値補正されたベクトルとする。
【数2】

Nはそのクラスターに入っているデータ点の数を表す。
【0035】
次に
【数3】

の主成分得点fk(k=1,…,N)を散布行列X*T*を用いて求める。ここで、あるクラスのデータ点の集合X*の主成分得点fkは、X*の特異値のうちで最大のものに対応付けられる。
kの符号がゼロ以下か正かに応じて、各クラスターに所属するデータを二つの子クラスターに分割する。
以上が、クラスター分割の詳細である。
【0036】
ここで、CPU11は、各データ点をクラスター毎に並べ替える。このことで、プログラミング言語のコンパイラーの最適化機能が有効になり、高速の検出が可能になる。
即ち、元のデータは読み込みの順に並べられていてクラスター毎には並んでいなく、一つのクラスターに属するデータはひと塊りにはなっていない。そのために、クラスター毎にその中のデータを順に読み込んで計算する場合の計算速度が遅くなる。特にプログラミング言語のコンパイラーの最適化オプションによる計算高速化が十分に行われない。好ましくは、クラスター毎にひと塊りとなるようにデータを並べ替える処理を近似最近傍探索用データベースの生成方法で行う。このことで、コンパイラーの最適化機能が有効に働き近傍探索の計算を早くすることができる。
【0037】
図3は、この発明に係る登録処理をコンピュータが実行する処理手順を擬似コードで示した説明図である。図3で、第1行目は、木の根(深さd=1)から葉ノードの一つ手前の階層(d=m)に至るまで処理を繰り返すことを示している。繰り返す処理は、第2〜15行目に記載された二分木の生成である。
第2行目は、処理の対象とする階層の各ノードnについて、第3〜14行目に記載の処理を繰り返すことを示している。
CPU11は、登録すべきデータ点が与えられたとき、ノードnのクラスターに属する全てのデータ点の平均として平均ベクトルを計算し(第3行目)、平均値補正されたベクトルx*を計算する(第4行目)。
【0038】
続いてCPU11は、最も大きな固有値に対応する主成分ベクトルpを計算する(第5〜6行目)。pは第一主成分ベクトルである。ここで、計算により求められた平均ベクトルと主成分ベクトルpとを記憶する(第7行目)。
さらにCPU11は、ノードnの各ベクトルデータ(データ点)xについて(第8行目)第9〜13行目の処理を実行する。即ち、各データ点の主成分得点がゼロ以下か否かをしらべ(第9行目)、ゼロ以下であれば左側の子ノードにそのデータ点を格納する(第10行目)。左側の子ノードは、第1子ノードに相当する。
一方、主成分得点が正であれば(第11行目)、右側の子ノードにそのデータ点を格納する(第12行目)。右側の子ノードは、第2子ノードに相当する。
このようにして、ノードnの各データ点を左右いずれかの子ノードに分割し、この分割を木の根から深さd=mまで繰り返すことで、高さ(m+1)の二分木構造を生成する。
【0039】
図4は、この発明に係る登録処理により生成された木構造の一例を示す説明図である。図4で、○印はノードを示しており、上位のノードと下位のノードを結ぶ線は親ノードと子ノードの関係を示している。その線の横に記した「f≦0」は主成分得点がゼロ以下のデータ点が属する子ノードを、「f>0」は主成分得点が正のデータ点が属する子ノードをそれぞれ示している。図4に示す木は、木の高さ(m+1)=5である。各ノードを示す○印の中の番号は、各ノードを識別するID(ノードID)である。根ノードのノードIDは101であり、その子ノードのノードIDは201と202である。ノードIDの100の位は階層の深さdに対応しており、10および1の位は同じ階層に属する各ノードにユニークな番号である。
【0040】
図5は、この発明に係るデータベースの具体的な構造の例を示す説明図である。データベース格納部17に格納されるデータの例を示している。
図5で(a)は各データ点に係る構造を示している。(a)で横方向に並ぶ一連の数値、即ち各行の数値は一つのデータ点に対応する。図5の例では、100万個のデータ点が登録されているので、縦方向に100万個の数値が並ぶ。(a)の左端の欄は、各データ点を識別する点IDである。各データ点に1〜1000000の数字を付している。
【0041】
(a)の右端の欄は、各データ点を結ぶリンクドリストである。このリンクドリストは、同じ葉ノードに属する他の点の点IDを格納する。ゼロの値は、リストの末尾を示している。(a)の左端欄と右端欄に挟まれた部分は、各データ点を表すベクトルデータの値である。この実施形態において、各データ点は30次元のベクトルデータである。各次元に対応する30個の実数値が各データ点のベクトルを表す。
(b)は(a)の右端欄のリンクドリストの先頭の点IDを示している。16個のIDは、各葉ノードの先頭の点IDを示している。即ち、(a)の右端欄のリンクドリストは、葉ノードの単位でリンクドリストを格納している。
CPU11は、このリンクドリストをもとにデータを並び替える。その結果、クラスター毎にひと塊りになったデータベースが作成される。そのデータベースを用いて近似最近傍探索が行われる。
【0042】
≪探索処理:クエリー点の最近傍にあると判断するデータ点の探索≫
ここでは、クエリー点が与えられたときに、近似最近傍探索を行う方法を説明する。この実施形態において、クエリー点は、クエリーとして与えられた顔画像から抽出されたデータ点、即ちクエリーの特徴量としてのベクトルデータである。
CPU11は、与えられた検索質問画像データ(ベクトルq)から平均ベクトルを引いて差分ベクトルを求める。前記平均ベクトルは、登録処理の際にデータベースの全データの集合Sに係る平均値のベクトルとして求められたものであり、データベース格納部17に格納されている。次に、CPU11は、qから平均ベクトルを引いた差分のベクトルq*と全データ集合Sに係る第一主成分ベクトルpとの内積f≦<q*,p>を計算する。fは、qの主成分得点である。この主成分得点fがゼロ以下の場合はqの最近傍のデータ点はクラスターC201に属しており、主成分得点fが正の場合はqの最近傍点はクラスターC202に属しているものとする。
【0043】
CPU11は、その次の階層についても同様の処理を繰り返す。即ち、深さdの階層において、qの最近傍点が属しているとされたクラスターCdiの平均ベクトルをqから引いて差分のベクトルq*diを求める。例えば、深さd=2の階層において、qの最近傍点がクラスターC202に属しているとされたとする。CPU11は、クラスターC202の平均ベクトルをqから引いて、差分のベクトルq*202求める。この場合、深さd=2、その深さd=2の階層に属する各ノードにユニークな番号i=02である。次に、CPU11は、q*diとクラスターCdiの第一主成分ベクトルpdiとの内積fdi=<q*di,pdi>を計算する。fdiは、クラスターCdiについてのq*diの主成分得点である。先の例については、f202=<q*202,p202>を計算することになる。この主成分得点fdiがゼロ以下の場合、q*diの最近傍のデータ点はクラスターC(d+1)(2i-1)に属しており、主成分得点fdiが正の場合はq*diの最近傍点はクラスターC(d+1)(2i)に属しているものとする。ここで、図4に示す二分木の例で、親ノードとしてのクラスターCdiから生成される深さd+1の2つの子ノードのノードIDは、左側の子ノードが(2i−1)であり、右側の子ノードが(2i)である。例えば、クラスターC202から生成される左側の子ノードはC303であり、右側の子ノードはC304である。
【0044】
以上のようにして、CPU11は、根ノードから順番に深い階層へ向けて子ノードを辿り、qの最近傍点が属する葉ノードを判断する。そして、最近傍点が属すると判断した葉ノードに属する各データ点とqとの距離計算を行って、最も距離の小さいデータ点を最近傍点とする。二分木を葉ノードの階層まで辿ることによって、qとの距離計算を行うべきデータ点の数を絞り込む。
【0045】
ただし、qがクラスターの境界近くに存する場合は、最近傍点が属すると判断した子ノードでない方に最近傍点が存することがあり得る。このような判断の誤りを防ぐために、判断の「確からしさ」を示す指標とその指標についての閾値εとを予め定めておき、指標が閾値εより小さい場合はもう一方のクラスターについても探索を行うことが好ましい。前記指標として、qの主成分得点fdiの絶対値│fdi│を用いることができる。│fdi│は、クラスターCdiの第一主成分ベクトルに沿う方向においてクエリー点qがクラスター境界からどれほど離れているかを示す。qがクラスターの境界に近いほどもう一方のクラスターに最近傍点が存する可能性が高いので、判断の「確からしさ」の指標として用いることができる。
【0046】
好ましくは、このもう一方のクラスターを探索対象とする処理を実現するために、CPU11は、階層の深さdにおけるqの主成分得点fdiの絶対値│fdi│を計算する。そして、│fdi│が前述の閾値εより小さい場合、そのときの深さdの値、主成分得点を計算したクラスターCdiのノードIDおよび主成分得点fdiの符号(ゼロ以下か正かを示す値)をRAM15上に確保した探索クラスター・テーブルに登録する。前記クラスターの両方の子ノードを辿れるようにするためである。
【0047】
CPU11は、根ノードから順番に深い階層へ向けて子ノードを辿り、一つの葉ノードに至る。この一つめの葉ノードを距離計算の対象とする。
好ましくはCPU11は、前述の探索クラスター・テーブルに登録されたクラスターがあるか否かを調べる。登録されたクラスターがあれば、そのクラスターのもう一方の子ノードについても葉ノードまで辿る。この二つめの葉ノードを距離計算の対象に加える。なお、探索クラスター・テーブルには、一つめの葉ノードまで辿ったときに登録されたクラスターの主成分得点fdiの符号が格納されている。CPU11は、この符号に基づいてもう一方の子ノードを判断する。
【0048】
なお、既に両方の子ノードを辿ったクラスターについては、そのことが識別できるように、探索クラスター・テーブルに格納された符号を、ゼロ以下を示す値でも正を示す値でもない第三の値に書き換えてもよい。一例では、主成分得点fdiがゼロ以下を示す値として−1、正を示す値として1、第三の値としてゼロを用いる。
CPU11は、二つめの葉ノードへ向けて子ノードを辿る過程においても、qの主成分得点fdiの絶対値│fdi│が閾値εより小さい場合は、探索クラスター・テーブルにデータを追加登録する。
【0049】
CPU11は、探索クラスター・テーブルに登録された全てのクラスターについて両方の子ノードを辿ってそれぞれの末端の葉ノードを特定する。特定された各葉ノードに属する各データ点について、qとの距離計算をそれぞれ実行する。それらデータ点のうち、qに対して最小の距離となるデータ点を最近傍点とする。
最近傍探索としては、最近傍点が最終的な出力である。ただし、この最近傍探索を用いた顔認識処理としては、100万件の顔画像のデータのうち、クエリーの顔画像に最も近いものを最終的な出力とする必要がある。その処理は次のようにして実現できる。各データ点には、それが100万件の顔画像データのうちどのデータから抽出されたものかが対応付けられてデータベースに登録されている。そこで、最近傍点が抽出された顔画像データをその顔画像データを顔認識の結果として出力する。以上の手順は一般にバックトラッキングと呼ばれるもので、それを本近似最近傍探索法に適用したものがこれまでの説明である。
【0050】
以上のように、各ノードにおいて、クエリー点qに係る主成分得点fdiの符号によりクエリー点の所属する子ノードを決定し、二分木のノードを辿って探索を行う。一つの葉ノードまで辿る限りにおいては、二分木生成工程はm回の繰り返し計算を行えば足りる。しかし、一つの葉ノードに存在するデータ点のみを距離計算の対象とするだけでは、十分な探索精度が得られないことがある。qがクラスターの境界近くにあって探索していないクラスターの中に最近傍の点が存する場合があるためである。そこで探索するクラスターの範囲を合理的に拡張するため、指標としての│fdi│および閾値εを導入する。もしクエリー点とクラスターの境界との距離がεよりも小さければ、境界の反対側にあるクラスターも探索する。
【0051】
図6は、この発明に係る探索クラスター・テーブルの具体例を示す説明図である。図6の探索クラスター・テーブルには、IDが202、304および303のノードが登録されている。ノードIDは、図4の木に対応している。ノード202を最初に辿ったときの主成分得点f202の符号は正(+1)である。図4の木では、右側の子ノード304へ進んだことを示している。そのノード304も探索クラスター・テーブルに登録されている。ノード304を最初に辿ったときのf304の符号はゼロ以下(−1)である。よって、左側の子ノード407へ進んだことを示している。深さd=4のノードは登録されてない。│f407│が閾値ε以上であったことが分かる。よって、片方のノードだけを辿ったことになる。ここでは、ノード407の右側の子ノード514が第1の葉ノードであったとする。
【0052】
第1の葉ノードまで辿った後、CPU11が図6の探索クラスター・テーブルを参照すると、ノード202が登録されている。最初に辿ったときの符号は正である。そこで、CPU11は、ノード202のもう一方の子ノード、即ち、f202の符号がゼロ以下の各データ点が属するノード303を探索する。図6には、そのノード303が登録されている。よって、最初にノード303を探索したときの│f303│が閾値ε以上であったことが分かる。他のノードは図6では登録されていないので、片方のノードだけを辿ったことがわかる。ここでは、ノード406を経た葉ノード512が第2の葉ノードであったとする。
【0053】
第2の葉ノードまで辿った後、CPU11がさらに図6の探索クラスター・テーブルを参照すると、ノード304が登録されている。最初に辿ったときの符号はゼロ以下であるので、次は正の符号に対応する子ノード408を経て葉ノードへ進む。ここでは、ノード515が第3の葉ノードであったとする。
【0054】
さらに、探索クラスター・テーブルにはノード303が登録されている。最初に辿ったときの符号は正であるので、次はゼロ以下の符号に対応する子ノード405を経て葉ノードへ進む。ここでは、ノード510が第4の葉ノードであったとする。
以上のように、CPU11は、探索クラスター・テーブルに登録された各ノードのもう一方の子ノードを辿る。その結果として見出された葉ノード、図6の例では、第1〜4の葉ノード514、512、515および510に属する各データ点について、qとの距離計算を実行し最近傍点を決定する。
【0055】
なお、これまでの説明では、CPU11が第1の葉ノードまで辿った後に探索クラスター・テーブルを参照して第2の葉ノードまで辿るものとした。その後さらに探索クラスター・テーブルを参照して第3の葉ノードまで辿るものとした。また、CPU11は、第3の葉ノードまで辿った後に探索クラスター・テーブルを参照して第4の葉ノードまで辿るものとした。前述したバックトラッキングである。しかし、探索の手順はこれに限らない。異なる態様として、階層ごとに探索すべきノードをすべて探索し、その結果として次の階層で探索の対象とすべきノードを探索クラスター・テーブルに登録した後に次の階層へ進むようにしてもよい。次の階層では、探索クラスター・テーブルに登録されたノードを全て探索し、その結果としてさらに次の階層で探索対象とすべきノードを探索クラスター・テーブルに登録する。二分木の末端の葉ノードに達するまでこれを繰り返す。いずれの手順でも同様の結果が得られる。両者はいずれもこの発明に含まれる。前者の態様、即ちバックトラッキングの方が後者の態様に比べてノードの探索に要するメモリーを節約することができる。ただし、所要メモリー量に有意差が生じるのは大量の葉ノードを探索する場合である。
【0056】
図7は、この発明に係る探索処理をコンピュータが実行する処理手順を擬似コードで示した説明図である。図7で、第1および2行目は、前述の登録処理によって予め生成された二分木構造(ノードリスト)を対象に探索することを示している。なお、探索の対象とするノードのIDを格納するのは変数listである。CPU11は、変数listの初期値として、根ルートのIDを設定する。
第3行目は、前記ノードリストの根(深さd=1)から葉ノードの前階層(d=m)まで処理を繰り返すことを示している。繰り返す処理は、第4〜19行目に記載されている。
第4行目は、深さdのノードのうち、探索の対象とする各ノードnについて、第5〜13行目に記載の処理を繰り返すことを示している。探索の対象とするノードは、この行の処理に至るまでに、変数listに格納されている。初期値として、第1行目の処理で根ノードのIDが格納されている。その後は、第8、12および14行目の処理で、次の階層で探索すべき対象が一時変数tempに格納される。第18行目の処理で、変数listに次の階層における探索対象が累積的に格納される。
【0057】
CPU11は、クエリーqが与えられたとき、その主成分得点を計算し、主成分得点の絶対値が予め定められた正の値ε以下か否かを判断する(第5行目)。なお、qの主成分得点を得るために、qと主成分ベクトルpとの内積を計算する。各ノードの主成分ベクトルpと平均ベクトルは、登録処理の際にデータベースに格納されている(第6〜7行目)。
qの主成分得点の絶対値がε以下の場合、CPU11は、対象としているノードnの両方の子ノードを探索の対象とすべく一時変数tempに両方の子ノードのノードIDを格納する。ここで、一時変数tempは、次の階層において探索の対象とすべきノードのIDを格納する(第8〜9行目)。両方の子ノードを探索するために、探索クラスター・テーブルを用いる手法は既に説明した。
【0058】
一方、qの主成分得点の絶対値がεより大きい場合(第10行目)、CPU11は、qの主成分得点に応じて以下のように処理を行う。qの主成分得点がゼロ以下の場合(第11行目)、CPU11は、一時変数tempに左側の子ノードのIDを格納し、探索の対象とする(第12行目)。図3の登録処理において、左側の子ノードは主成分得点がゼロ以下のデータ点を格納している。
【0059】
一方、qの主成分得点が正の場合(第13行目)、右側の子ノードのIDを一時変数tempに格納し探索の対象とする(第14行目)。図3の登録処理において、右側の子ノードは主成分得点がゼロより大きいデータ点を格納している。
そして、CPU11は、一時変数tempの内容を変数listに代入する(第18行目)。よって、変数listは、探索すべきノードのIDを格納する。
【0060】
最後の深さmに至るまで処理を繰り返し、変数listに格納されたノードIDに含まれるデータ点、即ち葉ノードのうち探索すべきノードに含まれる各データ点について、qとの距離をそれぞれ計算し、最も近い距離にあるデータ点を最近傍点とする(第20〜23行目)。
【0061】
≪実験例≫
この発明の有効性を示すため、近似最近傍探索法と従来の線形探索との比較実験を行った。線形探索については、打ち切りなしの場合および打ち切りありの場合の両方を比較対象とした。線形探索の打ち切りなしとは、全てのデータ点pとクエリー点qとの距離を計算し最も距離の短いデータ点を見つける方法である。これは、最も単純であるが計算時間のかかる方法である。線形探索の打ち切りありとは、1件のデータ点pとクエリー点qの距離の計算途中にそれまでに見つかっている最も近いデータ点との距離よりも長くなれば、そこで計算を打ち切って次のデータ点pとクエリー点qとの距離計算に移る方法である。データ点pとクエリー点qの距離は2乗距離(ユークリッド距離の2乗)で定義され、それは各次元毎の差の2乗の和である。
【0062】
この発明による近似最近傍探索法については、クラスター数、すなわち木の高さmとノード間の境界までの距離閾値εを種々変化させて最適な値を決定した。データ点は、以下のMATLABコードのように、30次元データを正規乱数で作成した。各次元(変数)の標準偏差を100から400までの一様乱数で与えた。データ点総数は100万件である。
【0063】
【数4】

【0064】
クエリー点は同様にして作成した1000件のデータ点である。計算機はDell Precisi on T3500 Intel(R)Xeon(R)W3250 (2.67GHz)CPU, 3.25 MB.OS はWindows XP である。
線形探索の打ち切りなしで、平均検出時間は284.0 ms、打ち切りありでは112.8 ms であった。
【0065】
図8は、この発明による近似最近傍探索と従来の線形探索との比較実験の結果を示すグラフである。図8で、横軸は線形探索の打ち切りなし(平均検出時間は284.0 ms)を100%として計算時間をパーセントで示している。縦軸は正しく最近傍データを見つけた割合を%で示している。図8に示すように階層の深さmはm=15が最適である。したがって葉ノードの数は215=32768が最適である。表1は、実際の時間で示している。これらのテスト結果は、コンパイラーの最適化オプションを用ない場合のものであるが、c言語のVisual c の最適化オプションを用いれば、m=13が最適であり、たとえば平均検出時間1.45msで精度80%であった。線形探索の打ち切り有りを100%としたときの4%の時間で80%の精度が得られている。
【表1】

【0066】
前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。
【符号の説明】
【0067】
1、2、3、4:クラスター
11:CPU
13:ROM
15:RAM
17:データベース格納部
19:指示入力部
21:表示部
23:通信インターフェイス部
25:コンピュータ

【特許請求の範囲】
【請求項1】
コンピュータが、主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベースおよびクエリーとしてのベクトルデータが与えられたとき、探索の対象とする対象クラスターの初期値を前記二分木の根ノードのクラスターとする工程と、
前記クエリーから対象クラスターに属する各ベクトルデータの平均としての平均ベクトルを差引いて前記クエリーを補正するクエリー補正工程と、
補正されたクエリーと、前記対象クラスターの主成分分析を行って得られる第一主成分ベクトルとの内積を計算して前記対象クラスターに対するクエリー主成分得点とするクエリー得点算出工程と、
前記クエリー主成分得点がゼロ以下ならば前記対象クラスターを親クラスターとしたときの第1子クラスターを前記クエリーに対する最近傍点が含まれ得る探索クラスターとし、前記クエリー主成分得点が正ならば前記対象クラスターを親クラスターとしたときの第2子クラスターを探索クラスターとし、同じ階層のすべての対象クラスターについて探索クラスターを決定する選択工程と、
前記選択工程で決定された探索クラスターを対象クラスターとして前記クエリー補正工程、前記クエリー得点算出工程および前記選択工程を前記二分木の末端の階層に至るまで繰り返す二分木探索工程と、
末端の階層の1以上の探索クラスターに属する各ベクトルデータとクエリーとの距離を計算し、クエリーから最も近い距離のベクトルデータを最近傍のデータとする工程とを実行することを特徴とする近似最近傍探索方法。
【請求項2】
前記データベースは、その二分木の階層構造における末端の階層のクラスターごとに各ベクトルデータが連続するように各ベクトルデータの順序が並べ替えられてなる請求項1に記載の方法。
【請求項3】
前記選択工程に先立って、前記対象クラスターのクエリー主成分得点の絶対値を得、得られた絶対値が閾値以下か否かを判断する精度判定工程をさらに備え、
前記選択工程は、前記絶対値の大きさが前記閾値以下のときは前記対象クラスターを親クラスターとしたときの第1および第2子クラスターをいずれも探索クラスターとし、前記クエリー主成分得点の絶対値が前記閾値より大きいときは、前記クエリー主成分得点がゼロ以下ならば前記第1子クラスターのみを探索クラスターとし、前記クエリー主成分得点が正ならば前記第2子クラスターのみを探索クラスターとし、
前記二分木探索工程は、前記クエリー補正工程、前記クエリー得点算出工程、前記精度判定工程および前記選択工程を前記二分木の末端の階層に至るまで繰り返す請求項1または2に記載の方法。
【請求項4】
前記データベースは、(i)登録すべきベクトルデータの集合を親クラスターの初期値とする工程、(ii)親クラスターに属する各ベクトルデータの平均としての平均ベクトルを各ベクトルデータから差引いて差分ベクトルをそれぞれ生成する平均補正工程、(iii)親クラスターの主成分分析を行って得られる第一主成分ベクトルと親クラスターに属する各差分ベクトルとの内積をそのベクトルデータの主成分得点としてそれぞれ計算する得点算出工程、(iv)ゼロ以下の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第1の子クラスターに分類し、正の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第2の子クラスターに分類するクラスター分割工程、(v)生成された第1および第2の子クラスターをそれぞれ親クラスターとして前記平均補正工程、前記得点算出工程および前記クラスター分割工程の処理を繰り返し、予め定められた階層の二分木を生成する二分木生成工程により生成されたものである請求項1〜3の何れか一つに記載の方法。
【請求項5】
主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベースおよびクエリーとしてのベクトルデータが与えられたとき、探索の対象とする対象クラスターの初期値を前記二分木の根ノードのクラスターにする初期化部と、
前記クエリーから対象クラスターに属する各ベクトルデータの平均としての平均ベクトルを差引いて前記クエリーを補正するクエリー補正部と、
補正されたクエリーと、前記対象クラスターの主成分分析を行って得られる第一主成分ベクトルとの内積を計算して前記対象クラスターに対するクエリー主成分得点とするクエリー得点算出部と、
前記クエリー主成分得点がゼロ以下ならば前記対象クラスターを親クラスターとしたときの第1子クラスターを前記クエリーに対する最近傍点が含まれ得る探索クラスターとし、前記クエリー主成分得点が正ならば前記対象クラスターを親クラスターとしたときの第2子クラスターを探索クラスターとし、同じ階層のすべての対象クラスターについて探索クラスターを決定する選択部と、
前記選択部で決定された探索クラスターを対象クラスターとして前記クエリー補正部、前記クエリー得点算出部および前記選択部による処理を前記二分木の末端の階層に至るまで繰り返す二分木探索部と、
末端の階層の1以上の探索クラスターに属する各ベクトルデータとクエリーとの距離を計算し、クエリーから最も近い距離のベクトルデータを最近傍のデータとする最近傍点決定部とを備えることを特徴とする近似最近傍探索装置。
【請求項6】
前記データベースは、その二分木の階層構造における末端の階層のクラスターごとに各ベクトルデータが連続するように各ベクトルデータの順序が並べ替えられてなる請求項5に記載の装置。
【請求項7】
前記選択部による処理に先立って、前記対象クラスターのクエリー主成分得点の絶対値を得、得られた絶対値が閾値以下か否かを判断する精度判定部をさらに備え、
前記選択部は、前記絶対値の大きさが前記閾値以下のときは前記対象クラスターを親クラスターとしたときの第1および第2子クラスターをいずれも探索クラスターとし、前記クエリー主成分得点の絶対値が前記閾値より大きいときは、前記クエリー主成分得点がゼロ以下ならば前記第1子クラスターのみを探索クラスターとし、前記クエリー主成分得点が正ならば前記第2子クラスターのみを探索クラスターとし、
前記二分木探索部は、前記クエリー補正部、前記クエリー得点算出部、前記精度判定部および前記選択部による処理を前記二分木の末端の階層に至るまで繰り返す請求項5または6に記載の装置。
【請求項8】
前記データベースは、(i)登録すべきベクトルデータの集合を親クラスターの初期値とする初期設定部、(ii)親クラスターに属する各ベクトルデータの平均としての平均ベ
クトルを各ベクトルデータから差引いて差分ベクトルをそれぞれ生成する平均補正部、(iii)親クラスターの主成分分析を行って得られる第一主成分ベクトルと親クラスターに属する各差分ベクトルとの内積をそのベクトルデータの主成分得点としてそれぞれ計算する得点算出部、(iv)ゼロ以下の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第1の子クラスターに分類し、正の主成分得点が得られたときはその主成分得点に係るベクトルデータを前記第2の子クラスターに分類するクラスター分割部、(v)生成された第1および第2の子クラスターをそれぞれ親クラスターとして前記平均補正部、前記得点算出部および前記クラスター分割部による処理を繰り返し、予め定められた階層の二分木を生成する二分木生成部により生成されたものである請求項5〜7の何れか一つに記載の装置。
【請求項9】
主成分得点に応じた第1および第2子クラスターを有する二分木の階層構造にベクトルデータが分類された近似最近傍探索用データベースおよびクエリーとしてのベクトルデータが与えられたとき、探索の対象とする対象クラスターの初期値を前記二分木の根ノードのクラスターにする初期化部と、
前記クエリーから対象クラスターに属する各ベクトルデータの平均としての平均ベクトルを差引いて前記クエリーを補正するクエリー補正部と、
補正されたクエリーと、前記対象クラスターの主成分分析を行って得られる第一主成分ベクトルとの内積を計算して前記対象クラスターに対するクエリー主成分得点とするクエリー得点算出部と、
前記クエリー主成分得点がゼロ以下ならば前記対象クラスターを親クラスターとしたときの第1子クラスターを前記クエリーに対する最近傍点が含まれ得る探索クラスターとし、前記クエリー主成分得点が正ならば前記対象クラスターを親クラスターとしたときの第2子クラスターを探索クラスターとし、同じ階層のすべての対象クラスターについて探索クラスターを決定する選択部と、
前記選択部で決定された探索クラスターを対象クラスターとして前記クエリー補正部、前記クエリー得点算出部および前記選択部による処理を前記二分木の末端の階層に至るまで繰り返す二分木探索部と、
末端の階層の1以上の探索クラスターに属する各ベクトルデータとクエリーとの距離を計算し、クエリーから最も近い距離のベクトルデータを最近傍のデータとする最近傍点決定部としてコンピュータを機能させることを特徴とする近似最近傍探索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−73256(P2013−73256A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−209588(P2011−209588)
【出願日】平成23年9月26日(2011.9.26)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WINDOWS
【出願人】(505127721)公立大学法人大阪府立大学 (688)