説明

行動情報抽出システム及び抽出方法

【課題】消費者が購入した商品又は購入する予定の商品についての情報を、精度よく抽出する方法を提供する。
【解決手段】消費者記事が開示されているインターネット上のWebサイトにアクセスし、消費者記事を収集する消費者記事収集手段を有する。検索キーワードに基づいて検索処理を行い、消費者記事収集手段12が収集した消費者記事毎に文章を解析し、当該文章中に検索キーワードを含んだ消費者記事を関連記事として抽出する検索手段20aを有する。関連記事から、記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞込手段20bとが設けられた解析対象記事抽出手段20を備える。解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する付属情報とを抽出する行動対象・付属情報抽出手段を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット上に存在するブログやSNS等のWebサイトにアクセスし、消費者の購入商品等についての情報やその他の行動パターンを抽出する行動情報抽出システム及び抽出方法に関する。
【背景技術】
【0002】
現在、例えばテレビやラジオの番組で様々な商品広告が放送されている。しかし、その商品広告が本当に消費者の行動パターンに影響を与え、商品の購入に結びついているのかを調べる有効な方法がなく、例えば商品アンケートを行ったとしても、手間がかかる上データ数としても限りがある。そのため、番組制作者は、現在放送中の番組に似たタイプの新しい番組を制作したいと思っても、どのような企業や団体等に提案すれば興味を引くことができるのか分からない。また、一般の企業や団体等も、どのようなテレビ番組等で商品広告を行えば売り上げの向上が期待できるのか精度よく予想することができなかった。
【0003】
これらの問題は、テレビ等の放送媒体を用いた商品広告に限らず、各種施設に設置される看板による商品広告、旅行のパンフレットやコンサートのチラシ等に載せる商品広告等においても同様に生じる問題であった。この問題に対して、インターネット上の種々のWebサイトに開示されている膨大な記事を分析することができれば、例えば消費者が購入した商品等と商品広告との関連性を示す情報やデータを抽出することが可能となると考えられる。
【0004】
しかし、消費者の日々の身の回りの出来事が記載されたブログやSNSに代表される消費者記事は、一般に、文章を書くことに慣れていない人達によって書かれ、また、口語体で書かれている場合が多いので、従来のキーワード抽出や係り受け解析を行う方法では、消費者の購入商品等の行動パターンを精度よく抽出することができない。また、文章に明記された事柄以外の具体的な行動に関する情報を得ることができないという問題がある。
【0005】
一方、口語体のように比較的曖昧な文章を解析し、その文章を書いた人が主張している意見や意図を精度よく抽出しようとする装置や方法も提案されている。例えば、特許文献1に開示されているように、あらかじめ意見の構造のモデルを設定し、入力されたテキスト文章をそのモデルに当てはめることによって、対象物や、対象物に対する評価の着眼点、対象物の性質、肯定・否定・中立の評価の4要素を含む部分テキストを検出する意見抽出装置がある。特に、この意見抽出装置は、上記4要素のうちの対象物を除く3要素を抽出するとき、該当する部分テキスト文章が曖昧に表現されていても、その意味を推定する推定手段を用いることによって、その人の意見を精度よく抽出することができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2004−157841号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
上述したように、従来、インターネット上の種々のWebサイトに開示されている記事から、消費者の購買行動やその他の消費者行動と商品等の広告との関連性を示す情報やデータを精度よく抽出する方法はなかった。
【0008】
また、特許文献1の意見抽出装置又は方法は、テキスト文章の作成者が対象物の性質をどのように評価しているのかを抽出することができるが、例えば、対象物が「本」「小説」「推理小説」や具体的な商品名といった異なる階層概念で表現されたときに、その対象物自体を正確に特定したり、各対象物を所定の商品カテゴリ別に分類することができない。従って、消費者の商品購買行動等と商品等の広告との関連性を示す統計情報を得ようとする用途には適さないものであった。
【0009】
この発明は、上記背景技術に鑑みて成されたもので、インターネット上の種々のWebサイトに開示された記事を検索し、特定の商品の広告媒体等にアクセスした消費者行動に関する情報を、様々な統計処理に対応可能な形で精度よく抽出することができる行動情報抽出システム及び抽出方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
この発明は、コンピュータシステムにより構成され、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、収集した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出し、出力する行動情報抽出システムであって、前記Webサイトにアクセスし前記消費者記事を収集する消費者記事収集手段を有する情報収集装置と、検索ユーザが検索キーワードを入力する入力手段と、検索処理の結果得られた消費者の行動に関する情報を所定の形式で出力する出力手段とを有する入出力端末と、前記消費者記事収集手段が収集した消費者記事毎に文章を解析し、当該文章中に前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索手段と、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞込手段とが設けられた解析対象記事抽出手段と、前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出手段と、前記行動の行動対象を示す名詞と、当該名詞に関連する行動対象を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る行動対象辞書と、行前記動の行動対象を示す名詞と、当該名詞から連想される連想概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、前記解析対象記事毎に前記行動対象辞書又は前記概念辞書を参照し、前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定した特定情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る行動対象情報特定手段とを備えた行動情報抽出システムである。
【0011】
前記行動対象情報特定手段には、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書が参照可能に設けられ、前記行動対象情報特定手段は前記行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである。
【0012】
さらに、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを備え、前記行動対象・付属情報抽出手段は、前記解析対象記事の文章に対して、前記行動パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出するものである。
【0013】
またこの発明は、前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出手段と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書と、商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、前記解析対象記事毎に前記概念辞書又は前記商品辞書を参照し、前記商品・付属情報抽出手段が抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって当該商品情報に該当する商品を具体的に特定した特定商品情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る商品情報特定手段とを備えた行動情報抽出システムである。
【0014】
宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を備え、前記解析対象記事抽出手段の前記絞込手段は、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出するものである。
【0015】
前記絞込手段には、前記関連記事の総単語数に応じて、総単語数が相対的に少ない場合は相対的に小さい基準値が設定されているものである。
【0016】
また、消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレートを備え、前記商品・付属情報抽出手段は、前記解析対象記事の文章に対して、前記購入パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出するものである。
【0017】
前記商品情報特定手段は、前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成するものである。
【0018】
前記概念辞書は、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、前記商品情報特定手段は、前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま特定商品情報とするである。
【0019】
また、前記情報収集装置は、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析手段と、当該階層構造の最下層のページを解析する最下層ページ解析手段と、前記サイト構造解析手段及び前記最下層ページ解析手段で解析した情報を前記商品辞書に登録する商品辞書登録手段とで成る通信販売情報収集手段を備え、前記サイト構造解析手段は、前記階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び階層毎に付与された商品カテゴリを認識し、前記最下層ページ解析手段は、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、前記商品辞書登録手段は、前記最下層解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する行動情報抽出システムである。
【0020】
またこの発明は、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、検索した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出する行動情報抽出方法であって、前記検索ユーザが検索キーワードを入力することにより、前記Webサイトの消費者記事の中から前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索ステップと、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞り込みステップと、前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出ステップと、前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定して特定行動対象情報を生成する行動対象情報特定ステップとを備えた行動情報抽出方法である。
【0021】
前記行動対象情報特定ステップは、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである。
【0022】
前記行動対象・付属情報抽出ステップは、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを参照して、前記解析対象記事の文章に対して、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出するものである。
【0023】
またこの発明は、前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出ステップと、商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品概念を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書とを参照し、前記商品・付属情報抽出ステップにおいて抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定する商品情報特定ステップとを備えた行動情報抽出方法である。
【0024】
前記絞り込みステップは、前記絞り込み宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を参照し、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出するものである。
【0025】
前記絞り込みステップは、前記関連記事の総単語数に応じて、総単語数が少ない場合は相対的に小さい基準値を用いて判定を行うものである。
【0026】
前記商品・付属情報抽出ステップは、消費者が商品を購入するときの購入パターンを表す雛型文章を参照し、前記解析対象記事から、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出するものである。
【0027】
また、前記商品情報特定ステップは、前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成するものである。
【0028】
また、前記概念辞書は、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、前記商品情報特定ステップは、前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま特定商品情報とするものである。
【0029】
また、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析ステップと、当該階層構造の最下層のページを解析する最下層ページ解析ステップと、前記サイト構造解析手段及び前記最下層ページ解析手段で解析した情報を前記商品辞書に登録する商品辞書登録ステップとで構成され、前記検索ステップを行う前にあらかじめ実施される通信販売情報収集ステップを備え、前記サイト構造解析ステップは、前記各階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び各階層毎に付与された商品カテゴリを認識し、前記最下層ページ解析ステップは、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、前記商品辞書登録ステップは、前記最下層解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する行動情報抽出方法である。
【発明の効果】
【0030】
この発明の行動情報抽出システム及び抽出方法は、例えばテレビ番組の視聴者等のように、特定の商品等の広告媒体にアクセスした消費者の購買行動やその他の行動についての情報を、自動的に精度よく抽出することができる。そして、この発明の行動情報抽出システム及び抽出方法で得られた統計情報を分析することによって、例えば、広告媒体の制作者等は、スポンサーとして適した企業や業界を容易に知ることができる。また、スポンサーとなる企業等にとっても、消費者に対する宣伝効果が大きい広告媒体を容易に知ることができ、非常に便利である。
【0031】
特に、消費者の購入商品を、商品の特徴を階層化して定義した商品辞書及び概念辞書を用いて解析することにより、記事毎に抽出した個別の情報を、例えば「本」「小説」「推理小説」というように任意の階層概念で分類することができる。従って、個別の情報を様々な態様に集計することによって、検索ユーザの目的に合った統計情報を自在に得ることができる。
【0032】
また、市販されている具体的な商品に関する情報が、適切な属性を付与して商品辞書に登録されているので、消費者記事から抽出した商品情報が商品名であっても、容易に購入商品を特定することができる。
【0033】
さらに、日々増加する新商品等の情報についても、インターネット通信販売のサイトから定期的に情報を取得し、自動的に商品辞書等に登録することができるので、市場の動向や流行の変化に十分に対応した調査を行うことができる。
【図面の簡単な説明】
【0034】
【図1】この発明の行動情報抽出システムの一実施形態の構成を示すブロック図である。
【図2】この実施形態の動作を説明するフローチャートである。
【図3】この実施形態で使用した検出キーワードと抽出した関連記事群を説明する図である。
【図4】図2のステップ12を説明するフローチャートである。
【図5】この実施形態のスパムワード辞書と絞込手段の動作を説明する図である。
【図6】この実施形態の購入パターンテンプレートと抽出した付属情報及び商品情報を説明する図である。
【図7】図2のステップS14を説明するフローチャートである。
【図8】この実施形態の商品辞書と商品情報特定手段の動作を説明する図である。
【図9】この実施形態の連想概念辞書と商品情報特定手段の動作を説明する図である。
【図10】この実施形態の商品分類概念辞書と商品情報特定手段の動作を説明する図である。
【図11】この実施形態の商品情報特定手段が特定商品情報を生成する動作を説明する図である。
【図12】この実施形態の出力手段が出力する統計情報の一例を示す図である。
【図13】情報収集装置の変形例を示すブロック図である。
【図14】この変形例の情報収集装置が商品辞書に新規商品を登録する動作を説明するフローチャートである。
【図15】図14のステップS21を説明するフローチャートである。
【図16】図14のステップS22を説明するフローチャートである。
【図17】図14のステップS23を説明するフローチャートである。
【図18】この発明の行動情報抽出システムの他の実施形態の構成を示すブロック図である。
【発明を実施するための形態】
【0035】
以下、本発明の行動情報抽出システムの一実施形態について、図面に基づいて説明する。この実施形態の行動情報抽出システムは、消費者による商品の購入という行動についての情報を抽出するものである。この実施形態の購入商品情報抽出システム10は、コンピュータシステムにより構成され、特定のテレビ番組を視聴した一般消費者が購入した商品又は購入しようとしている商品(購入商品)についての情報を抽出するシステムである。
【0036】
購入商品情報抽出システム10は、図1に示すように、インターネット上に開示された種々のWebサイトを検索して、情報を収集する対象となる所定種類のWebサイトについて、文書情報を含む消費者記事を収集する消費者記事収集手段12を有する情報収集装置16を備えている。また、検索ユーザが操作する入出力端末18と、検索ユーザが入力した検索キーワードに基づき、消費者記事収集手段12が収集した消費者記事の中から、解析の対象とする記事を抽出する解析対象記事抽出手段20を備えている。また、特定の解析対象記事の文章から購入商品を特定するための情報を抽出する商品・付属情報抽出手段22と、商品・付属情報抽出手段22が抽出した情報に基づいて購入商品を特定する商品情報特定手段24を備えている。さらに、上記の各手段が所定の処理を行うときに使用するスパムワード辞書26、購入パターンテンプレート28、商品辞書30、概念辞書32を備えている。
【0037】
消費者記事収集手段12は、消費者が日々の身の回りの出来事を開示した消費者記事を収集する。消費者記事の収集は、検索ユーザが入出力端末18を操作したタイミングで行ってもよいが、検索ユーザの検索時間を短縮するため、あらかじめシステム管理者が定期的に収集して情報収集装置16に蓄積しておくことが好ましい。
【0038】
入出力端末18は、検索ユーザが検索キーワードを入力する入力手段18aと、検索結果である購入商品についての情報を出力する出力手段18bで構成されている。ここでは、検索キーワードは、特定のテレビ番組名である。
【0039】
解析対象記事抽出手段20は、消費者記事収集手段12にアクセスし、入力手段18aに入力された検索キーワードに該当する関連記事を抽出する検索手段20aと、関連記事から販売者が書いたと思われる記事を除いた解析対象記事を抽出する絞込手段20bを備えている。この絞込手段20bが記事を絞り込むときは、商品の販売者が宣伝用の語句として使用する語句がスパムワードとして定義されたスパムワード辞書26を参照する。そして、関連記事の文章全体に占める宣伝用語句の比率が高い記事を除外し、消費者が書いたと思われる記事のみを抽出することによって、解析の対象とする記事を抽出する。
【0040】
商品・付属情報抽出手段22は、各解析対象記事を、消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレート28に当てはめ、いずれかの雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から商品情報及び付属情報に該当する名詞を抽出する。
【0041】
商品辞書30は、市販されている様々な商品の商品名と、その商品を示す名詞及びその名詞から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
【0042】
概念辞書32は、連想概念辞書32aと商品分類辞書32bとで構成されている。連想概念辞書32aは、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。また、商品分類概念辞書32bは、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
【0043】
商品情報特定手段24は、商品・付属情報抽出手段22が抽出した商品情報及び付属情報に基づいて商品辞書30及び概念辞書32を参照し、商品情報に関連する属性を抽出して組み合わせ、その商品情報を具体的に特定した特定商品情報を生成する。そして、上記の解析対象記事抽出手段20、商品・付属情報抽出手段22、商品情報特定手段24が行った一連の処理内容を示す情報を、入出力端末18の出力手段18bに送る働きをする。
【0044】
次に、購入商品情報抽出システム10が購入商品に関する情報を取得する動作と抽出方法について、図2のフローチャートに基づいて説明する。まず、検索ユーザが、入力手段18aに検索キーワードである特定のテレビ番組名を入力する(ステップS10)。
【0045】
テレビ番組名が入力されると、検索手段20aは、消費者記事収集手段12にアクセスし、消費者記事の文章を個々に全文検索し、そのテレビ番組名を文字列として含む消費者記事を関連記事として抽出する(ステップS11)。例えば、検索ユーザがテレビ番組名「のんびり旅日記」を入力すると、図3に示すように、膨大な消費者記事の中から記事1,2,4が関連記事として抽出される。同様に、テレビ番組名「ライブ&ライブ」を入力すると、記事3が関連記事として抽出される。
【0046】
次に、絞込手段20bが、関連記事の中から消費者が書いたと思われる解析対象記事を抽出する(ステップS12)。以下、ステップS12の詳細な処理を、図4のフローチャートを用いて説明する。
【0047】
まず、関連記事の文章を形態素解析によって単語に分割する(ステップS121)。そして、関連記事毎に、総単語数αと、スパムワード辞書26に定義されたスパムワードに該当する単語数であるスパムワード数βを取得する(ステップS122)。スパムワード辞書26には、図5に示すように、一般に宣伝用語句として使用されることが多い「無料」「販売」「話題」などのスパムワードがあらかじめ登録されている。スパムワードの定義は厳密である必要はなく、ここでは、システム管理者が経験則等に基づいて設定している。例えば、記事1の場合、総単語数α=13であり、その中にスパムワードが含まれていないので、スパムワード数β=ゼロである。一方、記事4の場合、総単語数α=20であり、その中にスパムワード「話題」「騒然」「掲示板」が含まれているので、スパムワード数β=3である。
【0048】
次に、スパムワードの占有率(β/α)の高低を判断する基準値γを選択する(ステップS123)。ここでは、基準値γは一定の数値である10%が選択されている。なお、総単語数αが少ない文章の場合、スパムワード数βが少し存在するだけで占有率(β/α)が高いと判定されてしまう傾向があるので、総単語数αが少ないときは、基準値γとして比較的小さな値が自動選択されるよう調節することが好ましい。
【0049】
次に、スパムワードの占有率(β/α)を算出して基準値γを比較し(ステップS124)、スパムワードの占有率(β/α)が基準値γよりも低いときは、「当該関連記事は消費者が書いた記事と思われるので有用である」と判定し、解析対象記事として取り扱う(ステップS125)。一方、スパムワードの占有率(β/α)が基準値γよりも高いときは、「当該関連記事は販売者が書いた記事と思われるので有用ではない」と判定し、以降の解析対象から除外する(ステップS126)。
【0050】
次に、図2のフローチャートに戻り、ステップS12で抽出された解析対象記事を、商品・付属情報抽出手段22に送って解析する。解析対象記事を受けた商品・付属情報抽出手段22は、解析対象記事の文章を購入パターンテンプレート28に当てはめ、商品情報と付属情報を抽出する(ステップ13)。購入パターンテンプテート28は、図6に示すように、「○○○のために△△△を買った」「○○○へ△△△を買いに行く」といった、消費者が商品を購入する時の行動パターンを示す複数の雛型文章が登録されている。そして、解析対象記事の文章を雛型文章に当てはめ、「△△△」に該当する部分の名詞を商品情報として抽出し、「○○○」に該当する部分の名詞を付属情報として抽出する。例えば、記事1の場合、「旅行のために「日本の名城100選」を買った」の文章が雛型文章T1に当てはまり、商品情報「日本の名城100選」と付属情報「旅行」を抽出する。同様に、記事3の場合、「BBB楽器店へキーボードを買いに行く」の文章が雛型文章T3に当てはまり、商品情報「キーボード」と付属情報「BBB楽器店」を抽出する。
【0051】
次に、解析対象記事毎に抽出された商品情報と付属情報は、商品情報特定手段24に送られて解析される。商品情報と付属情報を受けた商品情報特定手段24は、商品情報を具体的に特定した特定商品情報を生成する(ステップS14)。以下、ステップS14の詳細な処理を、図7のフローチャートを用いて説明する。
【0052】
まず、商品辞書30を参照し、解析対象記事の商品情報が属性(商品名)として登録されているか調べる(ステップS141)。商品辞書30は、例えば図8に示すように、「幕末と私」という商品名と、その商品を示す名詞及び連想される商品を示す名詞である「本」「エッセイ」「歴史」「地理」が、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。商品名「日本の名城100選」についても同様に、属性「本」「ガイドブック」「旅行」が互いに対応付けて登録されている。
【0053】
例えば、記事1の場合、商品情報が「日本の名城100選」なので、商品辞書30の属性(商品名)に登録されている。従って、「日本の名城100選」についての商品特定属性として「本」「ガイドブック」「旅行」を抽出する(ステップS142)。そして、これらの商品特定属性を組み合わせることによって、記事1の商品情報「日本の名城100選」が旅行のガイドブックであると特定し、特定商品情報「旅行のガイドブック」を生成する(ステップS143)。一方、記事2の場合、商品情報が「ガイドブック」であり、商品辞書30の属性(商品名)に登録されていないので、ステップS144に進む。
【0054】
記事2のように、商品辞書30に商品情報が属性(商品名)に登録されていない場合、連想概念辞書32aを参照し、付属情報がいずれかの属性に登録されているかを調べ、登録されていれば、その属性に対応付けられた他の属性も合わせて付属属性として抽出する(ステップS144)。連想概念辞書32aは、例えば図9に示すように、「旅行」という商品に関する事柄を示す名詞と、「目的地」「地名」「日本」という「旅行」から連想される商品に関する事柄を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。同様に、「旅行」「移動手段」「飛行機」という属性の対応付けもある。
【0055】
例えば、記事2の場合、付属情報が「九州」なので、「旅行」「目的地」「地名」「九州」という付属属性を抽出する。一方、記事3の場合、付属情報が「BBB楽器店」なので、連想概念辞書32aに属性として登録されておらず、付属属性は無しとなる。
【0056】
次に、商品分類概念辞書32bを参照し、商品情報がいずれかの属性に登録されているかを調べ、登録されていれば、その属性に対応付けられた他の属性も合わせて商品属性として抽出する(ステップS145)。商品分類概念辞書32bは、例えば図10に示すように、「本」という商品を示す名詞と、「ガイドブック」「旅行」のように「本」から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。同様に、「本」「小説」「推理」という対応付けもある。
【0057】
例えば、記事2の場合、商品情報が「ガイドブック」なので、「本」「ガイドブック」「旅行」「テレビ番組」「薬」「医療・福祉」という商品属性を抽出する。一方、記事3の場合、商品情報が「キーボード」なので、商品分類概念辞書32bに属性として登録されておらず、商品属性は無しとなる。
【0058】
次に、ステップS144で抽出した付属属性と、ステップS145で抽出した商品属性を比較し、両方の属性に共通して存在する属性があるかを調べる(ステップS146)。例えば、記事2の場合、図11(a)に示すように、「旅行」という属性が共通しているので、「旅行」を商品特定属性として抽出する(ステップS147)。そして、商品特定属性「旅行」により、商品情報「ガイドブック」が旅行のガイドブックであると特定し、特定商品情報「旅行のガイドブック」を生成する(ステップS143)。一方、記事3の場合、商品属性と付属属性が無いので、ステップS148に進む。
【0059】
記事3のように、付属属性と商品属性の両方の属性に共通して存在する属性がない場合、図11(b)に示すように、商品情報「キーボード」をそのまま特定商品情報「キーボード」とする。すなわち、この特定商品情報「キーボード」には、電子楽器であるキーボードとパーソナル・コンピュータ用のキーボードが含まれ、以後、これらを区別せずに同類の情報として取り扱うことになる。なお、この取り扱いが好ましくないとシステム管理者が判断すれば、概念辞書32の「キーボード」に関連する属性の定義を修正すれば、容易に改善することができる。
【0060】
次に、図2のフローチャートに戻り、ステップS11〜S14で行った消費者記事毎の解析内容が、商品情報特定手段24から出力手段18bに送られ、出力手段18bがその解析内容を所定の形式に整理して出力する(ステップS15)。例えば、検索ユーザが、テレビ番組「のんびり旅日記」の視聴者の購入商品について知りたいとき、出力手段18bは、図12(a)(b)に示すように、「のんびり旅日記」に該当する解析対象記事の件数とその記事から取得した特定商品情報とを集計した統計情報を出力することができる。また、出力の形式は、検索ユーザが入出力端末18を操作することによって、自由に変更することができる。
【0061】
以上説明したように、購入商品情報抽出システム10及びその抽出方法は、スパムワード辞書26によって、商業的なWebサイト等の個人的なサイトからの情報ではないノイズ情報を除外し、さらに、消費者が購入した商品を検索する用途に特化して設けられた購入パターンテンプレート28や各種辞書を使用することによって、テレビ番組を視聴した消費者の購入商品について、精度の高い情報を自動的に抽出することができる。
【0062】
また、消費者の購入商品を、商品の特徴を階層化して定義した商品辞書30や概念辞書32を用いて解析するため、消費者記事毎の個別情報を、系統的に整理された形で抽出することができる。従って、例えば書籍に関する複数の個別情報を集計するとき、「本」「小説」「推理小説」「探偵ものの推理小説」というように任意の階層概念で分類することができる。これにより、出力手段18bは、得られた購入商品に関する個別情報を様々な態様に集計し、検索ユーザの目的に合った統計情報を自在に出力することができる。
【0063】
また、市販されている具体的な商品の情報が、適切な属性を付与して商品辞書30に登録されているので、消費者記事から抽出した商品情報が具体的な商品名であっても、容易に購入商品を特定することができる。
【0064】
そして、購入商品情報抽出システム10及び抽出方法で得られた統計情報を分析することによって、テレビ番組のような商品広告媒体の制作者等は、スポンサーとして適した企業や業界を容易に知ることができる。また、スポンサーとなる企業等も、消費者に対する宣伝効果が大きい商品広告媒体を容易に知ることができる。
【0065】
次に、上述した購入商品情報抽出システム10の情報収集装置16の変形例である情報収集装置40について、図13〜図17に基づいて説明する。情報収集装置40は、インターネットの消費者記事を収集する消費者記事収集手段12に加え、インターネットの通信販売サイトにアクセスし、市販されている商品の情報を収集し、商品辞書30に新たに登録する働きをする通信販売情報収集装置42を備えている。
【0066】
通信販売情報収集装置42は、通信販売サイト個々の階層構造を解析するサイト構造解析手段42aと、その階層構造の最下層のページを解析する最下層ページ解析手段42bと、サイト構造解析手段42aと最下層ページ解析手段42bで解析した情報を商品辞書30に登録する商品辞書登録手段42cとで構成されている。
【0067】
次に、通信販売情報収集装置42の動作を、図14のフローチャートに基づいて説明する。まず、サイト階層構造解析手段42aが通信販売サイトにアクセスする(ステップS20)。そして、メニュー部分の表示に着眼してサイト構造を解析し、階層毎に付与された商品カテゴリを認識する(ステップS21)。以下、ステップS21の詳細な処理を、図15のフローチャートを用いて説明する。
【0068】
まず、メニュー部分に表示されるHTML(Hyper Text Markup Language)データを取得する(ステップS211)。次に、そのHTMLデータのうち、所定のタグに囲まれた文字列を商品カテゴリ候補として抽出する(ステップS212)。例えば、<div>タグや<li>タグなどで囲まれた文字列である名詞を商品カテゴリ候補にするとよい。そして、商品カテゴリ候補の文字列から商品のサイズや色を示す文字列を削除した文字列を抽出し、当該階層の商品カテゴリとして当該階層構造の情報と共に認識する(ステップS213)。
【0069】
次に、図14のフローチャートに戻り、最下層ページ解析手段42bが、ステップS21で認識した階層構造の最下層のページを解析し、販売されている商品の商品名を抽出する(ステップS22)。以下、ステップS22の詳細な処理を、図16のフローチャートを用いて説明する。
【0070】
まず、最下層ページの本文部分に表示された商品一覧のHTMLデータを取得する(ステップS221)。次に、そのHTMLデータのうち、所定のタグに囲まれた文字列である名詞をリンク付き商品イメージとして抽出する。例えば、<image>タグや、他ページへのリンクを設定する<a>タグなどで囲まれた文字列をリンク付き商品イメージとするとよい。次に、リンク付き商品イメージの文字列のうち、前後の文字列が強調表示されている文字列を選択する(ステップS223)。例えば、<h1>タグや<font>タグなどで囲まれた文字列が該当する。そして、リンク付き商品イメージの文字列から商品のサイズや型番などを示す文字列を削除した文字列である名詞を抽出し、商品名として認識する(ステップS224)。
【0071】
次に、図14のフローチャートに戻り、商品辞書登録手段42cが、ステップS21,S22で認識した新たな商品名と商品カテゴリを、商品辞書30に登録する(ステップS23)。以下、ステップS23の詳細な処理を、図17のフローチャートを用いて説明する。
【0072】
まず、抽出した新たな商品名を、図8に示す商品辞書30の属性(商品名)に登録する(ステップS231)。次に、その商品名に対応付けられた商品カテゴリが、商品辞書30の他の属性に定義されているかを調べる(ステップS232)。定義されている場合は、商品カテゴリをその商品名に対応付け、該当する属性に登録する(ステップS233)。一方、定義されていない場合は、商品辞書30に該当する属性を新たに定義し(ステップS234)、商品カテゴリをその商品名に対応付け、新たに定義した属性に登録する(ステップ235)。
【0073】
このように、情報収集装置40を備えた購入商品情報収集装置10は、日々増加する新商品の情報についても、インターネット通信販売のWebサイトから定期的に情報を取得し、自動的に商品辞書30に登録・更新されるので、市場の動向や流行の変化に十分に対応した調査を行うことができる。
【0074】
この発明の行動情報抽出システム及び抽出方法は上記実施形態に限定されるものではなく、例えば、商品の購入以外に、観光や鑑賞等の目的で何らかの行動対象を見に何処かへ行くと言う行動や、家族や友人と旅行に出かける等の行動についても同様に抽出することができる。以下、上述の購入動作に加えてその他の行動を含む実施形態である行動情報抽出システム50について、図18のブロック図に基づいて説明する。ここで、上記実施形態と同様の構成は同一の符号を付して説明を省略する。
【0075】
この実施形態の行動情報抽出システム50は、上記実施形態の購入商品情報抽出システム10の構成を含むものであって、特定の解析対象記事の文章中から商品購入行動を含む種々の行動情報を抽出するものである。この行動情報抽出システム50は、行動情報の抽出における行動対象(この発明では、物の他、人や抽象的なものも含むものである。)を特定するための情報を抽出する行動対象・付属情報抽出手段52と、行動対象・付属情報抽出手段52が抽出した情報に基づいて行動対象を特定する行動対象情報特定手段54を備えている。
【0076】
行動対象・付属情報抽出手段52は、商品・付属情報抽出手段22を含むものであり、上記実施形態と同様に、購入パターンテンプレート28を含む行動パターンテンプレート56を参照可能に設けられている。行動パターンテンプレート56は、「〜を見に、〜へ行った。」や、「〜と、〜へ行った。」等の、何らかの対象を認識して行動するパターンのテンプレートを備える。そして、行動対象・付属情報抽出手段52は、各解析対象記事を、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレート56に当てはめ、いずれかの雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から行動対象情報及び付属情報に該当する名詞を抽出する。
【0077】
また、行動対象情報特定手段54は商品情報特定手段24を含むもので、上記実施形態と同様に、各種辞書を参照する。行動対象情報特定手段54が参照する辞書には、上記実施形態の商品辞書30に加えて、商品辞書30が含まれる行動対象辞書58がある。行動対象辞書58は、商品辞書30と同様に、行動対象となり得る様々な認識物の名前と、その認識物を示す名詞及びその名詞から連想されるものを示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
【0078】
概念辞書32は、連想概念辞書32aと、商品分類概念辞書32bを含む行動対象分類概念辞書32cを備えている。行動物分類概念辞書32cは、様々な認識物を示す名詞と当該名詞から連想されるものを示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
【0079】
さらに、行動対象情報特定手段54には、種々の行動を示す名詞を記録した行動辞書60が参照可能に設けられている。行動辞書60は、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成るものである。
【0080】
この実施形態の解析対象記事抽出手段20は、上記実施形態と同様に、絞込手段20bにより、商品やその他の行動対象を扱う業者が宣伝用の語句として使用する語句がスパムワードとして定義されたスパムワード辞書26を参照して、関連記事の文章全体に占める宣伝用語句の比率が高い記事を除外し、行動対象・付属情報抽出手段52により、消費者が書いたと思われる記事のみを抽出し、解析の対象とする。
【0081】
そして、行動対象情報特定手段54は、行動対象・付属情報抽出手段52が抽出した行動対象情報及び付属情報等に基づいて、行動辞書60と行動対象辞書58及び概念辞書32を参照し、行動対象情報に関連する属性を抽出して組み合わせ、その行動対象情報と行動を具体的に特定した特定行動対象情報を生成する。さらに、上記の解析対象記事抽出手段20、行動対象・付属情報抽出手段52、行動対象情報特定手段54が行った一連の処理内容を示す情報を、入出力端末18の出力手段18bに送る働きをする。これにより、商品の購入に加えて、それ以外の種々の消費者行動についても、消費者の行動パターンを抽出し、分析することができる。
【0082】
なお、この発明の行動情報抽出システム及び抽出方法は、テレビやラジオ番組の視聴者、雑誌等の購読者、各種施設の使用者など、様々な広告媒体にアクセスした消費者の行動についての情報を抽出するシステム又は抽出方法であり、行動辞書や行動対象辞書、概念辞書等は、上記のそれぞれの用途に適した異なる内容の辞書を複数設けてもよい。
【0083】
また、通信販売情報収集装置の商品辞書登録手段は、通信販売サイトを解析して得た商品カテゴリの文字列を、シソーラス辞書を使用して変換し、変換後の文字列が既に商品辞書に属性として登録されていれば、その変換後の文字列を商品カテゴリに代えて商品辞書に登録してもよい。また、商品分類概念辞書等の階層構造は、商品辞書等の属性の階層構造と必ずしも一致している必要はないが、商品辞書の属性(商品名)を除く他の属性について同様の構成にしてもよい。そうすれば、商品分類概念辞書等と商品辞書等が互いに同様の性能を維持しながら更新されるので、購入商品情報抽出等の品質や性能が安定し、システム管理者によるメンテナンスも容易になる。
【符号の説明】
【0084】
10 購入商品情報抽出システム
12 消費者記事収集手段
16 情報収集装置
18 入出力端末
18a 入力手段
18b 出力手段
20 解析対象記事抽出手段
20a 検索手段
20b 絞込手段
22 商品・付属情報抽出手段
24 商品情報特定手段
26 スパムワード辞書
28 購入パターンテンプレート
30 商品辞書
32 概念辞書
32a 連想概念辞書
32b 商品分類概念辞書
40 情報収集手段
42 通信販売情報収集装置
42a サイト階層構造解析手段
42b 最下層ページ解析手段
42c 商品辞書登録手段
52 行動対象・付属情報抽出手段
54 行動対象情報特定手段
56 行動パターンテンプレート

【特許請求の範囲】
【請求項1】
コンピュータシステムにより構成され、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、収集した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出し、出力する行動情報抽出システムにおいて、
前記Webサイトにアクセスし前記消費者記事を収集する消費者記事収集手段を有する情報収集装置と、
検索ユーザが検索キーワードを入力する入力手段と、検索処理の結果得られた消費者の行動に関する情報を所定の形式で出力する出力手段とを有する入出力端末と、
前記消費者記事収集手段が収集した消費者記事毎に文章を解析し、当該文章中に前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索手段と、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞込手段とが設けられた解析対象記事抽出手段と、
前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出手段と、
前記行動の行動対象を示す名詞と、当該名詞に関連する行動対象を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る行動対象辞書と、
行前記動の行動対象を示す名詞と、当該名詞から連想される連想概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、
前記解析対象記事毎に前記行動対象辞書又は前記概念辞書を参照し、前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定した特定情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る行動対象情報特定手段とを備えたことを特徴とする行動情報抽出システム。
【請求項2】
前記行動対象情報特定手段には、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書が参照可能に設けられ、前記行動対象情報特定手段は前記行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである請求項1記載の行動情報抽出システム。
【請求項3】
消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを備え、
前記行動対象・付属情報抽出手段は、前記解析対象記事の文章に対して、前記行動パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出する請求項1記載の行動情報抽出システム。
【請求項4】
前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出手段と、
市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書と、
商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、
前記解析対象記事毎に前記概念辞書又は前記商品辞書を参照し、前記商品・付属情報抽出手段が抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって当該商品情報に該当する商品を具体的に特定した特定商品情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る商品情報特定手段とを備えた請求項1記載の行動情報抽出システム。
【請求項5】
宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を備え、
前記解析対象記事抽出手段の前記絞込手段は、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出する請求項1又は4記載の行動情報抽出システム。
【請求項6】
前記絞込手段には、前記関連記事の総単語数に応じて、総単語数が相対的に少ない場合は相対的に小さい基準値が設定されている請求項1又は4記載の行動情報抽出システム。
【請求項7】
消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレートを備え、
前記商品・付属情報抽出手段は、前記解析対象記事の文章に対して、前記購入パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出する請求項4記載の行動情報抽出システム。
【請求項8】
前記商品情報特定手段は、
前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、
当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成する請求項4記載の行動情報抽出システム。
【請求項9】
前記概念辞書は、
様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、
様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、
前記商品情報特定手段は、
前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、
前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、
前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、
前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま特定商品情報とする請求項4又は8記載の行動情報抽出システム。
【請求項10】
前記情報収集装置は、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析手段と、当該階層構造の最下層のページを解析する最下層ページ解析手段と、前記サイト構造解析手段及び前記最下層ページ解析手段で解析した情報を前記商品辞書に登録する商品辞書登録手段とで成る通信販売情報収集手段を備え、
前記サイト構造解析手段は、前記階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び階層毎に付与された商品カテゴリを認識し、
前記最下層ページ解析手段は、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、
前記商品辞書登録手段は、前記最下層解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する請求項4乃至9のいずれか記載の行動情報抽出システム。
【請求項11】
消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、検索した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出する行動情報抽出方法において、
前記検索ユーザが検索キーワードを入力することにより、前記Webサイトの消費者記事の中から前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索ステップと、
前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞り込みステップと、
前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出ステップと、
前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定して特定行動対象情報を生成する行動対象情報特定ステップとを備えたことを特徴とする行動情報抽出方法。
【請求項12】
前記行動対象情報特定ステップは、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである請求項11記載の行動情報抽出方法。
【請求項13】
前記行動対象・付属情報抽出ステップは、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを参照して、前記解析対象記事の文章に対して、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出する請求項11記載の行動情報抽出方法。
【請求項14】
前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出ステップと、
商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品概念を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書とを参照し、前記商品・付属情報抽出ステップにおいて抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定する商品情報特定ステップとを備えた請求項11記載の行動情報抽出方法。
【請求項15】
前記絞り込みステップは、前記絞り込み宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を参照し、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出する請求項11又は14記載の行動情報抽出方法。
【請求項16】
前記絞り込みステップは、前記関連記事の総単語数に応じて、総単語数が少ない場合は相対的に小さい基準値を用いて判定を行う請求項11又は14記載の行動情報抽出方法。
【請求項17】
前記商品・付属情報抽出ステップは、消費者が商品を購入するときの購入パターンを表す雛型文章を参照し、前記解析対象記事から、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出する請求項14記載の行動情報抽出方法。
【請求項18】
前記商品情報特定ステップは、
前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、
当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成する請求項14記載の行動情報抽出方法。
【請求項19】
前記概念辞書は、
様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、
様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、
前記商品情報特定ステップは、
前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、
前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、
前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、
前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま特定商品情報とする請求項14又は18記載の行動情報抽出方法。
【請求項20】
インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析ステップと、当該階層構造の最下層のページを解析する最下層ページ解析ステップと、前記サイト構造解析手段及び前記最下層ページ解析手段で解析した情報を前記商品辞書に登録する商品辞書登録ステップとで構成され、前記検索ステップを行う前にあらかじめ実施される通信販売情報収集ステップを備え、
前記サイト構造解析ステップは、前記各階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び各階層毎に付与された商品カテゴリを認識し、
前記最下層ページ解析ステップは、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、
前記商品辞書登録ステップは、前記最下層解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する請求項14乃至19のいずれか記載の行動情報抽出方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2011−107826(P2011−107826A)
【公開日】平成23年6月2日(2011.6.2)
【国際特許分類】
【出願番号】特願2009−260033(P2009−260033)
【出願日】平成21年11月13日(2009.11.13)
【出願人】(500309920)株式会社インテックシステム研究所 (22)
【Fターム(参考)】