インターネットサイト情報分析方法と装置
【課題】インターネット上に公開された多くのサイト情報を基に、それらの情報が持つ意味や背景、傾向を効果的に正確に知ることができる分析装置及び分析方法を提供する。
【解決手段】Webサイト12の文章情報の収集を行う情報収集手段であるクローラ14と、文章情報を単語に分割するアナライザ18による単語分割手段と、前記単語群から評価対象とその評価対象の性質を表す評価軸と評価表現との組からなる評判情報を抽出するアナライザ18による評判情報抽出手段と、前記評判情報を前記評価軸毎に分類するアナライザ18による評価軸別分類手段を備える。評価表現とその程度を示すスコアとの組からなる評価表現辞書を複数設けた、評価表現辞書群データベース20を備える。評判情報毎に評点を算出するアナライザ18である評点計算手段と、任意の異なる評価軸の評点を相対比較して出力するポータルサーバ24から成る評判分析出力手段を備える。
【解決手段】Webサイト12の文章情報の収集を行う情報収集手段であるクローラ14と、文章情報を単語に分割するアナライザ18による単語分割手段と、前記単語群から評価対象とその評価対象の性質を表す評価軸と評価表現との組からなる評判情報を抽出するアナライザ18による評判情報抽出手段と、前記評判情報を前記評価軸毎に分類するアナライザ18による評価軸別分類手段を備える。評価表現とその程度を示すスコアとの組からなる評価表現辞書を複数設けた、評価表現辞書群データベース20を備える。評判情報毎に評点を算出するアナライザ18である評点計算手段と、任意の異なる評価軸の評点を相対比較して出力するポータルサーバ24から成る評判分析出力手段を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネットのWebサイト上で公開されている情報を分析し、トレンド情報等を取得・提供するインターネットサイト情報分析方法と装置に関する。
【背景技術】
【0002】
インターネット上では、様々な人々が公開した膨大な量の情報がWebサイトに記憶され、現在もなお増え続けている。ここで、Webサイトとは、掲示板(BBS:Bulletin Board
System)やホームページ、ブログと称されるウェブログ(Web
Log)などの情報源を意味する。
【0003】
近年、Webサイトに蓄積された記事を分析して新しいトレンド情報を得ようとする取り組みが盛んに行われている。例えば、意見の内容がどの程度肯定的なのか或いは否定的なのかを分析する評判分析の技術や、所定のキーワードの出現頻度や注目度(Burst度)のトレンドを時系列に評価する技術や、検索エンジンを使用したとき検索結果内で特定のWebサイトが上位に表示されるようにする検索エンジン最適化の技術等、様々な技術を用いたサービスが実際に提供されている。
【0004】
具体例を挙げると、特許文献1で開示されているように、Webサイトから複数の文章情報を取得し、個々の文章情報から、などの評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現と、その評価表現にあらかじめ設定されている評価スコアとの組からなる評判情報を抽出し、各評判情報について評価スコアを所定の方法ですべて集計(合算)することによって、分析対象である対象事物に関する知見を得る評判情報処理装置がある。この評判情報処理装置の実施例において、具体的には、評価表現に対する評価スコアは、「かっこいい」が0.2点、「軽い」が0.3点、「よい」が0.1点という具合に設定し、評判情報が有する否定性/肯定性についての度合いを数値化する分析方法が示されている。
【0005】
また、特許文献2に開示されているように、Webサイトから複数の文章情報を取得し、個々の評判に対して評価スコアを付した評判情報を取得し、各評判情報について評価スコアを所定の計算方法で集計することによって、分析対象である対象事物に関する知見を得る評判情報処理装置がある。特に、「価格」「デザイン」などの評価軸毎に所定の重み付けの数値を設定しておき、例えば「デザイン」という評価軸が世の中で注目されている場合には、たとえ「デザイン」に関する評判情報の数が少ない場合であっても「デザイン」に関する評価スコアが集計結果に大きく反映されるように工夫されている。
【0006】
さらに、特許文献3に開示されているように、Webサイトにアクセスして文章情報(風評情報)を所定の期間ごとに収集し、収集したキーワードの使用状況を定量化して、定量化したキーワードの使用状況を監視することにより、抽出したキーワードの中からトレンドキーワードとなるキーワードを選定して、近未来に検索エンジンで使用される可能性の高いトレンドキーワードをリアルタイムで予測し、そのトレンドキーワードに関連する情報を提供するトレンド予測装置がある。これは、実際に検索エンジンに入力された検索キーワードの使用実績を分析してトレンドキーワードを得るよりも、リアルタイム性に優れているという特徴がある。
【特許文献1】特開2007−172051号公報
【特許文献2】特開2006−53685号公報
【特許文献3】特開2006−227965号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、特許文献1の評判情報処理装置にあっては、「かっこいい」「軽い」「よい」などの評価表現と、評価表現それぞれに設定された評価スコアは、例えば「カメラ」「電池の持ち」といった異なる評価軸を評価する場合にも共通して使用されるものである。従って、各評価軸に合わせた適切な評価ができないものであった。また、多くの評判情報の評価スコアを、最終的には1つの評価表現や1つの評価軸ごとに集計した総合的評価値として取り扱うので、一人の投稿者が持っている異なる評価軸に対しての意見の相関関係が、総合評価値に埋没してしまう。したがって、例えば「デザインがよいので、価格は安く感じる」と「デザインはよいが、価格は高いと感じる」という二人の投稿者の記事があった場合でも、投稿者一人一人がどのような優先度の付け方をするのか、そのバランス感覚に傾向はないか、といった分析にまで踏み込むことができないものであった。
【0008】
特許文献2の評判情報処理装置にあっては、評価スコアを集計した総合評価値の中に個々の評価情報が持つ価値が埋没してしまわないように工夫がなされたものではあるが、特許文献1と同様に、投稿者一人一人が有する複数の要望について、その優先度の付け方やバランス感覚の傾向等にまで踏み込んだ分析ができないものであった。
【0009】
特許文献3のトレンド予測装置にあっては、分析の対象としたキーワードについて、そのキーワードを含む文章情報の肯定性/否定性やキーワードの発生頻度などを分析して、そのキーワード自体をトレンドキーワードに選定するか否かを判断するものであって、そのキーワードの周囲に広がっていく投稿者の興味の変化を実体的に把捉し得るものではなかった。
【0010】
また、特定のキーワードの周辺情報を収集する方法として相関分析手法が提案されており、そのキーワードから連想される別のキーワードを取得する連想検索等のサービスも行われているが、特許文献3と同様に、そのキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉し得るものではなかった。
【0011】
また、有益な情報が得られる活発なWebサイトをリアルタイムに知りたいという要望があるが、そのような要望に応え得る方法やサービスは提案されておらず、未だ実用化されていないものであった。
【0012】
本発明は上記背景技術に鑑みて成されたもので、インターネット上に公開された多くのサイト情報を基に、それらの情報が持つ意味や背景、傾向を効果的に正確に知ることができる分析装置及び分析方法を提供するもので、特に、1つの記事が有する複数の要望を対比的に評価する評判分析、有益な情報が得られる活発なWebサイトをリアルタイムに抽出するWebサイト活性度分析、およびあるキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉する共起情報分析を行い、Webサイトに蓄積された記事から新しいトレンドを正確に知ることができるインターネットサイト情報分析方法と装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
この発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記Webサイトの文章情報の収集を行う情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出ステップと、
前記評判情報を前記評価軸毎に分類する評価軸別分類ステップと、前記評価表現とその程度を示すスコアとの組からなる評価表現辞書が評価軸毎にあらかじめ複数設けられ、その中の分析対象の評価軸に対応した評価表現辞書に基づいて評点を算出する評点計算ステップと、前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0014】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算ステップと、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算ステップと、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0015】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出ステップと、前記調査対象情報を構成する単語に含まれ、前記キーワードと別のキーワードである共起キーワードを抽出する共起キーワード抽出ステップと、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算ステップと、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソートステップと、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0016】
またこの発明は、コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出手段と、前記評判情報を前記評価軸毎に分類する評価軸別分類手段と、前記評価表現とその程度を示すスコアとの組からなる評価表現辞書を、前記評価軸ごとに複数設けた評価表現辞書群データベースと、分析対象の評価軸に対応した評価表現辞書を前記評価表現辞書群データベースから抽出し、その評価表現辞書に基づいて評判情報毎に評点を算出する評点計算手段と、前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力手段とを備えるインターネットサイト情報分析装置である。
【0017】
前記評判分析出力手段は、任意の異なる2つの評価軸の評点に基づき2次元グラフ、または、任意の異なる3つの評価軸の評点に基づき3次元グラフに表して出力するものである。
【0018】
またこの発明は、コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算手段と、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算手段と、各Webサイトの更新日付を収集する更新日情報収集手段と、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段とを備えるインターネットサイト情報分析装置である。
【0019】
前記活性度分析出力手段は、前記関連情報投稿率と前記更新頻度とを2次元グラフに表して出力するものである。
【0020】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出手段と、前記調査対象情報を構成する単語に含まれ、前記調査対象のキーワードと同一または類似の単語を除く他の単語である共起キーワードを抽出する共起キーワード抽出手段と、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算手段と、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソート手段と、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力手段とを備えるインターネットサイト情報分析装置である。
【発明の効果】
【0021】
この発明によれば、Webサイトに公開され蓄積された膨大な量の情報を分析し、的確なトレンド情報を容易に得ることが可能になる。
【0022】
特に、請求項1,4及び5記載の発明によれば、評価軸ごとに評価表現辞書および評価スコアを設けることによって投稿者の意見を的確に評点計算することが可能であり、かつ、投稿者一人一人が有する複数の評価軸(要望)についての優先度の付け方やバランス感覚の傾向等にまで踏み込んだ評判分析をすることができる。
【0023】
また、請求項2,6及び7記載の発明によれば、各Webサイトについて所定キーワードに関連した情報の投稿率と更新頻度を計算するサイト活性度分析によって、活発に情報発信しているWebサイトを容易に知ることができ、それら情報発信源として注目すべきWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。
【0024】
さらに、請求項3,8記載の発明によれば、所定のキーワードに共起する別のキーワードの変化を時系列で分析する共起情報分析によって、所定のキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉することができる。
【発明を実施するための最良の形態】
【0025】
以下、本発明のインターネットサイト情報分析装置10を配置したネットワークシステムの実施形態を図1に基づいて説明する。このネットワークシステムにおいては、多くの人が感想や意見などの情報を公開しているWebサイト12と、指定されたWebサイトから定期的にRSS(Rich Site Summary)フォーマットの文章情報を収集するクローラ14と、クローラ14が収集した情報がデータベース化して記憶している記事データベース16と、後述する3つの分析を行うプログラムを備えたアナライザ18と、分析する評価軸に対応に対応する評価表現とその評価スコアが設定されている評価表現辞書群データベース20と、分析の結果を格納する分析結果データベース22と、利用者26が所持するパソコンが接続され、所望の分析結果を分析結果データベース22から抽出して利用者26に配信するポータルサーバ24とが、インターネット上にそれぞれ配置されている。
【0026】
本発明の第一の実施形態に係る評判分析を行うインターネットサイト情報分析方法を、図2から図6に基づいて説明する。まず、図2に示すフローに基づいて概要を説明する。ステップS110で、ブログである各Webサイトから文章情報を収集する。インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、評判分析アナライザ18aとがこの情報収集手段としての働きを行う。次に、ステップS120で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、評判分析アナライザ18aがこの単語分割手段としての働きを行う。ステップS130で、分割された単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する。インターネットサイト情報分析装置10では、評価分析アナライザ18aがこの評判情報抽出手段としての働きを行う。
【0027】
そして、ステップS140で、抽出された評判情報を、評価軸ごとに分類する。インターネットサイト情報分析装置10では、評価分析アナライザ18aがこの評価軸別分類手段としての働きを行う。ステップS150は、評価表現辞書群データベース20から分析対象である評価軸に対応した評価表現辞書を抽出して各評判情報の評点を計算し、計算結果を格納する。インターネットサイト情報分析装置10では、評価分析アナライザ18aと、評判分析結果データベース22aとがこの評点計算手段としての働きを行う。そして、ステップS160で、利用者26の要求に応じ、任意の異なる評価軸による評点を有する各文章情報をグラフに表示して出力する。インターネットサイト情報分析装置10では、評判分析結果データベース22aと、ポータルサーバ24が備える評判分析表示フレームワーク24aとがこの評判分析出力手段としての働きを行う。
【0028】
次に、上記評判分析の各ステップについて、詳細に説明する。図3に示すように各Webサイトには、複数の文章情報が存在する。ステップS110では、例えば文章情報a1「A社の車は、価格は高いしハンドルが使いにくい」というように、所定の文章の単位ごとのに分割された文章情報を収集する。さらにこれらの文章情報は、ステップS120において、名詞、助詞、形容詞、動詞等の単語(品詞)に分解される。
【0029】
ステップS130では、それらの単語を公知技術である日本語形態素分析技術や係り受け解析技術等を用いて単語同士の関係付けを行う。日本語形態素分析技術によれば、文章中における名詞や助詞が出現する前後関係等を分析することによって、例えば文章情報a1に含まれる単語であれば、「価格」には「高い」が対応し、「ハンドル」には「使いにくい」が対応する、といった関係付けを行うことができる。このようにして文章情報から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組である評価情報を抽出する。例えば文章情報a1であれば、「車、車の価格、高い」および「車、車の操作性、使いにくい」という2つの評判情報を抽出する。
【0030】
ステップS140では、上記の評判情報を、「車の価格」「車の操作性」等の評価軸ごとに分類する。後述するステップS150の計算処理を効率的に行うために情報を整理する前準備のステップである。
【0031】
ステップS150では、評価表現辞書群データベース20に設けられた複数の評価表現辞書を用いて各評判情報の評点を計算する。ここで、評価表現辞書の例を図4に基づいて説明する。評価表現辞書は評価軸ごとに設けてあり、例えば「車の価格」という評価軸に対しては評価表現辞書Aが該当し、「高い」「割高」「お手頃」というように車の価格に関する評価表現として考えられるものをリストアップし、それぞれの評価表現に対して肯定的/否定的なレベルが評価スコアとして定義されている。一方「車の操作性」という評価軸に対しては評価表現辞書Bが該当し、「車の操作性」を評価するのに適した別の評価表現をリストアップし、それぞれの評価表現に対して肯定的/否定的なレベルが評価スコアとして定義されている。
【0032】
上記の評価表現辞書を用いるステップS150について、さらに詳細な処理について、図5に基づいて説明する。ステップS151は、評価表現辞書群データベース20の中の一の評価表現辞書に着目し、その評価表現辞書に該当する評判情報群を抽出するステップである。例えば、上記評価表現辞書Aに着目した場合には、評判情報の評価軸が「車の価格」に該当する評判情報を抽出する。
【0033】
ステップS152では、その評価表現辞書に列挙されている評価表現を含む評判情報を順番に抽出し、さらにステップS153で、その評判情報の評点としてその評価表現のスコアを割り付ける計算を行ってその結果を評判分析結果データベース22aに格納する。例えば、「高い」という評価表現を含む評判情報には「+1」という評価スコアを、「お手頃」という評価表現を含む評判情報には「+4」という評価スコアをそれぞれ割り付ける計算を行い、その結果を保存する。そして判断ステップであるステップS154において、すべての評価表現辞書についての評点計算がされたか否かを判断し、NOであれば次の評価表現辞書についてステップS151からS153を繰り返し、YESになった時点でステップS150が終了する。従って、ステップS150によって、例えば文章情報a1の場合には、「車の価格=+1」「車の操作性=+1」という2つの評価軸についての評点が割り付けられることになる。
【0034】
ステップS160では、ステップS150で評点が割り付けられた文章情報を、任意の異なる評価軸に基づいてグラフに表した評判分析情報として提供する。例えば図6に示すように、評価軸として「車の価格」と「車の操作性」の2つを選択した場合、各文章情報ごとに散布図のグラフが描かれる。この評判分析情報は、PULL型(利用者26が必要に応じて情報を取り出す)で提供される。なお、3つの評価軸を選択したときに3次元のグラフを描くものであってもよい。
【0035】
以上説明した本発明の第一の実施形態に係る評判分析(ステップS110からステップS160)のインターネットサイト情報分析方法によれば、評価軸ごとに評価表現辞書および評価スコアを設けているので、投稿者の意見を的確にとらえて評点計算することが可能である。また、多くの評価項目の意見を単純に集計せず、一つ一つの文章情報の意味を分析して、異なる評価軸について相対的にグラフに表することによって、不特定多数の投稿者がもつ多数の要望に関して、全体的な傾向をより細かい項目に踏み込んだ評判分析およびその傾向分析をすることが可能になる。
【0036】
次に、本発明の第二の実施形態に係るサイト活性度分析を行うインターネットサイト情報分析方法を、図7から図11に基づいて説明する。まず、図7に示すフローに基づいて概要を説明する。ステップS210で、各Webサイトから文章情報と更新日情報を収集する。この時、インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、サイト活性度分析アナライザ18bとがこの情報収集手段および更新日情報取得手段としての働きを行う。次に、ステップS220で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの単語分割手段としての働きを行う。そして、ステップS230で、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち関連情報の投稿数を算出する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの関連情報投稿数計算手段としての働きを行う。さらに、ステップS240で、そのWebサイトから収集した文章情報数に占める関連情報投稿数の割合である関連情報投稿率を計算し、計算結果を格納する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bがこの関連情報投稿率計算手段としての働きを行う。
【0037】
ステップS250は、分析を行う基準日と更新日情報をもとに、各Webサイトの更新頻度を計算し、計算結果を格納するもので、インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bとがこの更新頻度計算手段としての働きを行う。
【0038】
ステップS260は、利用者26の要求に応じ、関連情報投稿率と更新頻度という2つの計算値が割り付けられた各Webサイトをグラフに表示して出力する。インターネットサイト情報分析装置10では、サイト活性度分析結果データベース22bと、ポータルサーバ24が備えるサイト活性度分析表示フレームワーク24bとがこのサイト分析出力手段としての働きを行う。
【0039】
次に、上記サイト活性度分析の各ステップについて、詳細に説明する。図8に示すように各Webサイトには、複数の文章情報と各Webサイトの最終更新日の情報が存在する。ステップS210では、例えばWebサイト1であれば、文章情報a1,a2、および「最終更新日:9月11日」という更新日情報を収集する。さらにこれらの文章情報はステップS220において、名詞、形容詞、動詞等の単語(品詞)に分解される。
【0040】
ステップS230について、さらに詳細な処理について図9に基づいて説明する。ステップS230は、ステップS231で、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を、類語辞典の一種であるシソーラスなどを用いて抽出する。そしてステップS232で、各Webサイト毎に、キーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち関連情報を抽出する。さらにステップS233で、抽出された関連文章情報をカウントし、その数を累積計算する。そして判断ステップであるステップS234において、すべてのWebサイトについての計算がされたか否かを判断し、NOであれば次のWebサイトについてステップS232からS233を繰り返し、YESになった時点でステップS230が終了して次のステップ240へ移行する。
【0041】
このようにステップS230では、例えば、「車」というキーワードが与えられると、ステップS231によって「軽四」「ハイブリッドカー」「自動車」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。従って、関連情報の内容の分析およびその投稿数の算出を漏れなく行うことができる。
【0042】
ステップS240では、Webサイトごとに関連情報の投稿率を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。関連情報投稿率は、各Webサイトから収集した文章情報の総数を分母に、その中の所定のキーワードについての関連情報の数を分子に配して除算計算を行っている。例えば、図8に示すWebサイト1には、文章情報a1,a2の2件あり、そのうち、キーワード「車」の関連情報は「ハイブリッドカー」という単語を含む文章情報a1の1件である。従って、Webサイト1におけるキーワード「車」についての関連情報投稿率は0.5と計算される。このようにしてキーワードごと、かつWebサイトごとに関連情報投稿率が計算され、その計算結果は図10のリストのように系統立ててサイト活性度分析結果データベース22bに格納される。
【0043】
ステップS250では、各Webサイトの更新頻度を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。図8の計算例では、分析を行う基準日とそのWebサイトの最終更新日との差に1を加算し、その逆数を更新頻度と定義している。この定義によれば、Webサイト1の場合は、分析を行う基準日と最終更新日がともに9月11日(同日)のため更新頻度は1.0となる。また、Webサイト2の場合は、同様の計算を行うと更新頻度は0.011となる。つまり、頻繁に更新されているWebサイト1は更新頻度が高い値となり、更新されずに放置されている期間が長いWebサイト2は更新頻度が低い値を示すことになる。
【0044】
ステップS260では、ステップS240で所定のキーワードについて割り付けられた関連情報投稿率を横軸に、ステップ250で割り付けられた更新頻度を縦軸にして、各Webサイトの相対的な位置づけをグラフに表し、サイト活性度分析情報としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。例えば図11に示すように、グラフの右上に位置するWebサイトは、「車」に関する情報が多く、かつ、頻繁に更新されているWebサイト群であるので、Webサイト1,2,5のように活発に情報発信しているWebサイトにアクセスすれば、「車」に関する有益な情報が得られそうだということが分かる。逆に、グラフの左下に位置するWebサイトは、「車」に関する情報が少なく、かつ、更新頻度も低いWebサイト群であるので、Webサイト8のように活動が低調なWebサイトにアクセスしても、「車」に関する有益な情報が得られそうにないということが分かる。
【0045】
以上説明した本発明の第二の実施形態に係るサイト活性度分析(ステップS210からステップS260)のインターネットサイト情報分析方法によれば、活発に情報発信しているWebサイトを容易に知ることができ、情報発信源として注目すべきそれらのWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。
【0046】
次に、本発明の第三の実施形態に係る共起情報分析を行うインターネットサイト情報分析方法を、まず、図12から図15に示すフローに基づいて概要を説明する。図12のフローに示すステップS310では、各Webサイトから所定の期間が経過するごとに文章情報を収集する。インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、共起情報分析アナライザ18cとがこの情報収集手段としての働きを行う。次に、ステップS320で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの単語分割手段としての働きを行う。ステップS330では、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち調査対象情報を抽出する。この時、インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの調査対象情報抽出手段としての働きを行う。そして、ステップS340で、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード抽出手段としての働きを行う。
【0047】
ステップS350では、抽出された共起キーワードが調査対象情報に出現する頻度を基に、共起キーワードごとの評点計算を行う。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード評点計算手段としての働きを行う。次に、ステップS360で、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを格納する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cと、共起情報分析結果データベース22cとがこのソート手段としての働きを行う。そして、ステップS370は、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表して出力する。インターネットサイト情報分析装置10では、共起情報分析結果データベース22cと、ポータルサーバ24が備える共起情報分析表示フレームワーク24cとがこの共起情報分析出力手段としての働きを行う。
【0048】
次に、上記共起情報分析の各ステップについて、詳細に説明する。図13に示すように各Webサイトには、複数の文章情報が存在する。ステップS310では、例えばWebサイト1であれば、文章情報a1,a2を収集する。さらにこれらの文章情報はステップS320において、名詞、形容詞、動詞等の単語(品詞)に分解される。
【0049】
ステップS330では、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を類語辞典の一種であるシソーラスなどを用いて抽出し、そのキーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち調査対象情報を抽出する。例えば図13の例によれば、「デジタルカメラ」というキーワードが与えられると、「デジカメ」「デジタルスチルカメラ」「デジタルビデオカメラ」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。そして、「デジタルカメラ」およびその類似語を含む文章情報a1,a2,b2を調査対象情報として抽出する。このように、本来的に調査すべき調査対象情報を漏れなく抽出することを可能にしている。
【0050】
ステップS340では、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。例えば、文章情報a1であれば「A社」「B社」「性能」が共起キーワードに該当する。ここで、「(株)A」「株式会社A」「A」「A社」といった共起キーワードが別個に抽出された場合、すべて「A社」と同義語であるとして問題なければ、一つの共起キーワードとして取りまとめて、次のステップに進めばよい。
【0051】
ステップS350について、さらに詳細な処理について図14のフローに基づいて説明する。ステップS351では、情報収集したすべての文章情報の数をカウントする。例えば、図13の例において、情報収集をWebサイト1,2のみを対象に行ったとすれば、文章情報の総数は5とカウントされる。ステップS352では、調査対象情報に該当する文章情報の数をカウントする。例えば図13の例では、文章情報の総数5のうち、キーワード「デジタルカメラ」に対する調査対象情報の数は3とカウントされる。ステップS353では、ステップ340で抽出した共起キーワードと同一の単語が含まれる文章情報の数を、共起キーワードごとにカウントする。例えば図13の例では、文章情報の数5のうち、共起キーワード「A社」が含まれる文章情報の数は3とカウントされる。ステップS354では、ステップS340で抽出した共起キーワードと同一の単語が含まれる調査対象情報の数を、各共起キーワードごとにカウントする。例えば図13の例では、「デジタルカメラ」に対する調査対象情報の数3のうち、共起キーワード「A社」が含まれる調査対象情報の数は2とカウントされる。
【0052】
ステップS355では、各共起キーワードごとにその共起キーワードの評点を計算する。ここで、共起キーワードの評点は、ステップS354のカウント数にS351のカウント数を積算したものを、S352のカウント数にS353のカウント数を積算したもので除算し、さらにそれを、2を底とする対数に換算したもの、と定義するのが好ましい。例えば図13の例では、共起キーワード「A社」の評点は、ステップS351のカウント数である5、ステップS352のカウント数である3、ステップ353のカウント数である3、ステップS354のカウント数である2を用いて計算され、評点0.152が得られる。そして判断ステップであるステップS356において、すべての共起キーワードについての計算がされたか否かを判断し、NOであれば次の共起キーワードについてステップS353からS355を繰り返し、YESになった時点でステップS350が終了する。
【0053】
なお、本実施形態のステップS350では、その相関関係の連鎖の要素をも評点計算に組み入れているという特徴を有している。本来、キーワード「デジタルカメラ」と共起キーワード「A社」との間に相関関係がある場合には、共起キーワード「A社」に対応して共起する「デジタルカメラ」以外のキーワード群との間にも相関関係が存在するものと考えるべきである。しかしながら、相関関係の連鎖にまで着目すると計算量が膨大になる問題もあり、一般的にはそこまでの処理は行われていなかった。本実施形態では、ステップS351のカウント数とステップS353のカウント数を計算式に盛り込むことによって、「デジタルカメラ」と「A社」の相関関係の強さだけでなく、例えば「液晶テレビ」と「A社」の相関関係の強さについても、その違いが相対的に各評点に反映させることができる。
【0054】
ステップS360では、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを共起情報分析結果情報データベース22cに格納する。さらにステップS370では、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表し、共起情報分析出力としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。図15は、Webサイト1,2を含むすべてのWebサイトについて評点計算を行った例である。例えばキーワード「デジタルカメラ」についてみると、共起キーワード「製品W」は2007年7月の時点では評点が低くランク外であったが、2007年8月には2位までランクアップしている。従って、「デジタルカメラ」の分野では、「製品W」が投稿者の話題の中心になってきていることが分かる。また、共起キーワード「B社」は2007年7月の時点では2位にランクされていたが、2007年8月には5位までランクダウンしている。従って、投稿者は「B社」に注目しなくなってきていることが分かる。
【0055】
以上説明した本発明の第三の実施形態に係る共起情報分析(ステップS310からステップS370)のインターネットサイト情報分析方法によれば、所定のキーワードに共起する別のキーワードの変化を時系列で分析することによって、所定のキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉することができる。
【0056】
なお、本発明は上記実施形態に限定するものではなく、インターネットサイト情報分析装置10は、評判分析、サイト活性度分析、共起情報分析のうちのいずれか一以上の分析に係る作業手段またはステップを有する分析装置または分析方法であればよい。
【0057】
また、ステップS160,S260が出力する分析結果の表示フレームは、各データが有する複数の特性値の相対的な関係が視覚的に認識可能なものであればよく、本実施形態に例示したグラフ化イメージに限定するものではない。グラフの目盛を対数表示にしたり、凡例を付して複数の分析結果を重ねて表するなどして、より視覚に訴えるための工夫がなされるべきものである。
【0058】
また、ステップS240に定義する関連投稿率の計算式、ステップS250に定義する更新頻度の計算式、ステップS350に定義する共起キーワード評点の計算式は、調査分析の対象とする事物やその分野ごとの個別の事情など鑑みて定義したものであれば、上記実施形態の計算式に限定するものではない。例えば、ステップS350に定義した共起キーワード評点の計算式であれば、対数の底の値を変更したり、特定の情報の数について2乗した数値を代入するなど、細かく解析したい内容が特性値として顕著に表れるように別の計算式を定義してもよい。
【0059】
なお、上記第一から第三の実施形態のような一連の処理動作をプログラムとして構築し、インターネットサイト情報分析装置10として利用されるサーバーコンピュータにインストールし、CPUなどの制御手段によって実行させる他、そのプログラムをネットワークを介して流通させるようにしてもよい。また、構築されたプログラムをインターネットサイト情報分析装置10として利用される各種のコンピュータに接続されるハードディスク装置、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納し、コンピュータにインストールして実行させるようにしてもよい。
【図面の簡単な説明】
【0060】
【図1】この発明のインターネットサイト情報分析装置の一実施形態を配置したネットワークシステム全体の構成を示す図である。
【図2】この発明のインターネットサイト情報分析方法の第一の実施形態である評判分析に係るフローチャートである。
【図3】本実施形態において文章情報から評判情報を抽出する例を示す図である。
【図4】本実施形態において使用される評価表現辞書の例を示す図である。
【図5】本実施形態において評点計算を行うステップに係るフローチャートである。
【図6】本実施形態において評判情報分析結果の出力形式の例を示すグラフである。
【図7】この発明のインターネットサイト情報分析方法の第二の実施形態であるサイト活性度分析に係るフローチャートである。
【図8】本実施形態において文章情報と更新頻度計算の例を示す図である。
【図9】本実施形態において関連記事投稿数計算を行うステップに係るフローチャートである。
【図10】本実施形態において関連記事投稿率の計算結果リストの例を示す図である。
【図11】本実施形態においてサイト活性度分析結果の出力形式の例を示すグラフである。
【図12】この発明のインターネットサイト情報分析方法の第三の実施形態である共起情報分析に係るフローチャートである。
【図13】本実施形態において文章情報から調査対象情報を抽出する例を示す図である。
【図14】本実施形態において各共起キーワードの評点計算を行うステップに係るフローチャートである。
【図15】本実施形態において共起情報分析結果の出力形式の例を示す図である。
【符号の説明】
【0061】
10 インターネットサイト情報分析装置
12 Webサイト
14 クローラ
16 記事データベース
18 アナライザ
20 評価表現辞書群データベース
22 分析結果データベース
24 ポータルサーバ
26 利用者
【技術分野】
【0001】
本発明は、インターネットのWebサイト上で公開されている情報を分析し、トレンド情報等を取得・提供するインターネットサイト情報分析方法と装置に関する。
【背景技術】
【0002】
インターネット上では、様々な人々が公開した膨大な量の情報がWebサイトに記憶され、現在もなお増え続けている。ここで、Webサイトとは、掲示板(BBS:Bulletin Board
System)やホームページ、ブログと称されるウェブログ(Web
Log)などの情報源を意味する。
【0003】
近年、Webサイトに蓄積された記事を分析して新しいトレンド情報を得ようとする取り組みが盛んに行われている。例えば、意見の内容がどの程度肯定的なのか或いは否定的なのかを分析する評判分析の技術や、所定のキーワードの出現頻度や注目度(Burst度)のトレンドを時系列に評価する技術や、検索エンジンを使用したとき検索結果内で特定のWebサイトが上位に表示されるようにする検索エンジン最適化の技術等、様々な技術を用いたサービスが実際に提供されている。
【0004】
具体例を挙げると、特許文献1で開示されているように、Webサイトから複数の文章情報を取得し、個々の文章情報から、などの評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現と、その評価表現にあらかじめ設定されている評価スコアとの組からなる評判情報を抽出し、各評判情報について評価スコアを所定の方法ですべて集計(合算)することによって、分析対象である対象事物に関する知見を得る評判情報処理装置がある。この評判情報処理装置の実施例において、具体的には、評価表現に対する評価スコアは、「かっこいい」が0.2点、「軽い」が0.3点、「よい」が0.1点という具合に設定し、評判情報が有する否定性/肯定性についての度合いを数値化する分析方法が示されている。
【0005】
また、特許文献2に開示されているように、Webサイトから複数の文章情報を取得し、個々の評判に対して評価スコアを付した評判情報を取得し、各評判情報について評価スコアを所定の計算方法で集計することによって、分析対象である対象事物に関する知見を得る評判情報処理装置がある。特に、「価格」「デザイン」などの評価軸毎に所定の重み付けの数値を設定しておき、例えば「デザイン」という評価軸が世の中で注目されている場合には、たとえ「デザイン」に関する評判情報の数が少ない場合であっても「デザイン」に関する評価スコアが集計結果に大きく反映されるように工夫されている。
【0006】
さらに、特許文献3に開示されているように、Webサイトにアクセスして文章情報(風評情報)を所定の期間ごとに収集し、収集したキーワードの使用状況を定量化して、定量化したキーワードの使用状況を監視することにより、抽出したキーワードの中からトレンドキーワードとなるキーワードを選定して、近未来に検索エンジンで使用される可能性の高いトレンドキーワードをリアルタイムで予測し、そのトレンドキーワードに関連する情報を提供するトレンド予測装置がある。これは、実際に検索エンジンに入力された検索キーワードの使用実績を分析してトレンドキーワードを得るよりも、リアルタイム性に優れているという特徴がある。
【特許文献1】特開2007−172051号公報
【特許文献2】特開2006−53685号公報
【特許文献3】特開2006−227965号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、特許文献1の評判情報処理装置にあっては、「かっこいい」「軽い」「よい」などの評価表現と、評価表現それぞれに設定された評価スコアは、例えば「カメラ」「電池の持ち」といった異なる評価軸を評価する場合にも共通して使用されるものである。従って、各評価軸に合わせた適切な評価ができないものであった。また、多くの評判情報の評価スコアを、最終的には1つの評価表現や1つの評価軸ごとに集計した総合的評価値として取り扱うので、一人の投稿者が持っている異なる評価軸に対しての意見の相関関係が、総合評価値に埋没してしまう。したがって、例えば「デザインがよいので、価格は安く感じる」と「デザインはよいが、価格は高いと感じる」という二人の投稿者の記事があった場合でも、投稿者一人一人がどのような優先度の付け方をするのか、そのバランス感覚に傾向はないか、といった分析にまで踏み込むことができないものであった。
【0008】
特許文献2の評判情報処理装置にあっては、評価スコアを集計した総合評価値の中に個々の評価情報が持つ価値が埋没してしまわないように工夫がなされたものではあるが、特許文献1と同様に、投稿者一人一人が有する複数の要望について、その優先度の付け方やバランス感覚の傾向等にまで踏み込んだ分析ができないものであった。
【0009】
特許文献3のトレンド予測装置にあっては、分析の対象としたキーワードについて、そのキーワードを含む文章情報の肯定性/否定性やキーワードの発生頻度などを分析して、そのキーワード自体をトレンドキーワードに選定するか否かを判断するものであって、そのキーワードの周囲に広がっていく投稿者の興味の変化を実体的に把捉し得るものではなかった。
【0010】
また、特定のキーワードの周辺情報を収集する方法として相関分析手法が提案されており、そのキーワードから連想される別のキーワードを取得する連想検索等のサービスも行われているが、特許文献3と同様に、そのキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉し得るものではなかった。
【0011】
また、有益な情報が得られる活発なWebサイトをリアルタイムに知りたいという要望があるが、そのような要望に応え得る方法やサービスは提案されておらず、未だ実用化されていないものであった。
【0012】
本発明は上記背景技術に鑑みて成されたもので、インターネット上に公開された多くのサイト情報を基に、それらの情報が持つ意味や背景、傾向を効果的に正確に知ることができる分析装置及び分析方法を提供するもので、特に、1つの記事が有する複数の要望を対比的に評価する評判分析、有益な情報が得られる活発なWebサイトをリアルタイムに抽出するWebサイト活性度分析、およびあるキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉する共起情報分析を行い、Webサイトに蓄積された記事から新しいトレンドを正確に知ることができるインターネットサイト情報分析方法と装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
この発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記Webサイトの文章情報の収集を行う情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出ステップと、
前記評判情報を前記評価軸毎に分類する評価軸別分類ステップと、前記評価表現とその程度を示すスコアとの組からなる評価表現辞書が評価軸毎にあらかじめ複数設けられ、その中の分析対象の評価軸に対応した評価表現辞書に基づいて評点を算出する評点計算ステップと、前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0014】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算ステップと、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算ステップと、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0015】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集ステップと、前記文章情報を単語に分割する単語分割ステップと、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出ステップと、前記調査対象情報を構成する単語に含まれ、前記キーワードと別のキーワードである共起キーワードを抽出する共起キーワード抽出ステップと、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算ステップと、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソートステップと、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力ステップとを備えるインターネットサイト情報分析方法である。
【0016】
またこの発明は、コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出手段と、前記評判情報を前記評価軸毎に分類する評価軸別分類手段と、前記評価表現とその程度を示すスコアとの組からなる評価表現辞書を、前記評価軸ごとに複数設けた評価表現辞書群データベースと、分析対象の評価軸に対応した評価表現辞書を前記評価表現辞書群データベースから抽出し、その評価表現辞書に基づいて評判情報毎に評点を算出する評点計算手段と、前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力手段とを備えるインターネットサイト情報分析装置である。
【0017】
前記評判分析出力手段は、任意の異なる2つの評価軸の評点に基づき2次元グラフ、または、任意の異なる3つの評価軸の評点に基づき3次元グラフに表して出力するものである。
【0018】
またこの発明は、コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算手段と、各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算手段と、各Webサイトの更新日付を収集する更新日情報収集手段と、分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段とを備えるインターネットサイト情報分析装置である。
【0019】
前記活性度分析出力手段は、前記関連情報投稿率と前記更新頻度とを2次元グラフに表して出力するものである。
【0020】
またこの発明は、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集手段と、前記文章情報を単語に分割する単語分割手段と、前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出手段と、前記調査対象情報を構成する単語に含まれ、前記調査対象のキーワードと同一または類似の単語を除く他の単語である共起キーワードを抽出する共起キーワード抽出手段と、調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算手段と、前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソート手段と、所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力手段とを備えるインターネットサイト情報分析装置である。
【発明の効果】
【0021】
この発明によれば、Webサイトに公開され蓄積された膨大な量の情報を分析し、的確なトレンド情報を容易に得ることが可能になる。
【0022】
特に、請求項1,4及び5記載の発明によれば、評価軸ごとに評価表現辞書および評価スコアを設けることによって投稿者の意見を的確に評点計算することが可能であり、かつ、投稿者一人一人が有する複数の評価軸(要望)についての優先度の付け方やバランス感覚の傾向等にまで踏み込んだ評判分析をすることができる。
【0023】
また、請求項2,6及び7記載の発明によれば、各Webサイトについて所定キーワードに関連した情報の投稿率と更新頻度を計算するサイト活性度分析によって、活発に情報発信しているWebサイトを容易に知ることができ、それら情報発信源として注目すべきWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。
【0024】
さらに、請求項3,8記載の発明によれば、所定のキーワードに共起する別のキーワードの変化を時系列で分析する共起情報分析によって、所定のキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉することができる。
【発明を実施するための最良の形態】
【0025】
以下、本発明のインターネットサイト情報分析装置10を配置したネットワークシステムの実施形態を図1に基づいて説明する。このネットワークシステムにおいては、多くの人が感想や意見などの情報を公開しているWebサイト12と、指定されたWebサイトから定期的にRSS(Rich Site Summary)フォーマットの文章情報を収集するクローラ14と、クローラ14が収集した情報がデータベース化して記憶している記事データベース16と、後述する3つの分析を行うプログラムを備えたアナライザ18と、分析する評価軸に対応に対応する評価表現とその評価スコアが設定されている評価表現辞書群データベース20と、分析の結果を格納する分析結果データベース22と、利用者26が所持するパソコンが接続され、所望の分析結果を分析結果データベース22から抽出して利用者26に配信するポータルサーバ24とが、インターネット上にそれぞれ配置されている。
【0026】
本発明の第一の実施形態に係る評判分析を行うインターネットサイト情報分析方法を、図2から図6に基づいて説明する。まず、図2に示すフローに基づいて概要を説明する。ステップS110で、ブログである各Webサイトから文章情報を収集する。インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、評判分析アナライザ18aとがこの情報収集手段としての働きを行う。次に、ステップS120で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、評判分析アナライザ18aがこの単語分割手段としての働きを行う。ステップS130で、分割された単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する。インターネットサイト情報分析装置10では、評価分析アナライザ18aがこの評判情報抽出手段としての働きを行う。
【0027】
そして、ステップS140で、抽出された評判情報を、評価軸ごとに分類する。インターネットサイト情報分析装置10では、評価分析アナライザ18aがこの評価軸別分類手段としての働きを行う。ステップS150は、評価表現辞書群データベース20から分析対象である評価軸に対応した評価表現辞書を抽出して各評判情報の評点を計算し、計算結果を格納する。インターネットサイト情報分析装置10では、評価分析アナライザ18aと、評判分析結果データベース22aとがこの評点計算手段としての働きを行う。そして、ステップS160で、利用者26の要求に応じ、任意の異なる評価軸による評点を有する各文章情報をグラフに表示して出力する。インターネットサイト情報分析装置10では、評判分析結果データベース22aと、ポータルサーバ24が備える評判分析表示フレームワーク24aとがこの評判分析出力手段としての働きを行う。
【0028】
次に、上記評判分析の各ステップについて、詳細に説明する。図3に示すように各Webサイトには、複数の文章情報が存在する。ステップS110では、例えば文章情報a1「A社の車は、価格は高いしハンドルが使いにくい」というように、所定の文章の単位ごとのに分割された文章情報を収集する。さらにこれらの文章情報は、ステップS120において、名詞、助詞、形容詞、動詞等の単語(品詞)に分解される。
【0029】
ステップS130では、それらの単語を公知技術である日本語形態素分析技術や係り受け解析技術等を用いて単語同士の関係付けを行う。日本語形態素分析技術によれば、文章中における名詞や助詞が出現する前後関係等を分析することによって、例えば文章情報a1に含まれる単語であれば、「価格」には「高い」が対応し、「ハンドル」には「使いにくい」が対応する、といった関係付けを行うことができる。このようにして文章情報から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組である評価情報を抽出する。例えば文章情報a1であれば、「車、車の価格、高い」および「車、車の操作性、使いにくい」という2つの評判情報を抽出する。
【0030】
ステップS140では、上記の評判情報を、「車の価格」「車の操作性」等の評価軸ごとに分類する。後述するステップS150の計算処理を効率的に行うために情報を整理する前準備のステップである。
【0031】
ステップS150では、評価表現辞書群データベース20に設けられた複数の評価表現辞書を用いて各評判情報の評点を計算する。ここで、評価表現辞書の例を図4に基づいて説明する。評価表現辞書は評価軸ごとに設けてあり、例えば「車の価格」という評価軸に対しては評価表現辞書Aが該当し、「高い」「割高」「お手頃」というように車の価格に関する評価表現として考えられるものをリストアップし、それぞれの評価表現に対して肯定的/否定的なレベルが評価スコアとして定義されている。一方「車の操作性」という評価軸に対しては評価表現辞書Bが該当し、「車の操作性」を評価するのに適した別の評価表現をリストアップし、それぞれの評価表現に対して肯定的/否定的なレベルが評価スコアとして定義されている。
【0032】
上記の評価表現辞書を用いるステップS150について、さらに詳細な処理について、図5に基づいて説明する。ステップS151は、評価表現辞書群データベース20の中の一の評価表現辞書に着目し、その評価表現辞書に該当する評判情報群を抽出するステップである。例えば、上記評価表現辞書Aに着目した場合には、評判情報の評価軸が「車の価格」に該当する評判情報を抽出する。
【0033】
ステップS152では、その評価表現辞書に列挙されている評価表現を含む評判情報を順番に抽出し、さらにステップS153で、その評判情報の評点としてその評価表現のスコアを割り付ける計算を行ってその結果を評判分析結果データベース22aに格納する。例えば、「高い」という評価表現を含む評判情報には「+1」という評価スコアを、「お手頃」という評価表現を含む評判情報には「+4」という評価スコアをそれぞれ割り付ける計算を行い、その結果を保存する。そして判断ステップであるステップS154において、すべての評価表現辞書についての評点計算がされたか否かを判断し、NOであれば次の評価表現辞書についてステップS151からS153を繰り返し、YESになった時点でステップS150が終了する。従って、ステップS150によって、例えば文章情報a1の場合には、「車の価格=+1」「車の操作性=+1」という2つの評価軸についての評点が割り付けられることになる。
【0034】
ステップS160では、ステップS150で評点が割り付けられた文章情報を、任意の異なる評価軸に基づいてグラフに表した評判分析情報として提供する。例えば図6に示すように、評価軸として「車の価格」と「車の操作性」の2つを選択した場合、各文章情報ごとに散布図のグラフが描かれる。この評判分析情報は、PULL型(利用者26が必要に応じて情報を取り出す)で提供される。なお、3つの評価軸を選択したときに3次元のグラフを描くものであってもよい。
【0035】
以上説明した本発明の第一の実施形態に係る評判分析(ステップS110からステップS160)のインターネットサイト情報分析方法によれば、評価軸ごとに評価表現辞書および評価スコアを設けているので、投稿者の意見を的確にとらえて評点計算することが可能である。また、多くの評価項目の意見を単純に集計せず、一つ一つの文章情報の意味を分析して、異なる評価軸について相対的にグラフに表することによって、不特定多数の投稿者がもつ多数の要望に関して、全体的な傾向をより細かい項目に踏み込んだ評判分析およびその傾向分析をすることが可能になる。
【0036】
次に、本発明の第二の実施形態に係るサイト活性度分析を行うインターネットサイト情報分析方法を、図7から図11に基づいて説明する。まず、図7に示すフローに基づいて概要を説明する。ステップS210で、各Webサイトから文章情報と更新日情報を収集する。この時、インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、サイト活性度分析アナライザ18bとがこの情報収集手段および更新日情報取得手段としての働きを行う。次に、ステップS220で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの単語分割手段としての働きを行う。そして、ステップS230で、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち関連情報の投稿数を算出する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bがこの関連情報投稿数計算手段としての働きを行う。さらに、ステップS240で、そのWebサイトから収集した文章情報数に占める関連情報投稿数の割合である関連情報投稿率を計算し、計算結果を格納する。インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bがこの関連情報投稿率計算手段としての働きを行う。
【0037】
ステップS250は、分析を行う基準日と更新日情報をもとに、各Webサイトの更新頻度を計算し、計算結果を格納するもので、インターネットサイト情報分析装置10では、サイト活性度分析アナライザ18bと、サイト活性度分析結果データベース22bとがこの更新頻度計算手段としての働きを行う。
【0038】
ステップS260は、利用者26の要求に応じ、関連情報投稿率と更新頻度という2つの計算値が割り付けられた各Webサイトをグラフに表示して出力する。インターネットサイト情報分析装置10では、サイト活性度分析結果データベース22bと、ポータルサーバ24が備えるサイト活性度分析表示フレームワーク24bとがこのサイト分析出力手段としての働きを行う。
【0039】
次に、上記サイト活性度分析の各ステップについて、詳細に説明する。図8に示すように各Webサイトには、複数の文章情報と各Webサイトの最終更新日の情報が存在する。ステップS210では、例えばWebサイト1であれば、文章情報a1,a2、および「最終更新日:9月11日」という更新日情報を収集する。さらにこれらの文章情報はステップS220において、名詞、形容詞、動詞等の単語(品詞)に分解される。
【0040】
ステップS230について、さらに詳細な処理について図9に基づいて説明する。ステップS230は、ステップS231で、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を、類語辞典の一種であるシソーラスなどを用いて抽出する。そしてステップS232で、各Webサイト毎に、キーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち関連情報を抽出する。さらにステップS233で、抽出された関連文章情報をカウントし、その数を累積計算する。そして判断ステップであるステップS234において、すべてのWebサイトについての計算がされたか否かを判断し、NOであれば次のWebサイトについてステップS232からS233を繰り返し、YESになった時点でステップS230が終了して次のステップ240へ移行する。
【0041】
このようにステップS230では、例えば、「車」というキーワードが与えられると、ステップS231によって「軽四」「ハイブリッドカー」「自動車」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。従って、関連情報の内容の分析およびその投稿数の算出を漏れなく行うことができる。
【0042】
ステップS240では、Webサイトごとに関連情報の投稿率を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。関連情報投稿率は、各Webサイトから収集した文章情報の総数を分母に、その中の所定のキーワードについての関連情報の数を分子に配して除算計算を行っている。例えば、図8に示すWebサイト1には、文章情報a1,a2の2件あり、そのうち、キーワード「車」の関連情報は「ハイブリッドカー」という単語を含む文章情報a1の1件である。従って、Webサイト1におけるキーワード「車」についての関連情報投稿率は0.5と計算される。このようにしてキーワードごと、かつWebサイトごとに関連情報投稿率が計算され、その計算結果は図10のリストのように系統立ててサイト活性度分析結果データベース22bに格納される。
【0043】
ステップS250では、各Webサイトの更新頻度を計算し、その計算結果をサイト活性度分析結果データベース22bに格納する。図8の計算例では、分析を行う基準日とそのWebサイトの最終更新日との差に1を加算し、その逆数を更新頻度と定義している。この定義によれば、Webサイト1の場合は、分析を行う基準日と最終更新日がともに9月11日(同日)のため更新頻度は1.0となる。また、Webサイト2の場合は、同様の計算を行うと更新頻度は0.011となる。つまり、頻繁に更新されているWebサイト1は更新頻度が高い値となり、更新されずに放置されている期間が長いWebサイト2は更新頻度が低い値を示すことになる。
【0044】
ステップS260では、ステップS240で所定のキーワードについて割り付けられた関連情報投稿率を横軸に、ステップ250で割り付けられた更新頻度を縦軸にして、各Webサイトの相対的な位置づけをグラフに表し、サイト活性度分析情報としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。例えば図11に示すように、グラフの右上に位置するWebサイトは、「車」に関する情報が多く、かつ、頻繁に更新されているWebサイト群であるので、Webサイト1,2,5のように活発に情報発信しているWebサイトにアクセスすれば、「車」に関する有益な情報が得られそうだということが分かる。逆に、グラフの左下に位置するWebサイトは、「車」に関する情報が少なく、かつ、更新頻度も低いWebサイト群であるので、Webサイト8のように活動が低調なWebサイトにアクセスしても、「車」に関する有益な情報が得られそうにないということが分かる。
【0045】
以上説明した本発明の第二の実施形態に係るサイト活性度分析(ステップS210からステップS260)のインターネットサイト情報分析方法によれば、活発に情報発信しているWebサイトを容易に知ることができ、情報発信源として注目すべきそれらのWebサイトに絞って情報収集を行えば、有益なトレンド情報を効率よく得ることができる。
【0046】
次に、本発明の第三の実施形態に係る共起情報分析を行うインターネットサイト情報分析方法を、まず、図12から図15に示すフローに基づいて概要を説明する。図12のフローに示すステップS310では、各Webサイトから所定の期間が経過するごとに文章情報を収集する。インターネットサイト情報分析装置10では、クローラ14と、記事データベース16と、共起情報分析アナライザ18cとがこの情報収集手段としての働きを行う。次に、ステップS320で、収集した文章情報を単語(品詞)に分解する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの単語分割手段としての働きを行う。ステップS330では、分割された単語群の中に所定のキーワードと同一又は類似するものを含む文章情報、すなわち調査対象情報を抽出する。この時、インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの調査対象情報抽出手段としての働きを行う。そして、ステップS340で、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード抽出手段としての働きを行う。
【0047】
ステップS350では、抽出された共起キーワードが調査対象情報に出現する頻度を基に、共起キーワードごとの評点計算を行う。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cがこの共起キーワード評点計算手段としての働きを行う。次に、ステップS360で、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを格納する。インターネットサイト情報分析装置10では、共起情報分析アナライザ18cと、共起情報分析結果データベース22cとがこのソート手段としての働きを行う。そして、ステップS370は、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表して出力する。インターネットサイト情報分析装置10では、共起情報分析結果データベース22cと、ポータルサーバ24が備える共起情報分析表示フレームワーク24cとがこの共起情報分析出力手段としての働きを行う。
【0048】
次に、上記共起情報分析の各ステップについて、詳細に説明する。図13に示すように各Webサイトには、複数の文章情報が存在する。ステップS310では、例えばWebサイト1であれば、文章情報a1,a2を収集する。さらにこれらの文章情報はステップS320において、名詞、形容詞、動詞等の単語(品詞)に分解される。
【0049】
ステップS330では、調査対象となる所定のキーワードが与えられると、そのキーワードと類似の単語群を類語辞典の一種であるシソーラスなどを用いて抽出し、そのキーワードと同一または類似の単語群のいずれかを含む文章情報、すなわち調査対象情報を抽出する。例えば図13の例によれば、「デジタルカメラ」というキーワードが与えられると、「デジカメ」「デジタルスチルカメラ」「デジタルビデオカメラ」といった俗称、略称あるいは正式名称その他の単語を類似語として抽出する。そして、「デジタルカメラ」およびその類似語を含む文章情報a1,a2,b2を調査対象情報として抽出する。このように、本来的に調査すべき調査対象情報を漏れなく抽出することを可能にしている。
【0050】
ステップS340では、抽出された調査対象情報を構成する単語の中から、上記所定のキーワードと同一又は類似の単語を除く他の単語、すなわち共起キーワードを抽出する。例えば、文章情報a1であれば「A社」「B社」「性能」が共起キーワードに該当する。ここで、「(株)A」「株式会社A」「A」「A社」といった共起キーワードが別個に抽出された場合、すべて「A社」と同義語であるとして問題なければ、一つの共起キーワードとして取りまとめて、次のステップに進めばよい。
【0051】
ステップS350について、さらに詳細な処理について図14のフローに基づいて説明する。ステップS351では、情報収集したすべての文章情報の数をカウントする。例えば、図13の例において、情報収集をWebサイト1,2のみを対象に行ったとすれば、文章情報の総数は5とカウントされる。ステップS352では、調査対象情報に該当する文章情報の数をカウントする。例えば図13の例では、文章情報の総数5のうち、キーワード「デジタルカメラ」に対する調査対象情報の数は3とカウントされる。ステップS353では、ステップ340で抽出した共起キーワードと同一の単語が含まれる文章情報の数を、共起キーワードごとにカウントする。例えば図13の例では、文章情報の数5のうち、共起キーワード「A社」が含まれる文章情報の数は3とカウントされる。ステップS354では、ステップS340で抽出した共起キーワードと同一の単語が含まれる調査対象情報の数を、各共起キーワードごとにカウントする。例えば図13の例では、「デジタルカメラ」に対する調査対象情報の数3のうち、共起キーワード「A社」が含まれる調査対象情報の数は2とカウントされる。
【0052】
ステップS355では、各共起キーワードごとにその共起キーワードの評点を計算する。ここで、共起キーワードの評点は、ステップS354のカウント数にS351のカウント数を積算したものを、S352のカウント数にS353のカウント数を積算したもので除算し、さらにそれを、2を底とする対数に換算したもの、と定義するのが好ましい。例えば図13の例では、共起キーワード「A社」の評点は、ステップS351のカウント数である5、ステップS352のカウント数である3、ステップ353のカウント数である3、ステップS354のカウント数である2を用いて計算され、評点0.152が得られる。そして判断ステップであるステップS356において、すべての共起キーワードについての計算がされたか否かを判断し、NOであれば次の共起キーワードについてステップS353からS355を繰り返し、YESになった時点でステップS350が終了する。
【0053】
なお、本実施形態のステップS350では、その相関関係の連鎖の要素をも評点計算に組み入れているという特徴を有している。本来、キーワード「デジタルカメラ」と共起キーワード「A社」との間に相関関係がある場合には、共起キーワード「A社」に対応して共起する「デジタルカメラ」以外のキーワード群との間にも相関関係が存在するものと考えるべきである。しかしながら、相関関係の連鎖にまで着目すると計算量が膨大になる問題もあり、一般的にはそこまでの処理は行われていなかった。本実施形態では、ステップS351のカウント数とステップS353のカウント数を計算式に盛り込むことによって、「デジタルカメラ」と「A社」の相関関係の強さだけでなく、例えば「液晶テレビ」と「A社」の相関関係の強さについても、その違いが相対的に各評点に反映させることができる。
【0054】
ステップS360では、共起キーワード群を共起キーワード評点の順に並び替えた共起情報リストを作成し、それを共起情報分析結果情報データベース22cに格納する。さらにステップS370では、利用者26の要求に応じ、所定の期間が経過するごとに作成した共起情報リストを時系列に表し、共起情報分析出力としてPULL型(利用者26が必要に応じて情報を取り出す)で提供する。図15は、Webサイト1,2を含むすべてのWebサイトについて評点計算を行った例である。例えばキーワード「デジタルカメラ」についてみると、共起キーワード「製品W」は2007年7月の時点では評点が低くランク外であったが、2007年8月には2位までランクアップしている。従って、「デジタルカメラ」の分野では、「製品W」が投稿者の話題の中心になってきていることが分かる。また、共起キーワード「B社」は2007年7月の時点では2位にランクされていたが、2007年8月には5位までランクダウンしている。従って、投稿者は「B社」に注目しなくなってきていることが分かる。
【0055】
以上説明した本発明の第三の実施形態に係る共起情報分析(ステップS310からステップS370)のインターネットサイト情報分析方法によれば、所定のキーワードに共起する別のキーワードの変化を時系列で分析することによって、所定のキーワードの周囲に広がっていく投稿者の興味の変化を実態的に把捉することができる。
【0056】
なお、本発明は上記実施形態に限定するものではなく、インターネットサイト情報分析装置10は、評判分析、サイト活性度分析、共起情報分析のうちのいずれか一以上の分析に係る作業手段またはステップを有する分析装置または分析方法であればよい。
【0057】
また、ステップS160,S260が出力する分析結果の表示フレームは、各データが有する複数の特性値の相対的な関係が視覚的に認識可能なものであればよく、本実施形態に例示したグラフ化イメージに限定するものではない。グラフの目盛を対数表示にしたり、凡例を付して複数の分析結果を重ねて表するなどして、より視覚に訴えるための工夫がなされるべきものである。
【0058】
また、ステップS240に定義する関連投稿率の計算式、ステップS250に定義する更新頻度の計算式、ステップS350に定義する共起キーワード評点の計算式は、調査分析の対象とする事物やその分野ごとの個別の事情など鑑みて定義したものであれば、上記実施形態の計算式に限定するものではない。例えば、ステップS350に定義した共起キーワード評点の計算式であれば、対数の底の値を変更したり、特定の情報の数について2乗した数値を代入するなど、細かく解析したい内容が特性値として顕著に表れるように別の計算式を定義してもよい。
【0059】
なお、上記第一から第三の実施形態のような一連の処理動作をプログラムとして構築し、インターネットサイト情報分析装置10として利用されるサーバーコンピュータにインストールし、CPUなどの制御手段によって実行させる他、そのプログラムをネットワークを介して流通させるようにしてもよい。また、構築されたプログラムをインターネットサイト情報分析装置10として利用される各種のコンピュータに接続されるハードディスク装置、フレキシブルディスク、CD−ROMなどの可搬記憶媒体に格納し、コンピュータにインストールして実行させるようにしてもよい。
【図面の簡単な説明】
【0060】
【図1】この発明のインターネットサイト情報分析装置の一実施形態を配置したネットワークシステム全体の構成を示す図である。
【図2】この発明のインターネットサイト情報分析方法の第一の実施形態である評判分析に係るフローチャートである。
【図3】本実施形態において文章情報から評判情報を抽出する例を示す図である。
【図4】本実施形態において使用される評価表現辞書の例を示す図である。
【図5】本実施形態において評点計算を行うステップに係るフローチャートである。
【図6】本実施形態において評判情報分析結果の出力形式の例を示すグラフである。
【図7】この発明のインターネットサイト情報分析方法の第二の実施形態であるサイト活性度分析に係るフローチャートである。
【図8】本実施形態において文章情報と更新頻度計算の例を示す図である。
【図9】本実施形態において関連記事投稿数計算を行うステップに係るフローチャートである。
【図10】本実施形態において関連記事投稿率の計算結果リストの例を示す図である。
【図11】本実施形態においてサイト活性度分析結果の出力形式の例を示すグラフである。
【図12】この発明のインターネットサイト情報分析方法の第三の実施形態である共起情報分析に係るフローチャートである。
【図13】本実施形態において文章情報から調査対象情報を抽出する例を示す図である。
【図14】本実施形態において各共起キーワードの評点計算を行うステップに係るフローチャートである。
【図15】本実施形態において共起情報分析結果の出力形式の例を示す図である。
【符号の説明】
【0061】
10 インターネットサイト情報分析装置
12 Webサイト
14 クローラ
16 記事データベース
18 アナライザ
20 評価表現辞書群データベース
22 分析結果データベース
24 ポータルサーバ
26 利用者
【特許請求の範囲】
【請求項1】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記Webサイトの文章情報の収集を行う情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出ステップと、
前記評判情報を前記評価軸毎に分類する評価軸別分類ステップと、
前記評価表現とその程度を示すスコアとの組からなる評価表現辞書が評価軸毎にあらかじめ複数設けられ、その中の分析対象の評価軸に対応した評価表現辞書に基づいて評点を算出する評点計算ステップと、
前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項2】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算ステップと、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算ステップと、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項3】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出ステップと、
前記調査対象情報を構成する単語に含まれ、前記キーワードと別のキーワードである共起キーワードを抽出する共起キーワード抽出ステップと、
調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算ステップと、
前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソートステップと、
所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項4】
コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出手段と、
前記評判情報を前記評価軸毎に分類する評価軸別分類手段と、
前記評価表現とその程度を示すスコアとの組からなる評価表現辞書を、前記評価軸ごとに複数設けた評価表現辞書群データベースと、
分析対象の評価軸に対応した評価表現辞書を前記評価表現辞書群データベースから抽出し、その評価表現辞書に基づいて評判情報毎に評点を算出する評点計算手段と、
前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置。
【請求項5】
前記評判分析出力手段は、任意の異なる2つの評価軸の評点に基づき2次元グラフ、または、任意の異なる3つの評価軸の評点に基づき3次元グラフに表して出力することを特徴とする請求項4記載のインターネットサイト情報分析装置。
【請求項6】
コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算手段と、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算手段と、
各Webサイトの更新日付を収集する更新日情報収集手段と、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置
【請求項7】
前記活性度分析出力手段は、前記関連情報投稿率と前記更新頻度とを2次元グラフに表して出力することを特徴とする請求項6記載のインターネットサイト情報分析装置。
【請求項8】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出手段と、
前記調査対象情報を構成する単語に含まれ、前記調査対象のキーワードと同一または類似の単語を除く他の単語である共起キーワードを抽出する共起キーワード抽出手段と、
調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算手段と、
前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソート手段と、
所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置。
【請求項1】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記Webサイトの文章情報の収集を行う情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出ステップと、
前記評判情報を前記評価軸毎に分類する評価軸別分類ステップと、
前記評価表現とその程度を示すスコアとの組からなる評価表現辞書が評価軸毎にあらかじめ複数設けられ、その中の分析対象の評価軸に対応した評価表現辞書に基づいて評点を算出する評点計算ステップと、
前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項2】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記文章情報と各Webサイトの更新日情報を収集する情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算ステップと、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算ステップと、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算ステップと、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項3】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析方法において、
前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集ステップと、
前記文章情報を単語に分割する単語分割ステップと、
前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出ステップと、
前記調査対象情報を構成する単語に含まれ、前記キーワードと別のキーワードである共起キーワードを抽出する共起キーワード抽出ステップと、
調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算ステップと、
前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソートステップと、
所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力ステップと、
を備えることを特徴とするインターネットサイト情報分析方法。
【請求項4】
コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群から、評価対象と、その評価対象の性質を表す評価軸と、その評価軸に対する評価を表す評価表現との組からなる評判情報を抽出する評判情報抽出手段と、
前記評判情報を前記評価軸毎に分類する評価軸別分類手段と、
前記評価表現とその程度を示すスコアとの組からなる評価表現辞書を、前記評価軸ごとに複数設けた評価表現辞書群データベースと、
分析対象の評価軸に対応した評価表現辞書を前記評価表現辞書群データベースから抽出し、その評価表現辞書に基づいて評判情報毎に評点を算出する評点計算手段と、
前記各文章情報について、任意の異なる評価軸の評点を相対比較して出力する評判分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置。
【請求項5】
前記評判分析出力手段は、任意の異なる2つの評価軸の評点に基づき2次元グラフ、または、任意の異なる3つの評価軸の評点に基づき3次元グラフに表して出力することを特徴とする請求項4記載のインターネットサイト情報分析装置。
【請求項6】
コンピュータシステムにより構成され、インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群の中から所定のキーワードと同一または類似する単語を抽出し、その単語を含む文章情報の数を算出する関連情報投稿数計算手段と、
各Webサイトから収集した文章情報数に占める前記関連情報投稿数の割合を、各Webサイト毎に算出する関連情報投稿率計算手段と、
各Webサイトの更新日付を収集する更新日情報収集手段と、
分析を行う基準日と前記更新日情報をもとに、各Webサイトの更新頻度を算出する更新頻度計算手段と、
各Webサイト毎の前記関連情報投稿率と前記更新頻度とを相対比較して出力するサイト活性度分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置
【請求項7】
前記活性度分析出力手段は、前記関連情報投稿率と前記更新頻度とを2次元グラフに表して出力することを特徴とする請求項6記載のインターネットサイト情報分析装置。
【請求項8】
インターネット上に存在するWebサイトにアクセスしてその文章情報を収集し、分析を行うインターネットサイト情報分析装置において、
前記Webサイトの文章情報の収集を所定の期間が経過するごとに行う情報収集手段と、
前記文章情報を単語に分割する単語分割手段と、
前記単語群の中から調査対象のキーワードと同一または類似する単語を含む文章情報を抽出する調査対象情報抽出手段と、
前記調査対象情報を構成する単語に含まれ、前記調査対象のキーワードと同一または類似の単語を除く他の単語である共起キーワードを抽出する共起キーワード抽出手段と、
調査対象情報に前記共起キーワードが出現する頻度をもとに、前記共起キーワード毎に評点計算する共起キーワード評点計算手段と、
前記共起キーワードを前記共起キーワード評点の順に並び替えて共起情報リストを作成するソート手段と、
所定の期間ごとに得られた前記共起情報リストを、時系列に表して出力する共起情報分析出力手段と、
を備えることを特徴とするインターネットサイト情報分析装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2009−116457(P2009−116457A)
【公開日】平成21年5月28日(2009.5.28)
【国際特許分類】
【出願番号】特願2007−286278(P2007−286278)
【出願日】平成19年11月2日(2007.11.2)
【出願人】(500309920)株式会社インテックシステム研究所 (22)
【Fターム(参考)】
【公開日】平成21年5月28日(2009.5.28)
【国際特許分類】
【出願日】平成19年11月2日(2007.11.2)
【出願人】(500309920)株式会社インテックシステム研究所 (22)
【Fターム(参考)】
[ Back to top ]