説明

文書変遷抽出装置及びそのプログラム

【課題】管理された複数文書及び版が持つ属性情報及び要約に基づいて、トレンド推移を表示する技術を提供する。
【解決手段】文書変遷抽出装置は、登録対象の文書及びその属性情報を登録する入力手段1と、入力手段1によって登録された複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報の抽出を行う文書変遷抽出手段2と、文書の変遷経緯のトレンド推移をグラフ表示する出力手段3と、を備える。文書変遷抽出装置は、キーワードの登場回数及びスコアを抽出し、文書変遷として蓄積、管理することで、文書や版が持つ時系列情報とあわせて表示し、文書や版の変遷、キーワードのトレンドの可視化を行う。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文書管理システムに登録した文書の活用手法に関し、文書の変遷経緯のトレンド推移を抽出し、表示することを可能とする技術に関するものである。
【背景技術】
【0002】
従来の文書管理システムでは、文書本文に対して属性を付与することで、文書のキーワードを用いて文書の特定を行ったり、文書本文を確認することなく文書の概要を掴んだりすることができた。また、属性付与の手間を軽減する目的で、文書の要約抽出による概念検索や、文書本文内の文字情報を利用した全文検索が実用的な手段として利用されている。例えば、特許文献1には概念検索システム及び概念検索方法が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−026116号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した文書管理システムでは、個々の文書を管理するのみで、複数文書の関連づけ、傾向分析は操作者の技量を必要とする手作業に依存していた。例えば、技術情報に対する特定のカテゴリについて時系列の動向を把握するためには、複数の文書を取り出して内容を確認して情報収集したり、他の手段による情報収集とあわせた分析を行ったりする必要があった。また、個々の文書についても前回からの変更点、過去の経緯を抽出するためには、過去の版の内容を確認し、差異を手動で抽出する必要があった。
【0005】
本発明は、上記問題を解決し、文書管理システムに管理されている複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報を抽出し、差分変遷のトレンド推移をグラフ表示する文書変遷抽出装置及び文書変遷抽出プログラムを得ることを目的とするものである。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明においては、文書本文の自然言語処理によって得られる属性情報及び要約から、キーワードの登場回数及びスコアを抽出し、文書変遷として蓄積、管理することで、文書や版が持つ時系列情報とあわせて表示し、文書や版の変遷、キーワードのトレンドの可視化を特徴とする。
【発明の効果】
【0007】
本発明によれば、登録対象文書の特徴であるキーワードを自動的に分類し、時系列にトレンド表示することができ、文書管理のためのキーワード付けの煩雑さを軽減した上で、目的とする文書やその関連文書の推移の傾向を把握、特異点の抽出が可能となる。
【図面の簡単な説明】
【0008】
【図1】本発明の実施の形態1による文書変遷抽出装置の構成を示す説明図である。
【図2】入力手段1、文書変遷抽出手段2、出力手段3の処理の流れを示すフローチャートである。
【図3】入力手段1及び文書変遷抽出手段2における情報の流れを示す説明図である。
【図4】文書変遷抽出手段2における属性分類方法を示す説明図である。
【図5】属性分類及びスコアを保持するテーブル構造の説明図である。
【図6】出力手段3における操作画面及びトレンド推移グラフの説明図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施の形態を図を用いて詳細に説明する。
【0010】
実施の形態1は、文書管理システムの一部を実現する文書変遷抽出装置及び文書変遷抽出プログラムであり、文書管理システムに管理されている複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報を抽出し、差分変遷のトレンド推移をグラフ表示する文書変遷抽出装置及び文書変遷抽出プログラムである。
【0011】
図1は実施の形態1における文書変遷抽出装置の構成を示す構成図であり、本実施の形態の説明に必要な部分のみを示している。
【0012】
図1において、文書変遷抽出装置は、文書管理システムに登録対象文書を格納する入力手段1、入力手段1で登録した文書の本文から文書情報の変遷を示す情報である文書変遷情報を抽出する文書変遷抽出手段2、文書変遷抽出手段2で抽出した文書情報の変遷の画面表示を行う出力手段3、登録対象文書の名称や登録日、版番号(属性情報)や要約から抽出されたキーワードなどを格納する属性管理DB4、文書変遷情報を格納する文書変遷管理DB5、文書管理システムに登録されている文書そのものを格納する文書本文DB6で構成される。
【0013】
入力手段1では、文書管理システムに登録対象文書を格納する。登録対象文書本文は、文書本文DB6として、必要に応じて入力した属性を属性管理DB4に格納する。
【0014】
文書変遷抽出手段2は、登録対象文書から抽出した要約を抽出する。この要約の抽出については従来技術を利用する。詳細は図3にて後述する。続いて登録対象文書本文から抽出した要約から属性(キーワード)の抽出及びその分類を行い、文書変遷DBに時系列ごとに抽出された属性分類値を格納する処理を行う。詳細は図4及び図5にて後述する
出力手段3は、検索条件として指定されたキーワードから、属性分類値への置換を行い検索条件として利用し、検索条件に属性分類値のスコアを時系列にプロットして画面表示する。とある時点を選択することで、その時点での文書一覧を表示する。詳細は図6にて後述する。
【0015】
図2は、図1における入力手段1、文書変遷抽出手段2、出力手段3の処理の流れを表すフローチャートである。以下、図2を用いて処理の流れを説明する。
【0016】
はじめに、入力手段1にて登録対象文書を文書管理システムに登録する(S100)。
【0017】
続いて、文書変遷抽出手段2にて、文書登録(S100)で登録した文書より要約を抽出し、抽出した要約からキーワードを抽出する(S200)。次に抽出したキーワードをシステムが持つ辞書を用いて属性分類値へ変換し(S300)、属性値分類(S300)で変換した属性分類値を、登録対象文書ごとに属性分類値のスコアを作成し、改訂の都度時系列に記録する(S400)。次に、文書管理システムを用いた検索実行を行う。検索時に入力した検索条件値を検索軸として属性分類値に変換する。ここで属性分類値への変換は属性値分類(S300)と同様の手法にて変換する(S500)。さらに属性分類値を用いて検索を行い、結果出力(S600)を行い作業が完了する。
【0018】
図3は、登録対象文書からキーワードの抽出、属性分類値へ変換する流れを示す概念図である。
【0019】
登録対象文書の文書本文DB6から要約8を抽出し、要約8からキーワード9を抽出する。
【0020】
抽出したキーワード9や、登録対象文書の登録時に入力した属性値(属性情報)7について、属性管理DB4に保管する。
【0021】
図4は、抽出キーワード11を属性分類値に変換する例示である。抽出キーワードを、あらかじめシステムが持つ属性分類辞書10を用いて属性分類値12に置き換える。これにより、類似した抽出キーワードを同一のものとして取り扱うことを可能とする。
【0022】
図5は、属性分類値の変遷を記録するためのテーブル構造の概念図である。図5は、文書変遷管理DB5に格納されている文書変遷情報の例であり、文書ID、属性分類値、時系列、スコアが関連付けられて格納されている。時系列は図3の属性値(属性情報)7の「作成/更新日」に基づいており、図5には、2009/01/01と2009/01/02と2009/01/03に作成/更新された三つの版についての例が示されている。また、スコアは既存概念検索技術の概念エンジンが算出した類似度を数値化したものであり、算出の方法は概念検索エンジンに依存する。なお、図5はスコアを格納した例であるが、スコアの代わりに登場回数を格納してもよく、また、スコア及び登場回数を格納してもよい。
【0023】
登場回数及びスコアは、既存概念検索技術を用いて要約に対する属性分類毎に得る。
【0024】
図6は、文書変遷検索(S500)及び結果出力(S600)の画面遷移を示した概念図である。
【0025】
検索条件入力画面14にて入力した検索条件を、属性分類辞書10を用いて属性分類値に変換を行い、図5に示す属性値分類のテーブル構造を対象に検索を実行する。検索結果は、文書変遷トレンド表示画面15において画面表示を行う。トレンドグラフ16には、スコア及び/又は登場回数をy軸、x軸を更新時刻としてプロットすることで文書の変遷経緯のトレンド推移(差分変遷)が表示される。
【0026】
また、例えば、図6の点線で示す時点を選択することで、その時点での文書一覧を表示することができる。
【0027】
本実施の形態により、文書や版が持つ時系列情報とあわせて表示し、文書や版の変遷、キーワードのトレンドの可視化をすることができる。
【0028】
以上、本実施の形態を詳細に説明したが、本実施の形態の文書変遷抽出装置は、登録対象の文書及びその属性情報を登録する入力手段1と、入力手段1によって登録された複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報の抽出を行う文書変遷抽出手段2と、文書の変遷経緯のトレンド推移をグラフ表示する出力手段3と、を備えていればよい。
【0029】
また、文書変遷抽出手段2は、入力手段1によって登録された前記複数の文書及び版のそれぞれについて、要約を抽出し、抽出した要約を利用してキーワードの抽出を行い、抽出したキーワードを属性分類辞書を用いて属性分類値に変換し、該属性分類値と、時系列情報と、スコア及び/又は登場回数を関連付けて文書変遷管理DB5に蓄積し、出力手段3は、検索条件として指定されたキーワードを前記属性分類辞書を用いて属性分類値に変換し、該属性分類値を用いて文書変遷管理DB5を検索し、スコア及び/又は登場回数のトレンド推移をグラフ表示するものであってもよい。
【0030】
以上説明した本実施の形態の文書変遷抽出装置はコンピュータとプログラムで構成することができる。
【0031】
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
【符号の説明】
【0032】
1 入力手段
2 文書変遷抽出手段
3 出力手段
4 属性管理DB
5 文書変遷管理DB
6 文書本文DB
7 属性値(属性情報)の例
8 要約
9 キーワードの例
10 属性分類辞書
11 抽出キーワード
12 属性分類値
13 属性分類テーブル構造
14 検索条件入力画面
15 文書変遷トレンド表示画面
16 トレンドグラフ

【特許請求の範囲】
【請求項1】
文書管理システムに登録した文書の変遷経緯のトレンド推移を抽出し、表示する文書変遷抽出装置において、
登録対象の文書及びその属性情報を登録する入力手段と、
前記入力手段によって登録された複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報の抽出を行う文書変遷抽出手段と、
文書の変遷経緯のトレンド推移をグラフ表示する出力手段と、
を備えることを特徴とする文書変遷抽出装置。
【請求項2】
請求項1に記載の文書変遷抽出装置において、
前記文書変遷抽出手段は、前記入力手段によって登録された前記複数の文書及び版のそれぞれについて、要約を抽出し、抽出した要約を利用してキーワードの抽出を行い、抽出したキーワードを属性分類辞書を用いて属性分類値に変換し、該属性分類値と、時系列情報と、スコア及び/又は登場回数を関連付けてデータベースに蓄積し、
前記出力手段は、検索条件として指定されたキーワードを前記属性分類辞書を用いて属性分類値に変換し、該属性分類値を用いて前記データベースを検索し、スコア及び/又は登場回数のトレンド推移をグラフ表示する
ことを特徴とする文書変遷抽出装置。
【請求項3】
請求項1または2に記載の文書変遷抽出装置の機能をコンピュータに実現させるための文書変遷抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate