説明

文変換装置およびそのプログラム

【課題】大量の文例によることなく、入力される文の文法構造を利用して、平易な文に変換することのできる文変換装置を提供する。
【解決手段】係り受け解析部は、文データを入力し前記文データの係り受け関係を解析し係り受け構造データを出力する。修飾句認定部は、係り受け構造データに基づき文データに含まれる修飾句を抽出するとともに、属性認定用辞書を参照することによって、抽出された修飾句ごとの属性を認定する。対象修飾句判定部は、修飾句認定部によって認定された属性に基づいて、修飾句が変換対象の修飾句か否かを判定する。長さ判定部は、修飾句の長さに応じて変換対象とするか否かを判定する。文変換部は、文変換規則記憶部から読み出した文変換規則に基づいて、変換対象と判定された修飾句を文に変換して出力する。文短縮部は、変換対象とした修飾句に対応して元の文データを短縮する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文の表現を変換する文変換装置、およびそのプログラムに関する。
【背景技術】
【0002】
一般に、言語は、その言語を母国語とする人だけが使うものではなく、他国語を母国語とする人も、その言語を使う。例えば、日本国内に在住する外国人の数は年々増加しており、その多くが日本語を使う。日本国内において、例えば、日々のニュースや、政府や地方自治体等が発信する情報は、主として日本語を母国語とする人向けの日本語で書かれることが多いが、日本に在住する外国人は必ずしもそれと同程度の日本語能力を有するとは限らない。そこで、日本語の文を、より易しく理解しやすい表現を用いた文に変換する技術が求められる。
【0003】
非特許文献1には、統計翻訳技術を用いてやさしい日本語への自動変換を行うシステムが記載されている。日本語の入力文を、より平易な表現の日本語文に変換することは、一種の翻訳でありこの技術は有効である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】松田真希子,「やさしい日本語ヘの自動言い換えシステムの開発」,2010年度日本語教育学会春期大会予稿集,pp.91−93
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献1に記載された技術では、大量の対訳文データを入手する必要がある。このような大量の言語データを入手することは、容易ではなく、またコストがかかりすぎるという問題がある。
また、統計翻訳の技術を用いる場合、原文と翻訳文の2種類が必要となる。しかしながら、例えば、難度の高い(難しい)日本語と難度の低い(やさしい)日本語のペアを、既存のデータベース等から得ることは不可能であり、人手によって膨大な数のペアを作成する必要も生じ得る。
【0006】
本発明は、上記の課題認識に基づいて行なわれたものであり、大量の対訳文データを用意することなく、文の言い換えを行うことのできる文変換装置およびプログラムを提供する。
また、本発明は、単に単語の難度を下げることのみによって文変換を行うものではなく、文の文法的構造の難度をも下げるような文変換を行うことのできる文変換装置およびプログラムを提供する。
【課題を解決するための手段】
【0007】
[1]上記の課題を解決するため、本発明の一態様による文変換装置は、文データを入力し前記文データの係り受け関係を解析し係り受け構造データを出力する係り受け解析部と、修飾句の属性ごとに言語表現を記憶する属性認定用辞書記憶部と、前記係り受け構造データに基づき前記文データに含まれる修飾句を抽出するとともに、前記属性認定用辞書記憶部を参照することによって抽出された前記修飾句ごとの属性を認定する修飾句認定部と、前記修飾句認定部によって認定された属性に基づいて、前記修飾句が変換対象の修飾句か否かを判定する対象修飾句判定部と、前記対象修飾句判定部によって変換対象であると判定された前記修飾句の長さに応じて変換対象とするか否かを判定する長さ判定部と、修飾句を文に変換するための文変換規則を記憶する文変換規則記憶部と、前記文変換規則記憶部から読み出した文変換規則に基づいて、変換対象と判定された前記修飾句を文に変換して出力する文変換部と、前記文変換部による変換が成功した場合に変換対象とした前記修飾句に対応して元の前記文データを短縮する文短縮部とを具備する。
【0008】
この構成によれば、修飾句認定部は、属性認定用辞書記憶部に記憶された属性ごとの言語表現を表すデータ(辞書データ)に基づいて、修飾句の属性を認定する。対象修飾句判定部は、修飾句の属性に応じて、文への変換の対象とするか否かを判定する。よって、適切な属性の修飾句のみが文への変換の対象となる。また、長さ判定部は、修飾句の長さに応じて文への変換の対象とするか否かを判定する。よって、適切な長さの修飾句のみが文への変換の対象となる。また、文短縮部が、変換対象となった修飾句に対応して元の文データを短縮する。つまり、文短縮部が、元の文データにおける当該修飾句に相当する部分を削除する。これによって、修飾句から変換された文と、短縮後の元文との間で、意味の重複が生じない。なお、複数の修飾句が文への変換の対象となってもよい。その場合、各々の修飾句に対応して、文変換部が文を生成する。
【0009】
上記構成において、修飾句認定部は、修飾句の末尾の普通名詞を開始位置として、文頭方向に述語を探して、述語にぶつかるまでの範囲を主要名詞句と認定する。
また上記構成において、修飾句認定部は、修飾句の末尾の自立語の分類に基づいて修飾句の属性を決定するようにしても良い。
また上記構成において、対象修飾句判定部は、修飾句認定部によって認定された修飾句の属性の中から、所定の属性のみを変換対象の修飾句として判定するようにしても良い。
また上記構成において、文変換部は、修飾句が名詞句と助詞で終わり、その名詞句が用言の後に配置されているときに、その修飾句の先頭から当該用言までを部分句とし、その部分句に含まれる格要素の助詞群と、述語のとる格要素の助詞群を比較照合し、その部分句に不足する助詞の格要素があれば、その不足する格要素の単語列に前記名詞句を挿入した格要素を作成し、作成された格要素を部分句に加えて文を生成するようにしてもよい。このように生成された文が、修飾句から変換される文である。なお、述語と各パターンとの対応付けを、格パターン辞書(データ)として予め記憶媒体に記憶させておき、文変換部は、該当する述語に基づき格パターン辞書を検索することによって、上記の助詞群同士の比較を行う。
また上記構成において、短縮部は、修飾句の末尾が名詞句と助詞で終わる場合には、その名詞句と助詞以外を削除するようにしても良い。
【0010】
[2]また、本発明の一態様による文変換装置は、前記文変換部によって出力された文と、前記文短縮部によって短縮された文とを、予め定められた規則に基づいた順に並べる文並べ替え部をさらに具備する。
【0011】
[3]また、本発明の一態様による文変換装置においては、前記文並べ替え部は、前記修飾句認定部によって認定された前記修飾句の属性に応じて、前記修飾句から前記文変換部によって変換された前記文の順序を決定する。
これらの構成により、複数の文の順序が規則に従って適切に並び替えられる。
【0012】
[4]また、本発明の一態様による文変換装置においては、前記長さ判定部は、前記修飾句の長さが予め定めた長さよりも長い場合にその修飾句を変換対象とするよう判定する。
この構成により、予め定めた長さよりも長い修飾句のみが変換の対象となり、最終的に得られる文の集合(修飾句から変換された文と、元の入力文を短縮した結果得られる文の集合)の長さのバランスが適正化される。
なお、予め定めた長さより長いとは、修飾句の文字数または単語数が所定の値より大きいことを表す。または、修飾句の文字数または単語数の元の入力文データにおける文字数または単語数に対する比率が、所定の値より大きいことを表す。
【0013】
[5]また、本発明の一態様は、文データを入力し前記文データの係り受け関係を解析し係り受け構造データを出力する係り受け解析部と、修飾句の属性ごとに言語表現を記憶する属性認定用辞書記憶部と、前記係り受け構造データに基づき前記文データに含まれる修飾句を抽出するとともに、前記属性認定用辞書記憶部を参照することによって抽出された前記修飾句ごとの属性を認定する修飾句認定部と、前記修飾句認定部によって認定された属性に基づいて、前記修飾句が変換対象の修飾句か否かを判定する対象修飾句判定部と、前記対象修飾句判定部によって変換対象であると判定された前記修飾句の長さに応じて変換対象とするか否かを判定する長さ判定部と、修飾句を文に変換するための文変換規則を記憶する文変換規則記憶部と、前記文変換規則記憶部から読み出した文変換規則に基づいて、変換対象と判定された前記修飾句を文に変換して出力する文変換部と、前記文変換部による変換が成功した場合に変換対象とした前記修飾句に対応して元の前記文データを短縮する文短縮部とを具備する文変換装置としてコンピューターを機能させるプログラムである。
【発明の効果】
【0014】
本発明によれば、統計翻訳技術を用いる場合のように大量の文例データを用意することなく、文を変換することができる。
これにより、難しい文から平易な文へ変換することができる。例えば、複数の句を含む文法的に複雑な一文を、複数の文に分割することによって、文法の複雑さを減らすことができる。単に語の言い換えにより文を平易化するのではなく、文の文法的構造を平易なものに変換することができる。つまり、文の文法的な難度を下げることができる。
【0015】
また、変換対象とする句の長さの閥値をあらかじめ指定することで、閖値を超える句のみを文として生成し、取り出すことができる。
また、取り出した文群の並びに関する規則を適用することで自然な文の並びを得ることができる。
これらにより、例えば、その言語を母国語としない人にもわかり易い文を出力することが可能となる。
【図面の簡単な説明】
【0016】
【図1】本発明の実施形態による文変換装置の機能構成を示したブロック図である。
【図2】同実施形態による入力文記憶部が記憶するデータの一例を示す概略図である。
【図3】同実施形態による文変換装置の全体的な処理手順を示すフローチャートである。
【図4】同実施形態による係り受け解析部での処理の結果として得られる係り受け構造データを示す概略図である。
【図5】同実施形態による修飾句認定部が認定した修飾句と最後の述語の関係の例を示す概略図である。
【図6】同実施形態による認定用辞書記憶部が記憶する辞書データの例を示す概略図である。
【図7】同実施形態による格パターン辞書記憶部が記憶する格パターンのデータの構成を示す概略図である。
【図8】同実施形態による文変換規則記憶部が記憶する文変換規則のデータの例を示す概略図である。
【図9】同実施形態による並べ替え規則記憶部が記憶する並べ替え規則のデータ構成例を示す概略図である。
【図10】同実施形態の第1のデータ処理例により、修飾句を文に変換する処理の具体例を示した図である。
【図11】同実施形態の第1のデータ処理例における、修飾句の文への変換に伴って、元文の対応する箇所を短縮し、短縮文を得る処理の具体例を示した図である。
【図12】同実施形態の第2のデータ処理例において、入力文記憶部が記憶するデータを示した概略図である。
【図13】同実施形態の第2のデータ処理例において、係り受け解析部が入力文を処理した結果として得られる係り受け構造データを示す概略図である。
【図14】同実施形態の第2のデータ処理例において、修飾句認定部が認定した修飾句と最後の述語の関係を示す概略図である。
【図15】同実施形態の第2のデータ処理例における第2修飾句に、理由句用の文変換規則を適用した処理を示す概略図である。
【図16】同実施形態の第2のデータ処理例における第2修飾句の文変換に伴って、元文を短縮した結果を示す概略図である。
【図17】同実施形態の第2のデータ処理例における第3修飾句に、体言修飾句用の文変換規則を適用した処理を示す概略図である。
【図18】同実施形態の第2のデータ処理例における第3修飾句の文変換に伴って、元文を短縮した結果を示す概略図である。
【図19】同実施形態の第2のデータ処理例における第4修飾句に、体言修飾句用の文変換規則を適用した処理を示す概略図である。
【図20】同実施形態の第2のデータ処理例における第4修飾句の文変換に伴って、元文を短縮した結果を示す概略図である。
【発明を実施するための形態】
【0017】
以下、図面を参照しながら、本発明の一実施形態について説明する。
[第1の実施形態]
図1は、同実施形態による文変換装置の機能構成を示すブロック図である。図示するように、文変換装置1は、入力文記憶部100と、係り受け解析部110と、修飾句認定部120と、修飾句群記憶部130と、対象修飾句判定部140と、長さ判定部150と、文変換規則記憶部160と、格パターン辞書記憶部165と、文変換部170と、生成文記憶部180と、文短縮部190と、並べ替え規則記憶部200と、文並べ替え部210と、出力部220と、認定用辞書記憶部300(属性認定用辞書記憶部)とを含んで構成される。
【0018】
入力文記憶部100は、入力となる文データを記憶する。
係り受け解析部110は、入力文記憶部100から読み出した文データを入力とし、文データの係り受け関係を解析し係り受け構造データを出力する。係り受け解析部110による係り受け解析の処理は、既存技術を用いて実現することができる。一例としては、係り受け解析器「cabocha」を用いる。この「cabocha」は、サポート・ベクタ・マシン(Support Vector Machine)に基づく係り受け解析器であり、カスケーデッド・チャンキング・モデルを採用している。なお、「cabocha」に関する参考URLは、http://chasen.org/~taku/software/cabocha/ である。
【0019】
修飾句認定部120は、係り受け解析部110の処理によって得られた係り受け構造データに基づき、文データに含まれる修飾句を抽出するとともに、認定用辞書記憶部300を参照することによって、抽出された修飾句ごとの属性を認定する。ここで、修飾句とは文の最終の述語に直接係っている、文節の並びのことである。修飾句認定部120は、認定された修飾句の各々を、修飾句群記憶部130に格納する。
修飾句群記憶部130は、修飾句認定部120によって認定された修飾句のデータを保持する。
【0020】
対象修飾句判定部140は、修飾句認定部120によって認定された各修飾句の属性に基づいて、修飾句が変換対象の修飾句か否かを判定する。
長さ判定部150は、対象修飾句判定部140によって変換対象であると判定された修飾句の長さに応じて、変換対象とするか否かを判定する。修飾句の長さが予め与えられた条件に合致する場合には、長さ判定部150は、その修飾句を変換対象の修飾句として判定する。
【0021】
文変換規則記憶部160は、修飾句を文に変換するための文変換規則を記憶する。文変換規則については、後で具体例を詳しく説明する。
格パターン辞書記憶部165は、格要素のパターンと動詞(述語)との対応関係を表すデータを保持する。格パターン辞書のデータの詳細については後述する。
【0022】
文変換部170は、文変換規則記憶部160から読み出した文変換規則に基づいて、変換対象と判定された修飾句を文に変換して出力する。このとき、文変換部170は、格パターン辞書記憶部165から読み出した格要素のパターンに基づき、欠けている各要素を補う形で、変換後の文を生成する場合がある。なお、文変換部170は、文変換規則の適用によって変換が成功したか否かを表す情報を出力する。修飾句によっては文への変換が失敗するよう規則が定められている場合もあり、失敗の場合にはその修飾句に関しては文への変換を行わない。
【0023】
具体的には次の通りである。一例として、文変換規則に基づいて体言修飾句を文に変換する場合、文変換部170は、体言修飾句の主要名詞句からさかのぼって、最初に見つかる用言を取り出す。そして、その用言から先頭までの部分句を取り出す。そして、取り出した用言(述語)に対応する格パターンを、格パターン辞書記憶部165から読み出す。そして、上記の部分句に含まれる格要素の助詞と、格パターン辞書記憶部165から取り出した格要素の助詞とを比較して、部分句に不足している助詞の格要素を見つける。そして、主要名詞句の後に、見つけた格要素の助詞を埋め込んで文の原形とする。さらに、時制や文体を元の文に合わせて、これを変換後の文として出力する。なお、時制や文体の変換は、生成規則を用いた文の変換処理によって行うことができる。
文変換部170は、変換によって得られた文を、生成文記憶部180のスタックに格納する。
【0024】
生成文記憶部180は、文変換部170によって生成された文を記憶する。
文短縮部190は、文変換部170による変換が成功した場合に、変換対象とした修飾句に対応して元の前記文データを短縮する。
【0025】
なお、認定された修飾句の各々について、上記の対象修飾句判定部140と長さ判定部150と文変換部170と文短縮部190とによる一連の処理を行うようにする。ある修飾句について処理を終えると、次の修飾句の処理に移るようにする。このように、対象修飾句としての条件を満たし、且つ長さの条件を満たす(例えば、所定の長さ以上という条件を満たす)修飾句を、文として独立させるとともに、文法的な整合を取りながら元文の中の該当する修飾句を削除し、元文を短縮する処理を繰り返して行う。
【0026】
並べ替え規則記憶部200は、複数の文を並べるための規則を記憶する。具体例としては、並べ替え規則記憶部200は、文の属性に応じた並び順の規則、およびその文が元文(を短縮したもの)であるか否かに応じた並び順の規則を記憶する。
文並べ替え部210は、文変換部170によって出力された文と、文短縮部190によって短縮された文とを、並べ替え規則記憶部200から読み出す規則に基づいた順に並べる。上に例示した規則を用いる場合、文並べ替え部210は、修飾句認定部120によって認定された修飾句の属性に応じて、文の順序を決定する。
出力部220は、上述した一連の処理で得られた文を出力する。
【0027】
認定用辞書記憶部300は、修飾句の属性ごとに言語表現を記憶する。修飾句の属性とは、例えば、「理由句」、「時間句」、「場所句」、「専門用語句」などである。認定用辞書記憶部300が記憶するデータの詳細については、後述する。
【0028】
このような各部の処理により、長さが長く文法的に複雑な文が、単純な複数の文に変換される。また、修飾句の性質に応じて、変換された後の文の位置を決めるようにしている。具体的なデータに基づくより詳細な処理手順については、後述する。
【0029】
図2は、入力文記憶部100が記憶するデータの一例を示す概略図である。図示するように、入力文記憶部100は、日本語の文を表すテキストデータを記憶する。図示する例では、入力文記憶部100は、「国士地理院は、人工衛星を使って地盤の変化を細かく捉えるGPSを、伊達市と壮瞥町、虻田町の3ヵ所に設置しています。」という文を記憶している。
【0030】
次に、データの実例を用いて、フローチャートを参照しながら、文変換装置1の動作の手順を説明する。
図3は、文変換装置1の処理手順を示すフローチャートである。
【0031】
まずステップS1において、係り受け解析部110は、入力文100から入力文データを読み込み、係り受け解析処理を行う。係り受け解析処理自体は、既存技術を用いて行う。例えば、係り受け解析部110は、「CaboCha」などのソフトウェアを利用する。
【0032】
図4は、係り受け解析部110における処理の結果として得られる係り受け構造データを示す概略図である。この係り受け構造データは、木構造を表すデータである。図示するように、係り受け解析の結果、「設置しています」を根(ルート)とした木構造のデータが得られている。図における矢印は、ノード間の係り受け関係を表す。例えば、「GPSを」から「設置しています」への矢印は、「GPSを」が「設置しています」に係ることを表している。
【0033】
図3に戻り、次にステップS2において、修飾句認定部120は、係り受け解析部110による係り受け解析の結果を元に、修飾句を認定するとともに、修飾句に属性を与える。具体的方法としては、修飾句認定部120は、係り受け解析の結果に基づいて、最後の述語に係っている句を認定する。
【0034】
図5は、入力文の例に基づき修飾句認定部120が認定した修飾句と最後の述語の関係を示す概略図である。図示するように、この例では、修飾句認定部120は、「国士地理院は」と「人工衛星を使って地盤の変化を細かく捉えるGPSを」と「伊達市と壮瞥町、虻田町の3力所に」を修飾句として認定する。これらの句はいずれも、最後の述語「設置しています」に係っている。このような修飾句の抽出は、図4に示した係り受け解析の結果に基づいて行うことができる。本実施形態による文変換装置1は、以後の処理において、各修飾句の中における係り受け関係を利用しない。
【0035】
また、修飾句認定部120は、認定用辞書記憶部300に記憶されている辞書データを参照することにより、各修飾句の属性を与える、修飾句の属性の例としては、理由句、時間句、場所句、専門用語句が含まれる。そして、これら各属性に対応して、認定用辞書記憶部300は、理由句認定用辞書、時間句認定用辞書、場所句認定用辞書、専門用語句認定用辞書を記憶している。
【0036】
図6は、認定用辞書記憶部300が記憶する辞書データの例を示す概略図である。図6(a)は理由句認定用辞書のデータ、(b)は時間句認定用辞書のデータ、(c)は場所句認定用辞書のデータ、(d)は専門用語句認定用辞書のデータをそれぞれ示す。例えば、理由句認定用辞書は、「ことから」、「だとして」、「ため」などといった表現を含んでいる。他の辞書も、同様に、各属性に対応する表現を含んでいる。修飾句認定部120は、例えば「人工衛星を使って地盤の変化を細かく捉えるGPSを」という修飾句に「GPS」という表現が含まれており、この「GPS」が専門用語句認定用辞書に記憶されていることから、この修飾句の属性を「専門用語句」と認定する。また、修飾句認定部120は、例えば「伊達市と壮瞥町、虻田町の3ヵ所に」という修飾句に「伊達市」、「壮瞥町」、「虻田町」という表現が含まれており、これらの表現が場所句認定用辞書に記憶されていることから、この修飾句の属性を「場所句」と認定する。
なお、修飾句の属性の種類は上に挙げたものに限らず、他の属性を用いるようにしても良い。このとき、認定用辞書記憶部300は、各属性に応じた認定用辞書を記憶する。
【0037】
ここで、末尾の自立語が普通名詞で終わっている修飾句を体言修飾句と呼ぶ。一方、末尾の自立語が用言で終わっている修飾句を用言修飾句と呼ぶ。図5に示した3つの修飾句は、いずれも、末尾の自立語が普通名詞であるので、これらはすべて体言修飾句である。また、体言修飾句の末尾の名詞句(末尾の名詞から先頭方向にさかのぼって、用言にぶつかるまで。但し、その用言を含まない。但し、末尾の名詞から先頭方向にさかのぼって、修飾句の頭にぶつかった場合には、その修飾句の頭まで。)を主要名詞句と呼ぶ。よって、これら3つの修飾句とそれぞれの主要名詞句との関係は次の通りである。即ち、体言修飾句「国土地理院は」の主要名詞句は、「国土地理院は」である。また、体言修飾句「人工衛星を使って地盤の変化を細かく捉えるGPSを」の主要名詞句は、「GPSを」である。また、体言修飾句「伊達市と壮瞥町、虻田町の3ヵ所に」の主要名詞句は、「伊達市と壮瞥町、虻田町の3ヵ所に」である。
【0038】
以上の修飾句認定部120による処理の結果は、修飾句群記憶部130に書き込まれる。つまり、修飾句認定部120は、認定された修飾句と、修飾句の属性と、修飾句が体言修飾句である場合の主要名詞句の情報を、修飾句群記憶部130に書き込む。また、元の入力部も記憶される。
【0039】
図3に戻り、次にステップS3において、対象修飾句判定部140は、修飾句群記憶部130に未処理の修飾句が残っているか否かを判定する。残っている場合には次のステップS4に進み、残っていない場合にはステップS21に飛ぶ。
次にステップS4に進んだ場合には、同ステップにおいて、対象修飾句判定部140は、修飾句群記憶部130に記憶されている未処理の修飾句を1つ取り出す。
そしてステップS5において、対象修飾句判定部140は、取り出した修飾句が対象修飾句であるか否かを判定する。このステップでは、修飾句が体言修飾句であるという条件または修飾句が理由句であるという条件のいずれか一方であるかどうかを判定する。この判定条件は一例であり、設定等により他の条件としても良い。条件を満たす(つまり現在の修飾句は対象修飾である)と対象修飾句判定部140が判定した場合には次のステップS6に移り、その他の場合にはステップS11に飛ぶ。
【0040】
次にステップS6に進んだ場合には、同ステップにおいて、長さ判定部150は、取り出した修飾句の長さが所定のm以上であるか否かを判定する。長さがm以上の場合には次のステップS7に進み、その他の場合にはステップS11に飛ぶ。
ここでは、所定の長さとは、例えば文字数を用いて、m=17とする。つまり、修飾句の長さが17文字以上であるか否かを判定する。また、mを17以外の数値としても良い。また、文字数以外の数値を用いても良い。例えば、文字数の絶対的な値を用いる代わりに、元の入力文の長さに対する比率の値をmとして用いても良い。
【0041】
次にステップS7に進んだ場合には、同ステップにおいて、文変換部170が修飾句を文に変換する処理を行う。このとき、文変換部170は、文変換規則記憶部160から読み出した文変換規則と、格パターン辞書記憶部165から読み出した格パターンとに基づいて、文変換の処理を行う。
【0042】
図7は、格パターン辞書記憶部165が記憶する格パターンのデータの構成を示す概略図である。図示するように、格パターン辞書記憶部165は、表形式のデータとして表された、格要素と動詞とを対応付けた格パターン辞書を記憶する。図示するデータ例では、「X ハ(ガ) Y ヲ」という格要素と、「捉える」という動詞とが対応する。格要素におけるXやYには表現がマッチする。また「ハ(ガ)」や「ヲ」は助詞を表している。他の動詞についても、同様に、各要素が対応付けられている。このような格パターン辞書は、文例等に基づいて、予め作成しておく。
【0043】
図8は、文変換規則記憶部160が記憶する文変換規則のデータの例を示す概略図である。同図に示すように、文変換規則記憶部160は、文変換規則1として体言修飾句用の規則を記憶し、文変換規則2として理由句用の規則を記憶している。同図おいては、規則を自然言語で表しているが、より機械処理に適した方法で規則を表現するようにしても良い。図示する例では、文変換規則記憶部160は、体言修飾句を文に変換するための次の規則を記憶している。即ち、「1:当該修飾句の主要名詞句からさかのぼって、最初にみつかる用言を取り出す。 2:1において用言が見つからなければ、失敗とする。 3:1で取り出した用言から当該修飾句の先頭までの部分句を取り出す。 4:1で取り出した用言の格パターンを格パターン辞書から取り出す。 5:3で取り出した部分句に含まれる各要素の助詞と、4で取り出した格パターンの格要素の助詞を比較して、部分句に不足している助詞の格要素を見つける 6:5において不足している格要素が見つからなければ、失敗とする 7:当該修飾句の主要名詞句の後に、5で見つけた不足している助詞を埋め込んで、文の原形とする 8:7で得られた文について、用言の時制を、元の文の時制、文体と合わせて、文とする。」という規則である。また、文変換規則記憶部160は、理由句を文に変換するための次の規則を記憶している。即ち、「1:理由句の末尾の助詞、助動詞類を除いた基本部を、『これは』と『ためです』で囲む。」という規則である。
【0044】
文変換部170は、上記のような格パターン辞書および文変換規則を参照しながら、修飾句を文に変換する。その実現方法の一例としては、機械処理可能な所定の形式で表わされた変換規則を文変換部170が逐次読み出しながら、解釈・実行するようにする。
【0045】
図3に戻り、ステップS8において、文判定部170は、ステップS7における、修飾句の文への変換が成功したか否かを判断する。成功した場合には次のステップS9に進み、その他の場合(即ち、失敗した場合)は、ステップS11に飛ぶ。例えば、図8に示した体言修飾句用の文変換規則を用いた場合において、「2:1において用言が見つからなければ、失敗とする。」や「6:5において不足している格要素が見つからなければ、失敗とする」に該当した場合には、文への変換が失敗したと判断される。また、これらの失敗条件に合致せず、「7:当該修飾句の主要名詞句の後に、5で見つけた不足している助詞を埋め込んで、文の原形とする 8:7で得られた文について、用言の時制を、元の文の時制、文体と合わせて、文とする。」の規則の適用ができた場合には、文への変換が成功したと判断される。
【0046】
次にステップS9に進んだ場合には、同ステップにおいて、文判定部170は、変換によって得られた文をスタックに格納する。このスタックは、生成文記憶部180の中に設けられている。
次にステップS10において、文短縮部190は、変換によって得られた文に応じて、元の文を短縮する処理を行う。文短縮部190は、短縮した結果の文を内部のメモリに記憶しておく。
【0047】
ステップS11においては、対象修飾句判定部140が、ここまでで処理済となった修飾句を修飾句群記憶部130から削除する。そして、次の修飾句が存在している場合にはその修飾句の処理に移るために、ステップS3の判定に戻る。
【0048】
ステップS3での判定で、修飾句が残っていなかった場合、つまり全ての修飾句の処理を済んだ場合には、前述の通りステップS21に移る。そして、ステップS21において、文並べ替え部210が、並べ替え規則記憶部200から読み出した規則に基づいて、生成文記憶部180から読み出した文と、文短縮部190が短縮した結果得られた文の並べ替えを行う。
そして、ステップS22において、出力部220は、並べ替えの完了した文を外部(例えば、磁気ディスク装置や画面やプリンタなど)に出力する。
【0049】
図9は、並べ替え規則記憶部200が記憶する並べ替え規則のデータ構成例を示す概略図である。図示するように、並べ替え規則は、文の種類に基づく並び順を表わす。文の種類とは、元文の短縮文であるか、あるいは元文の修飾句を文変換した場合におけるその修飾句の属性(場所句、時間句、理由句、普通句、専門用語句等)を表わすものである。図示する例では、並べ替え規則記憶部200は、第1が場所句から変換された文、第2が時間句から変換された文、第3が元文の短縮文、第4が理由句から変換された文、第5が普通句から変換された文、第6が専門用語句から変換された文、という順序を規則として記憶する。同図おいては、規則を言葉で表しているが、より機械処理に適した方法で規則を表現するようにしても良い。
【0050】
[第1のデータ処理例]
次に、上記の手順を具体的なデータ例に適用した場合の処理について、説明する。既に説明したように、修飾句認定部120が書き込んだことにより、修飾句群記憶部130には、「国土地理院は」と、「人工衛星を使って地盤の変化を細かく捉えるGPSを」と、「伊達市と壮瞥町、虻田町の3ヵ所に」の3つの修飾句が記憶されている。
【0051】
<例:第1修飾句の処理>
図3のステップS4において最初に取り出される修飾句は「国土地理院は」である。
そして、ステップS5において、修飾句「国土地理院は」は体言修飾句であるので対象修飾句であると判断され、ステップS6に進む。
そして、ステップS6において、修飾句「国土地理院は」は17文字以上という条件を満たさないので、ステップS11に進む。
ステップS11において、修飾句「国土地理院は」は、修飾句群記憶部130から削除される。
【0052】
<例:第2修飾句の処理>
ステップS4において次に取り出される修飾句は「人工衛星を使って地盤の変化を細かく捉えるGPSを」である。
そして、ステップS5において、修飾句「人工衛星を使って地盤の変化を細かく捉えるGPSを」は体言修飾句であるので対象修飾句であると判断され、ステップS6に進む。
そして、ステップS6において、修飾句「人工衛星を使って地盤の変化を細かく捉えるGPSを」は17文字以上という条件を満たすので、ステップS7に進む。
【0053】
そして、ステップS7において、体言修飾句用の文変換規則を用いた変換が行われる。修飾句「人工衛星を使って地盤の変化を細かく捉えるGPSを」の主要名詞句である「GPSを」からさかのぼって、最初に見つかる用言「捉える」を取り出す(規則の1番)。用言から先頭までの部分句として、「人工衛星を使って地盤の変化を細かく捉える」を取り出す(規則の3番)。取り出した用言「捉える」の格パターンを、格パターン辞書から取り出す(規則の4番)。動詞「捉える」に対応する格要素は「X ハ(ガ) Y ヲ」である。上記の部分句「人工衛星を使って地盤の変化を細かく捉える」に含まれる格要素の助詞と、格パターン辞書から取り出した格要素「X ハ(ガ) Y ヲ」の助詞とを比較して、部分句に不足している助詞の格要素「X ハ(ガ)」を見つける(規則の5番)。つまり、「Y ヲ」に相当するものとして上記の部分句の中の「変化を」が存在するのに対して、「X ハ(ガ)」に相当するものが上記の部分句にはないので、この「X ハ(ガ)」が、部分句に不足していた助詞の格要素である。主要名詞句「GPSを」の後に、見つけた「X ハ(ガ)」の助詞を埋め込んで文の原形とする(規則の7番)。即ち、「GPSは人工衛星を使って地盤の変化を細かく捉える」という文を得る。そして、用言の時制を元の文の時制(ここでは、時制は、現在)および文体(ここでは文体は、「です・ます」調)に合わせて、「GPSは人工衛星を使って地盤の変化を細かく捉えます」という文を得る(規則の8番)。得られた文はステップS9でスタックに格納される。
【0054】
図10は、上記第2句である「人工衛星を使って地盤の変化を細かく捉えるGPSを」を文に変換する処理を示したものである。格パターン辞書に基づき、動詞「捉える」に対応する格要素が得られる。そして「変化を」が「Y ヲ」にマッチし、「X ハ(ガ)」は修飾句内で不足している。よって、この不足している助詞を主要名詞句「GPS」の後に埋め込む。さらに時制と文体の調整が行われて、「GPSは人工衛星を使って地盤の変化を細かく捉えます」という文が生成される。
【0055】
図3のステップS10において、元文の中の、当該修飾句の主要名詞句以外を削除する。つまり、現在の修飾句「人工衛星を使って地盤の変化を細かく捉えるGPSを」のうちの、主要名詞句である「GPSを」を残して、その修飾句の残りの部分を、元文「国士地理院は、人工衛星を使って地盤の変化を細かく捉えるGPSを、伊達市と壮瞥町、虻田町の3ヵ所に設置しています。」から削除する。つまり、元文から「人工衛星を使って地盤の変化を細かく捉える」を削除することによって、元文を「国士地理院は、GPSを、伊達市と壮瞥町、虻田町の3ヵ所に設置しています。」に短縮する。短縮された元文は、文短縮部190が内部のメモリで記憶する。
【0056】
図11は、上記第2句の文への変換に伴って、元文の対応する箇所を、「人工衛星を使って地盤の変化を細かく捉えるGPSを」から「GPSを」に短縮し、短縮文を得る処理を示す図である。
【0057】
そして、ステップS11において、修飾句「人工衛星を使って地盤の変化を細かく捉えるGPSを」は、修飾句群記憶部130から削除される。
【0058】
<例:第3修飾句の処理>
ステップS4において3番目に取り出される修飾句は「伊達市と壮瞥町、虻田町の3ヵ所に」である。
ステップS5において、修飾句「伊達市と壮瞥町、虻田町の3ヵ所に」は体言修飾句であるので対象修飾句であると判断され、ステップS6に進む。
ステップS6において、修飾句「伊達市と壮瞥町、虻田町の3ヵ所に」は17文字以上という条件を満たさないので、ステップS11に進む。
ステップS11において、修飾句「伊達市と壮瞥町、虻田町の3ヵ所に」は、修飾句群記憶部130から削除される。
【0059】
<例:文の並べ替え処理>
これで、修飾句群記憶部130には、もう修飾句が残ってないので、文の並べ替えの処理に移る。
この時点で、生成文記憶部180のスタックには「GPSは人工衛星を使って地盤の変化を細かく捉えます」という文が記憶されている。この文は、専門用語句を元に生成された文である。また、文短縮部190がメモリに記憶している最新の短縮結果は、「国士地理院は、GPSを、伊達市と壮瞥町、虻田町の3ヵ所に設置しています。」という文である。ここで、文並べ替え部210が並べ替え規則記憶部200から読み出した規則に基づくと、並べ替えの第3番目が「元文の短縮文」であり、第6番目が「専門用語句」を元に生成された文という順序が定義されている。また、ここで並べるべき文は、これらの2文のみである。よって元文の短縮文が、専門用語句から変換された文に先行する。その結果として、「国土地理院は、GPSを伊達市と壮瞥町、虻田町の3ヵ所に設置しています。GPSは人工衛星を使って地盤の変化を細かく捉えます。」という2文の並びが得られる。
【0060】
上記の処理によって、文変換装置1は、入力される「国士地理院は、人工衛星を使って地盤の変化を細かく捉えるGPSを、伊達市と壮瞥町、虻田町の3ヵ所に設置しています。」という例文データを、「国士地理院は、GPSを、伊達市と壮瞥町、虻田町の3ヵ所に設置しています。GPSは人工衛星を使って地盤の変化を細かく捉えます。」という2文のデータに変換する。つまり、文変換装置1は、入力される文が持つ文法的な複雑さを軽減するように、文の変換を行う。
【0061】
[第2のデータ処理例]
次に、別のデータを処理する場合の例について説明する。
図12は、入力文記憶部100が記憶するデータを示す概略図である。本例では、入力文記憶部100が「宮川村では、対策工事が終わったことから、最後まで残されていた4世帯への避難指示が災害から2ヶ月近くたった今日、解除されました。」という文を記憶している。
【0062】
図13は、係り受け解析部110が、図12に示した入力文を処理した結果として得られる係り受け構造データを示す概略図である。この係り受け構造データは、木構造を表すデータである。この木構造の図における矢印がノード間の係り受け関係を表す。
【0063】
図14は、入力文に基づき修飾句認定部120が認定した修飾句と最後の述語の関係を示す概略図である。図示するように、この例では、修飾句認定部120は、第1句「宮川村では」と第2句「対策工事が終わったことから」と第3句「最後まで残されていた4世帯への避難指示が」と第4句「災害から2ヶ月近くたった今日」を修飾句として認定する。これらの句はいずれも、最後の述語「解除されました」に係っている。これらの修飾句の抽出は、図13に示した係り受け解析の結果に基づいて行うことができる。
【0064】
そして、修飾句認定部120は、各修飾句の属性を認定する。第1句における「宮川村」が図6(c)の場所句認定用辞書に含まれることから、修飾句認定部120は第1句を場所句と認定する。第2句における「ことから」が図6(a)の理由句認定用辞書に含まれることから、修飾句認定部120は第2句を理由句と認定する。第3句は図6の辞書が含む単語を持たないため特別な句とは認定されない。ここでは、そのような句を「普通句」と呼ぶ。つまり、修飾句認定部120は第3句を普通句と認定する。第4句における「今日」が図6(b)の時間句認定用辞書に含まれることから、修飾句認定部120は第4句を時間句と認定する。修飾句認定部120の処理により、修飾句群記憶部130には、これらの修飾句とその属性が記憶される。
【0065】
なお、本例では、第1句、第3句、第4句の各々における末尾の文節の自立語が体言で終わっているため、これらの句は体言修飾句である。第2句における末尾の文節の自立語が「終わった」であるため、第2句は用言修飾句である。図14において下線を引いている部分は、体言修飾句における主要名詞句である。つまり、第1句における主要名詞句は「宮川村では」である。第3句における主要名詞句は「4世帯への避難指示が」である。第4句における主要名詞句は「今日」である。なお、第2句は用言修飾句であるため、第2句の主要名詞句は存在しない。
【0066】
次にこれら4つの修飾句を対象に図3のステップS3以後の処理を行う。なお、本例では、修飾句の長さを判断する規準となるmの値を10とする。
<例:第1修飾句の処理>
まずステップS4において第1句「宮川村では」が取り出される。この第1句の長さは5文字であるため、ステップS6においてNO(この修飾句は、文変換する対象とはならない)と判断される。従って、ステップS7からS10までをスキップし、ステップS11において、修飾句群から第1句を削除する。
【0067】
<例:第2修飾句の処理>
次の、ステップS3の処理において、第2句から第4句までが残っている。よって、ステップS4において第2句「対策工事が終わったことから」が取り出される。ステップS5の処理においては、この第2句の属性は理由句であるから、第2句は対象修飾句であると判断される。また、第2句の文字数が13文字であるため、ステップS6における長さの判定では10(=m)以上であると判断される。
【0068】
ステップS7において、第2句の文変換を行う。第2句は理由句であるので、図8に示した文変換規則の2(理由句用)が適用される。
図15は、理由句用の文変換規則を第2句に適用した処理を示す概略図である。すなわち、理由句の末尾の助詞、助動詞類を取り除いて「これは」と「ためです」で囲む。第2句にふくまれる「ことから」は助詞相当語であるので、規則に従ってこれを取り除き、残った基本部「対策工事が終わった」を、「これは」と「ためです」で囲む。その結果、「これは対策工事が終わったためです」という文を得る。
【0069】
ステップS8の判定において、ステップS7における文変換は成功したと判断され、ステップS9およびS10の処理が行われる。つまり、ステップS9においては、生成された文「これは対策工事が終わったためです」がスタックに格納される。そしてステップS10においては、元文を短縮する。理由句を文変換した場合には、規則により、元文からその句をすべて取り除く処理を行う。
図16は、元文を短縮した結果を示す。同図では、第2句はすべて取り除かれたために空であることを示している。このような短縮された元文がメモリに記憶されている。
そして、ステップS11で、修飾句群から第2句を削除する。
【0070】
<例:第3修飾句の処理>
次の、ステップS3の処理において、第3句と第4句が残っている。よって、ステップS4において第3句「最後まで残されていた4世帯への避難指示が」が取り出される。ステップS5の処理においては、この第3句の属性は体言修飾句であるから、第3句は対象修飾句であると判断される。また、第3句の文字数が20文字であるため、ステップS6における長さの判定では10(=m)以上であると判断される。
【0071】
体言修飾句である第3句については、図8に示した文変換規則の1(体言修飾句用)が適用される。体言修飾句用の規則の適用については、「第1のデータ処理例」においても詳細に述べたとおりである。
図17は、体言修飾句用の文変換規則を第3句に適用した処理を示す概略図である。本データ例では、主要名詞句である「4世帯への避難指示が」から文頭にさかのぼって述語を短縮し、それによって「残される」が見つかる。次に、図7に示した格パターン辞書を用いて、「残される」が取る格パターンを探索する。その結果、得られる格要素は「X ハ(ガ)」である。第3句の主要名詞句から文頭の部分「最後まで残されていた」には、「ハ(ガ)」の文節がないため、主要名詞句に「ハ」を加えて第3句の頭に追加する。これにより「4世帯への避難指示は最後まで残されていた」が得られる。そして、この文末の文体を元の文(「です・ます」調)に合わせる変換処理を行い、「4世帯への避難指示は最後まで残されていました」という文を得る。
【0072】
ステップS8の判定において、ステップS7における文変換は成功したと判断され、ステップS9およびS10の処理が行われる。つまり、ステップS9においては、生成された文「4世帯への避難指示は最後まで残されていました」がスタックに格納される。そしてステップS10においては、元文を短縮する。ここでは、規則により、主要名詞句である「4世帯への避難しじが」のみを元文に残し、第3句のその他の部分を元文から取り除く処理を行う。
【0073】
図18は、元文を短縮した結果を示す。このような短縮された元文がメモリに記憶されている。つまり、この時点での元文は、「宮川村では4世帯への避難指示が災害から2ヶ月たった今日解除されました」と短縮されている。
そして、ステップS11で、修飾句群から第3句を削除する。
【0074】
<例:第4修飾句の処理>
次の、ステップS3の処理において、第4句が残っている。よって、ステップS4において第4句「災害から2ヶ月近くたった今日」が取り出される。ステップS5の処理においては、この第4句の属性は体言修飾句であるから、第4句は対象修飾句であると判断される。また、第4句の文字数が14文字であるため、ステップS6における長さの判定では10(=m)以上であると判断される。
【0075】
第4句は、第3句と同じく体言修飾句である。よって、第3句の場合と同様に、図8に示した文変換規則の1(体言修飾句用)を適用した処理を行う。
図19は、体言修飾句用の文変換規則を第4句に適用した処理を示す概略図である。第4句の主要名詞句「今日」から文頭にさかのぼって述語を探索すると「たつ」が見つかる。次に、図7に示した格パターン辞書を探索すると、この「たつ」に対応する格要素は「X ハ(ガ)」である。そして、第4句の主要名詞句から句の頭の間には「ハ(ガ)」の格がないため、主要名詞句に「ハ」を加えて、句の頭に追加する。即ち、「今日は災害から2ヶ月近くたった」を得る。さらに、文末における文体を元文と合わせる処理を行い、「今日は災害から2ヶ月近くたちました」という文を得る。
【0076】
ステップS8の判定において、ステップS7における文変換は成功したと判断され、ステップS9およびS10の処理が行われる。つまり、ステップS9においては、生成された文「今日は災害から2ヶ月近くたちました」がスタックに格納される。そしてステップS10においては、元文を短縮する。ここでは、規則により、主要名詞句である「今日」のみを元文に残し、第4句のその他の部分を元文から取り除く処理を行う。
【0077】
図20は、元文を短縮した結果を示す。このような短縮された元文がメモリに記憶されている。つまり、この時点での元文は、「宮川村では4世帯への避難指示が今日解除されました」と短縮されている。
そして、ステップS11で、修飾句群から第4句を削除する。
以上の処理により、修飾句群記憶部130からは修飾句がすべて(第1句から第4句まで)削除された。つまり、ステップS3の判断において、修飾句が残っていないと判断され、ステップS21の文の並べ替えの処理に移る。
【0078】
<例:文の並べ替え処理>
この時点で、生成文記憶部180のスタックには、次の3つの文が格納されている。即ち、第2句(理由句)から変換された文「これは対策工事が終わったためです」と、第3句(普通句)から変換された文「4世帯への避難指示は最後まで残されていました」と、第4句(時間句)から変換された文「今日は災害から2ヶ月近くたちました」である。また、この時点で、文短縮部190がメモリに格納している最新の短縮結果は、「宮川村では4世帯への避難指示が今日解除されました」という文である。また、これら合計4文以外の文は存在しない。
【0079】
ここで、文並べ替え部210が並べ替え規則記憶部200から読み出した規則に基づくと、第1に時間句から変換された文、第2に元文の短縮結果、第3に理由句から変換された文、第4に普通句から変換された文の順番に並べることになる。この結果、(1)「今日は災害から2ヶ月近くたちました。」、(2)「宮川村では4世帯への避難指示が今日解除されました。」、(3)「これは対策工事が終わったためです。」、(4)「4世帯への避難指示は最後まで残されていました。」という順での4文の並びが得られる。
【0080】
なお、上述した実施形態における文変換装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0081】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
また、修飾句の属性の集合は、実施形態に置いて例示したものに限らず、別の属性集合を使用するようにしても良い。修飾句に対して、有限種類の属性のいずれかを付与し、その属性に応じて、変換対象の修飾句とするか否かを判定する。また、その属性に応じて、変換後の文の並び順を決定する。
また、修飾句を変換対象とするか否かの判定において、上記実施形態による文変換装置は、理由句または体言修飾句である場合に変換対象とするという条件を用いたが、この判定を別の条件で行うようにしても良い。
【0082】
また、例えば図9に示した並べ替え規則は一例であり、他の規則を用いるようにしても良い。一般化すると、並べ替え規則は、文の種類(変換前の修飾句の属性等)間での順序の制約関係として表される。このときの制約規則は、二項間の関係であっても良いし、三項以上の多項間の関係であっても良い。
また、上記実施形態では日本語による文を扱う処理について説明したが、日本語以外の言語による文に本発明を適用しても良い。
【産業上の利用可能性】
【0083】
本発明は、例えば、教育や、ウェブコンテンツの制作や、放送等のコンテンツにおける字幕の作成等に利用することができる。
【符号の説明】
【0084】
1 文変換装置
100 入力文記憶部
110 係り受け解析部
120 修飾句認定部
130 修飾句群記憶部
140 対象修飾句判定部
150 長さ判定部
160 文変換規則記憶部
165 格パターン辞書記憶部
170 文変換部
180 生成文記憶部
190 文短縮部
200 並べ替え規則記憶部
210 文並べ替え部
220 出力部
300 認定用辞書記憶部(属性認定用辞書記憶部)

【特許請求の範囲】
【請求項1】
文データを入力し前記文データの係り受け関係を解析し係り受け構造データを出力する係り受け解析部と、
修飾句の属性ごとに言語表現を記憶する属性認定用辞書記憶部と、
前記係り受け構造データに基づき前記文データに含まれる修飾句を抽出するとともに、前記属性認定用辞書記憶部を参照することによって抽出された前記修飾句ごとの属性を認定する修飾句認定部と、
前記修飾句認定部によって認定された属性に基づいて、前記修飾句が変換対象の修飾句か否かを判定する対象修飾句判定部と、
前記対象修飾句判定部によって変換対象であると判定された前記修飾句の長さに応じて変換対象とするか否かを判定する長さ判定部と、
修飾句を文に変換するための文変換規則を記憶する文変換規則記憶部と、
前記文変換規則記憶部から読み出した文変換規則に基づいて、変換対象と判定された前記修飾句を文に変換して出力する文変換部と、
前記文変換部による変換が成功した場合に変換対象とした前記修飾句に対応して元の前記文データを短縮する文短縮部と、
を具備することを特徴とする文変換装置。
【請求項2】
前記文変換部によって出力された文と、前記文短縮部によって短縮された文とを、予め定められた規則に基づいた順に並べる文並べ替え部をさらに具備する、
ことを特徴とする請求項1に記載の文変換装置。
【請求項3】
前記文並べ替え部は、前記修飾句認定部によって認定された前記修飾句の属性に応じて、前記修飾句から前記文変換部によって変換された前記文の順序を決定する、
ことを特徴とする請求項2に記載の文変換装置。
【請求項4】
前記長さ判定部は、前記修飾句の長さが予め定めた長さよりも長い場合にその修飾句を変換対象とするよう判定する、
ことを特徴とする請求項1から3までのいずれか一項に記載の文変換装置。
【請求項5】
文データを入力し前記文データの係り受け関係を解析し係り受け構造データを出力する係り受け解析部と、
修飾句の属性ごとに言語表現を記憶する属性認定用辞書記憶部と、
前記係り受け構造データに基づき前記文データに含まれる修飾句を抽出するとともに、前記属性認定用辞書記憶部を参照することによって抽出された前記修飾句ごとの属性を認定する修飾句認定部と、
前記修飾句認定部によって認定された属性に基づいて、前記修飾句が変換対象の修飾句か否かを判定する対象修飾句判定部と、
前記対象修飾句判定部によって変換対象であると判定された前記修飾句の長さに応じて変換対象とするか否かを判定する長さ判定部と、
修飾句を文に変換するための文変換規則を記憶する文変換規則記憶部と、
前記文変換規則記憶部から読み出した文変換規則に基づいて、変換対象と判定された前記修飾句を文に変換して出力する文変換部と、
前記文変換部による変換が成功した場合に変換対象とした前記修飾句に対応して元の前記文データを短縮する文短縮部と、
を具備する文変換装置としてコンピューターを機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公開番号】特開2013−77101(P2013−77101A)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願番号】特願2011−215845(P2011−215845)
【出願日】平成23年9月30日(2011.9.30)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】