説明

アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム

【課題】日本語の韻律特性を用いることにより、日本語音声合成に有用な音声合成方法及びシステムを提供する。
【解決手段】入力された文章の音素に対する発音及びアクセント情報を含む記号に変換する。その記号のアクセント情報を用いて上記入力された文章のアクセント句を区分する。区分されたアクセント句を基準に音声データベース(DB)に予め保存された文章を比較して類似する文章を事前選択する。そして、事前選択された文章のみを用いて音声合成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成方法及び音声合成システムに関し、より具体的には、合成単位選択過程で比較すべき候補の数を事前選択(pre−selection)する音声合成方法及びシステムに関する。
【背景技術】
【0002】
これまで入力されたテキストを音声に合成(TTS:Text To Speech)する様々な音声合成方法及びシステムが提案され使用されてきた。その中でも、コーパス基盤の音声合成方法は、音声を合成単位形態で構成したデータベース(DB)から合成に必要な単位を選択し、これらを適切に連結して合成音を生成することで、高音質の合成音を生成することができる。
【0003】
このようなコーパス基盤の音声合成システムに関する基本システム構成図が図1に図示されている。図1を参考に一般的な音声合成方法を見てみると、文章が入力されると、言語学的処理部120のテキスト前処理モジュール121が数字/略語/記号辞典161を用いて文章に含まれた数字、記号等をテキストに変換し、文章分析モジュール122が品詞辞典162を用いて文章を分析し、発音表記変換モジュール123が発音辞典163を用いて発音表記に変換する。
【0004】
上記言語学的処理部で入力文章の前処理が行われると、韻律処理部130は、言語学的処理部から抽出された情報を用いて抑揚、持続時間等の韻律情報を生成する。
【0005】
また、音声信号処理部140の合成単位選択モジュール141は、言語学的処理部から生成された情報を用いて、音声DB164から最適の合成単位を選択し、韻律調節モジュール142で、韻律処理部130で発生させた韻律情報を用いて韻律を調節した後、音声波形生成モジュール143で、韻律が調節された合成単位を連結して合成音を作り、音声出力部150を通じて合成音を出力する。このとき、付加的に音色制御モジュール144を通じて音色を調節することもできる。
【0006】
上述のような構造の一般的なコーパス基盤の音声合成システムは、動的プログラミング探索技法であるViterbiアルゴリズムを用いて最適の合成単位を選択し、その性能が良いため、現在多く使用されている(例えば特許文献1)。
【特許文献1】特開平10−49193号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、より良い音質を得るためには、音声信号処理部140で使用する音声DB164に多様な音韻変化及び発音規則が含まれるよう構成しなければならないが、データベースに多様な発音の組合せを含めれば含めるほど、音質は良くなる反面、データベースに保存された資料の量が非常に大きくなり、最適の合成単位を選択するための合成単位検索時間、及び計算量が急激に増加するので、リアルタイム音声合成が不可能となる問題点が発生する。
【0008】
このため、本発明者らは、言語に存在する抑揚発話特性、特に、日本語に存在する抑揚発話特性を把握し、これを用いて音声合成過程で比較すべき候補の数を効果的に減らす反面、最適の候補が除外されないようにし、迅速で優れた音質の音声合成ができる事前選択方法及びこれを用いたシステムを開発することに至ったのである。
【0009】
本発明の目的は、日本語の韻律特性を用いることにより、日本語音声合成に有用な音声合成方法及びシステムを提供するためのものである。
【0010】
本発明の別の目的は、最適の合成単位を選択する前に、合成単位選択で比較すべき候補を事前選択することにより、迅速な音声合成が可能な音声合成方法及びシステムを提供するためのものである。
【0011】
本発明のまた別の目的は、アクセント句単位で事前選択を行う効率的で高音質の音声合成の可能な音声合成方法及びシステムを提供するためのものである。
【0012】
本発明のまた別の目的は、連結された音素列の最大長を基準に候補の類似度を判断することにより、最適の候補が除外されることは防止できる音声合成方法及びシステムを提供するためのものである。
【0013】
本発明のまた別の目的は、音声合成のために文章を構成する音素の発音情報のみならず、アクセント情報を共に示すことができる発音記号表示方法を提供するためのものである。
【0014】
本発明のまた別の目的は、文章のアクセント情報から単語と単語の間の韻律情報である休止期情報を把握することができる方法を提供するためのものである。
【0015】
本発明のまた別の目的は、文章の休止期情報を通じてアクセント句を区分することができる方法を提供するためのものである。
【0016】
本発明のまた別の目的は、最適の候補を選択するためのアクセント句マッチング方法を提供するためのものである。
【0017】
本発明の上記及びその他の目的は、下記に説明される本発明により全て達成することができる。
【課題を解決するための手段】
【0018】
本発明による音声合成方法は、入力された文章の音素に対する発音及びアクセント情報を含む記号に変換し、上記記号のアクセント情報を用いて、上記入力された文章のアクセント句を区分し、上記区分されたアクセント句を基準に音声データベース(DB)に予め保存された文章を比較して類似する文章を事前選択し、そして、上記事前選択された文章のみを用いて音声合成することを特徴とする。
【0019】
また、上記と音声合成のために入力された文章をアクセント情報が含まれた発音記号で示し、この記号が示すアクセント情報から文章を構成する単語と単語の間の休止期情報を把握し、把握された休止期情報から、アクセント境界を把握することを特徴とする。
【0020】
更に、把握されたアクセント句情報を用いたアクセント句マッチング方法において一致する音素列の最大長を示すCCL値を用いることにより、最適の候補が事前選択過程から除外されることを防止することを特徴とする。
【発明の効果】
【0021】
本発明は、音声合成のために文章を構成する音素の発音情報のみならず、アクセント情報を共に示すことができる発音記号表示方法、文章のアクセント情報から単語と単語の間の韻律情報である休止期情報を把握することができる方法、文章の休止期情報を通じてアクセント句を区分することができる方法、最適の候補を選択するためのアクセント句マッチング方法を提供することができ、上記のような方法を用いて最適の合成単位を選択する前に、合成単位選択で比較すべき候補を事前選択することにより、迅速な音声合成が可能であり、アクセント句単位で事前選択を行う効率的で高音質の音声合成が可能であり、連結された音素列の最大長を基準に類似度を判断することにより、最適の候補が除外されることは防止でき、日本語の韻律特性を用いることにより、日本語音声合成に有用な音声合成方法及びシステムを提供する効果を有する。
【発明を実施するための最良の形態】
【0022】
一般的に抑揚は、文章をその単位とする抑揚句(Intonational Phrase:IP)単位で変化するため、抑揚句全体を比較して全ての音素列が一致する候補が存在する場合、これらのみを候補として合成単位選択を行えば、音声合成のための計算量を減らすことができるのみならず、合成される音声単位が全て連結されているので、音質も録音音質と同様に優れる。
【0023】
即ち、例えば「アンニョンハセヨ」という文章を音声合成するとき、「アンニョンハセヨ」という音声がデータベースに存在すれば、これのみを候補に選択し、この音声を構成する合成単位をそのまま持ってきて合成音を生成するのである。韓国語のように、抑揚が主に抑揚句(IP)単位で変化する言語の場合、抑揚句単位で合成単位を探索するよう具現することにより、音声合成に必要な候補の数を減らすと共に、合成音質も向上させることができる。しかし、抑揚句は、一つの文章のように比較的長い長さを有する大きな韻律単位であるので、抑揚句全体が一致する候補が存在する確率は低い。
【0024】
その反面、日本語の場合、図2に図示されたように、抑揚句より小さいアクセント句単位で抑揚が大きく変化する特徴がある。従って、日本語の場合、抑揚句より小さい単位であるアクセント句(Accentual Phrase:AP)単位で候補を比較することにより、一致する候補を見付ける確率を高めると共に、アクセント句が一致する候補のみで合成単位選択を行い、抑揚句全体が一致する場合と同様に、優れた音質の合成音を得ることができる。
【0025】
図3に本発明による音声合成システムのシステム構成図が図示されている。先ず、文章入力部210を通じて日本語の文章が入力されると、言語学的処理部220のテキスト前処理モジュール221が、数字/略語/記号辞典261を用いて、文章に含まれた数字、記号等をテキストに変換する。即ち、文章に「1」、「2」等の数字が含まれている場合、数字「1」と「2」に対応する日本語テキスト「一」、「二」でテキスト処理される。
【0026】
テキスト処理された文章は、文章分析モジュール222が品詞辞典262を用いて文章を分析し、表記変換モジュール223が、発音/アクセント辞典263を用いて、アクセント情報が含まれた発音記号で文章の表記を変換する。
【0027】
言語学的処理部220で入力文章の前処理が行われると、韻律処理部230は、言語学的処理部から抽出された情報を用いて、抑揚、持続時間等の韻律情報を生成し、事前選択処理部240の分析/計算モジュール241では、言語学的処理部から抽出された情報を用いて抑揚句(IP)及びアクセント句(AP)を分析し、連結された音素列の最大長(Connected Context Length:CCL)を計算し、事前選択モジュール242では、分析/計算モジュールで分析された情報を基に、抑揚句及び/又はアクセント句が一致するかどうかを比較するアクセント句マッチング(Accentual Phrase Matching)技法を通じて、音声合成に用いられる候補を事前選択する。
【0028】
事前選択処理部240で音声合成に使用される候補が事前選択されると、従来と同一の方法で、音声信号処理部250において、合成単位選択モジュール251が事前選択された候補を用いて最適の合成単位を見付け、韻律調節モジュール252が韻律処理部230から生成された韻律情報を用いて韻律を調節した後、音声波形生成モジュール253で韻律調節された最適の合成単位を連結して合成音を作り、音声出力部260を通じて合成音を出力するようになる。このとき、付加的に音色制御モジュール254を通じて音色を調節することもできる。
【0029】
上述のように本発明による音声合成システムでは、最適の合成単位を選択する過程を行う前に、音声DBに保存された文章のうち、合成単位選択過程に使用する一定の範囲の文章、即ち候補を事前選択する。このような事前選択を行うためには、音声合成しようとする文章と音声DBに保存された文章の間に、アクセント句単位のマッチングが行わなければならず、アクセント句単位のマッチングが行われるためには、音声合成しようとする文章のアクセント句が分析されなければならず、文章のアクセント句を分析するためには、文章を構成する音素に対する発音とアクセント情報を同時に表示する記号で示すことが出来なければならない。
【0030】
従って、以下でアクセント情報が含まれた発音記号で入力された文章を表現する方法、これを通じてアクセント句を分離する方法、アクセント句マッチング技法ついてより詳細に説明する。
【0031】
「アクセント情報が含まれた発音記号」
音素は大きく母音と子音に分けることができるが、母音の場合、単音と長音に区分することができ、単音は更に低音と高音に分けられ、長音の場合、低音、高音、低音から高音に変わる場合、高音から低音に変わる場合に区分することができ、本発明では、日本語の固有のアクセント変化を反映するため、高音である単音の後に低音がくる場合と高音がくる場合とを更に区分する。
【0032】
上記のようなアクセント情報を表示するために、本発明では、子音の場合、一般的な発音記号を使用するが、母音の場合、アクセント情報を表示できる記号を一般的な発音記号と併記して、次の表1のように示す。しかし、表1のように数字でアクセント情報を区分して表示するものは例示的なものであるだけで、上記の原則に従ってアクセント情報を表記することができる如何なる形態の記号も定義して使用することができる。
【0033】
【表1】

【0034】
図4に示すように、例えば、日本語の文章「富士山は日本で一番高い山です。」が入力された場合、品詞辞典による文章分析後、上記のような方式でアクセント情報が含まれた発音記号で入力された文章を表現すると、「[h u2 j i0 s a0 xN0][wa0][n i0 h o2 xn0][d e0][i0 ch i1 b a1 xn1][t a0 k a2 i0][ya0 ma2][d e0 s u0]」のように表現することができる。
【0035】
「アクセント句決定方法」
上述のようにアクセント情報が表示された記号文章が表現されると、これよりアクセント句の境界を見付けるためには、先ず単語と単語の間に適用される韻律情報である休止期情報を決定しなければならない。
【0036】
本発明では、表2のように単語と単語の間の休止期を五つに区分する。
【0037】
【表2】

【0038】
入力された文章で休止期を決定するためには、文章分析により得られた単語の品詞、発音、記号の種類、また、複数の慣用語情報等を用いるが、先ず、上記の休止期のうち休止期3を一番最初に決定する。休止期3は、抑揚句や文章の終りを示すので、文章終了記号、休止符または休止符のような意味の記号が示される単語の終りを休止期3と決定する。休止期3を決定することにより、全体の文章の長さ情報を得ることができ、非常に長い文章に対しては休止期3を適切な位置に追加することが好ましい。
【0039】
上記のように休止期3が決定されると、各単語の発音情報を用いてアクセントの流れを推定する。日本語のアクセントは、一つのアクセント句で一度下がれば再度上がらないため、このような特性を用いて同一のアクセント句に含まれる単語の間を示す休止期1と互いに異なるアクセント句に含まれる単語の間を示す休止期2を決定することができる。
【0040】
休止期1と休止期2を決定する方法をより詳細に説明すると、次の表3の通りである。
【0041】
【表3】

【0042】
上記のように休止期1と2を決定することにより、文章のアクセント句を区分することができる。
【0043】
上記のような規則に従って、「富士山は日本で一番高い山です。」のアクセント句を区分すると、前単語である「富士山は[h u2 j i0 s a0 xN0 wa0]」の最後のアクセントは低音で、後単語である「日本で[n i0 h o2 xn0 d e0]」の最初のアクセントは低音で残りのアクセントのうち高音[o2]があるので、「富士山は」と「日本で」の間は休止期2であり、互いに異なるアクセント句に分けられることが分かる。
【0044】
上記のような方法で「富士山は日本で一番高い山です。」を全て把握してみると、図4に図示されたように、5つのアクセント句(AP1〜AP5)に区分することができ、これは、図2で分析された音声のアクセント句区分と同一であることが確認できる。
【0045】
しかし、アクセント句の間のポーズがない場合、2つのアクセント句の間に相関関係が存在し得るため、これを考慮してアクセント句間のポーズの有無によって、休止期2を休止期2−1と2−2に更に区分することができる。
【0046】
休止期2−1と2−2は、休止期2と決定された部分に対して品詞情報、慣用語的情報等を用いて区分する。休止期1と2の区分と異なり、アクセント句間のポーズの有無は、一定のパターンが存在せず、人が直接読んだ時、単語の意味やデータベースを録音したアナウンサーの読む癖、一般人の読むパタ−ンなどによって異なり得る。従って、休止期2−1と2−2を区分する方法を表4に例示的に記載したが、これを基に容易に付加、変更して使用することができる。
【0047】
【表4】

【0048】
上記のように休止期1乃至3を区分した後、休止期0を決定するが、文章分析の結果のうち、一単語が2つの単語に分けられた場合、単語の最初の音が音価のない場合(ツ)等を休止期0と決定する。
【0049】
上記の方法によって入力された文章の休止期情報が決定されると、休止期情報からアクセント句境界(Accentual Phrase Boundary:APB)情報を得ることができる。APBは、アクセント句とアクセント句の間の特徴を示すもので、3種類、即ち、アクセント句境界でない場合(APB 0)、アクセント句の境界やポーズが存在しない依存的な境界(Dependent Boundary)(APB 1)、ポーズが存在する独立的な境界(Independent Boundary)(APB 2)に分けられ、休止期とAPBの間の関係は下記の表5の通りである。
【0050】
【表5】

【0051】
上記のように求めたアクセント句境界情報を用いて入力された文章のアクセント句を分離し、適する候補を選択するためのアクセント句マッチングを行う。アクセント句マッチングにおいて、依存的な境界のアクセント句の間には、相関関係が大きな場合もあるが、独立的な境界のアクセント句の間には、相関関係が殆ど存在しないため、独立的な境界のアクセント句は抑揚句のように処理する。
【0052】
「アクセント句のマッチング方法」
基本的にアクセント句マッチングとは、データベースに保存された候補のうち、音声合成に使用される候補を選択することにおいて、アクセント句単位でその類似可否を判断するものであるが、本発明では、連結された音素列の最大長(Connected Context Length:CCL)を定義し、これを用いてアクセント句マッチングを行うことにより、最適の候補が事前選択から除外されることを防止する。
【0053】
CCLとは、合成しようとする音素の前後の音素列と候補のDB内の前後の音素列を比較して一致する音素列の最大長を意味する。現在合成しようとする音素をp[i]とすれば、p[i]に隣接した前後の音素列は、{...、p[i−2]、p[i−1]、p[i+1]、p[i+2]、...}で示すことができ、p[i]の候補をu[i]とすれば、u[i]に隣接した前後の音素列は、{...、u[i−2]、u[i−1]、u[i+1]、u[i+2]、...}に示すことができる。
【0054】
Tri−Phoneで合成単位を選択する場合、合成しようとする音素列「p[i−1]−p[i]−p[i+1]」と、候補「u[i−1]−u[i]−u[i+1]」とが一致する場合、CCL値は1である。CCL値は、前方、後方のCCLに分けられて計算されるが、p[i−2]とu[i−2]とが一致すれば、前方のCCL値が1増加し、p[i+2]とu[i+2]とが一致すれば、後方のCCL値が1増加し、このような計算は、各候補に対してアクセント境界まで引き続きCCL値を求める。
【0055】
図4に「富士山は日本で一番高い山です。」をTri−Phone合成単位で示し、このうち、一番目のアクセント句の四番目の音素である[i0]の候補1乃至3に対してそれぞれのCCL値を求める方法が図示されている。合成しようとするアクセント句AP1は、8つの音素からなっており、候補1(Candidate 1)のCCL値が8で、合成しようとするアクセント句のAP1の音素列と完全に一致することを示している。
【0056】
図5は、本発明による事前選択方法であるアクセント句マッチングの流れ図が図示されている。先ず、S1乃至S3は抑揚句全体が一致する候補があるかどうかを見付ける過程で、S4乃至S6はアクセント句全体が一致する候補があるかどうかを探す過程であり、比較する範囲のみ異なるだけで、方法は同一である。
【0057】
先ず、抑揚句全体の一致する候補が存在するかどうかを見付けるため、合成しようとする文章とデータベースに保存されている候補を抑揚句の範囲にCCL値を計算し(S1)、CCL値が大きい順に候補を整列する(S2)。整列された候補のうち最も大きなCCL値を有する候補の音素列が、合成しようとする抑揚句全体の音素列と一致するかどうかを判断し(S3)、もし、抑揚句全体の音素列が一致すれば、最大のCCL値を有する候補のみ残すことで、事前選択過程は終了する。
【0058】
しかし、もし抑揚句全体の音素列が一致しなければ、事前選択過程は、アクセント句が一致するかどうかを比較する次の過程へ進む。再度アクセント句の範囲に対して各候補のCCL値が計算され(S4)、CCL値が大きな順に候補を整列した後(S5)、整列された候補のうち最も大きなCCL値を有する候補の音素列が、合成しようとするアクセント句全体の音素列と一致するかどうかを判断し(S6)、アクセント句(AP)全体が一致する候補が存在すれば、最大のCCL値を有する候補のみ残すことで、事前選択過程は終了し得る。
【0059】
しかし、上記に説明したように、アクセント句境界が、独立したアクセント句境界(APB2)でない場合、互いに相関関係が存在し得るため、独立したアクセント句境界であるかどうかを判断して(S7)、もし独立したアクセント句境界である場合にのみ、最大のCCL値を有するn個の候補のみ残すことで、事前選択過程を終了するのが好ましい。
【0060】
もし、S6でアクセント句全体が一致する候補が存在しなかったり、S7で独立したアクセント句境界でなければ、S9でピッチ、持続時間等の韻律情報を考慮し、目標音素に対する候補の類似度を計算し、類似度が大きいN個(予め決められた数)の候補を選択する。このとき、CCL値で候補の加重値を計算し(S8)、計算された加重値を上記類似度の判断に反映するのが好ましい。
【0061】
もし、S3またはS7の抑揚句またはアクセント句全体の音素列が一致する候補の数が、予め決定された最大候補の数のNを超える場合、S9のような類似度計算をして、N個の候補のみが残るようすることができ、このように事前選択された候補のみを最適の合成単位の選択過程に使用することになる。
【0062】
上記のように、本発明による音声合成システムは、音声DBで最適の合成単位を選択する前に、データベースに保存されている候補のうちから、最適の合成単位の選択に使用される候補を事前選択することにより、最適の合成単位を選択するための計算量と所要時間を画期的に減らすことができる。
【0063】
また、音声合成をしようとする文章と音声DBに保存された文章(候補)をアクセント句単位でマッチングすることにより、抑揚句単位でマッチングするときより最適の候補を容易に選択できるのみならず、それぞれの抑揚句が一致する候補の該当抑揚句を構成する合成単位を連結することにより、抑揚句全体が一致する場合と同様に高い音質の合成音を作ることができる。
【0064】
更に、CCL値を用いて合成単位選択に用いられた候補を事前選択することにより、最適の候補が音声合成過程から除外されることを防止することができる。
【図面の簡単な説明】
【0065】
【図1】従来のコーパス基盤音声合成システムに対するシステム構成図である。
【図2】音声の抑揚句(IP)とアクセント句(AP)を示す図である。
【図3】本発明の一実施形態による音声合成システムのシステム構成図である。
【図4】本発明の一実施形態によるアクセント句の分離と連結された音素列の最大長(CCL)検出方法を示す図である。
【図5】アクセント句マッチング方法を用いた事前選択順序図である。
【符号の説明】
【0066】
110、210 文章入力部
120、220 言語学的処理部
121、221 Text前処理モジュール
122、222 文章分析モジュール
123 発音表記変換モジュール
130、230 韻律処理部
140、250 音声信号処理部
141、251 合成単位選択モジュール
142、252 韻律調節モジュール
143、253 音声波形生成モジュール
144、254 音色制御モジュール
150、260 音声出力部
161、261 数字/略語/記号辞典
162、262 品詞辞典
163 発音辞典
164、264 音声DB(データベース)
223 表記変換モジュール
240 事前選択処理部
241 分析/計算モジュール
242 事前選択モジュール
263 発音/アクセント辞典

【特許請求の範囲】
【請求項1】
入力された日本語文章を音声合成する方法において、
入力された文章の音素に対する発音及びアクセント情報を含む記号に変換し、
上記記号のアクセント情報を用いて上記入力された文章のアクセント句を区分し、
上記区分されたアクセント句を基準に音声データベースに予め保存された文章を比較して類似する文章を候補として事前選択し、そして、
上記事前選択された文章のみを用いて音声合成する
ステップを含んでなることを特徴とする日本語音声合成方法。
【請求項2】
上記記号は、子音の場合、音素に対する発音記号のみを表記し、母音の場合、音素に対する発音記号と低音である単音、高音である単音、低音が次にくる高音、低音である長音、高音である長音、低音から高音に変わる長音、及び高音から低音に変わる長音の7つで区分されるアクセント情報を示す記号を共に表記することを特徴とする請求項1に記載の日本語音声合成方法。
【請求項3】
上記アクセント句を区分するステップは、
上記入力された文章で同一の単語の音素と音素の間を示す休止期0、同一のアクセント句に含まれる単語の間を示す休止期1、互いに異なるアクセント句に含まれる単語の間を示す休止期2、抑揚句や文章の終りを示す休止期3に分けられる休止期情報を把握し、そして
休止期2が示されるところは、アクセント句境界、休止期3が示されるところを抑揚句境界と決定する、
ステップを含んでなることを特徴とする請求項2に記載の日本語音声合成方法。
【請求項4】
上記休止期1と休止期2は、
前単語の最後のアクセントが低音で、前単語の残りのアクセントのうち高音がない場合を休止期1、
前単語の最後のアクセントが低音で、前単語の残りのアクセントのうち高音があり、後単語のアクセントのうち高音がない場合を休止期1、
前単語の最後のアクセントが低音で、前単語の残りのアクセントのうち高音があり、後単語のアクセントのうち高音がある場合を休止期2、
前単語の最後のアクセントが高音で、後単語の最初のアクセントが高音である場合を休止期1、
前単語の最後のアクセントが高音で、後単語の最初のアクセントが低音で、後単語の残りのアクセントのうち高音が表れない場合を休止期1、そして、
前単語の最後のアクセントが高音で、後単語の最初のアクセントが低音で、後単語の残りのアクセントのうち高音が表れる場合を休止期2、
と決定することを特徴とする請求項3に記載の日本語音声合成方法。
【請求項5】
上記休止期2は、単語と単語の間にポーズが存在する休止期2−1とポーズが存在しない休止期2−2に更に区分することができ、休止期2−1が示されるところを依存的アクセント句境界、休止期2−2と3が示されるところを独立的アクセント句境界と決定するステップを更に含み、上記事前選択過程で独立したアクセント句境界を有するアクセント句は、抑揚句と同一に処理することを特徴とする請求項3に記載の日本語音声合成方法。
【請求項6】
上記事前選択ステップは、上記音声データベースに上記入力された文章と抑揚句全体が同一の文章があれば、抑揚句全体が一致する文章のみを選択するステップ、
もし、抑揚句全体が一致する文章がなく、それぞれのアクセント句全体が一致する文章があれば、アクセント句が一致する文章のみを選択するステップ、そして
もし、それぞれのアクセント句が一致する文章が存在しなければ、アクセント句単位で音素に対する類似度を計算し、類似度が大きな順に予め決定された数であるN個の文章を選択するステップ、
を含んでなり、上記類似度は韻律情報を考慮して計算されることを特徴とする請求項1乃至5のうち何れか一項に記載の日本語音声合成方法。
【請求項7】
上記抑揚句またはアクセント句が一致する文章が存在するかどうかは、合成しようとする音素の前後の音素列と音声データベースに保存された文章の前後の音素列を比較して一致する音素列の最大長さを示すCCL値を計算して決定し、上記音素に対する類似度を計算することにおいて、CCL値が大きい文章に加重値を付与することを特徴とする請求項6に記載の日本語音声合成方法。
【請求項8】
上記アクセント句が一致する文章を選択するステップの次に選択された文章のアクセント句が、独立したアクセント句境界であるかどうかを判断するステップを更に含み、もし、独立したアクセント句境界でなければ、アクセント句が一致する文章が存在しない場合と同様に、事前選択することを特徴とする請求項7に記載の日本語音声合成方法。
【請求項9】
入力された文章に含まれた数字、記号、特殊文字をテキストに変換するテキスト前処理モジュール、テキスト前処理された文章の品詞を分析する文章分析モジュール、文章分析された文章をアクセントが含まれた発音記号で表記変換する表記変換モジュールを含む言語学的処理部、
入力された文章の韻律情報を処理する韻律処理部、
上記表記変換モジュールによって処理された入力文章の表記を用いて、入力された文章の抑揚句及びアクセント句を分析し、一致する音素列の最大長さ(CCL)を計算する分析/計算モジュール、及びアクセント句マッチングを用いて、合成単位選択過程に用いられる候補を事前選択する事前選択モジュールを含む事前選択処理部、及び
上記事前選択された候補のみを用いて入力された文章の音声合成に用いられる合成単位を選択する合成単位選択モジュール、上記韻律処理部による情報を用いて選択された合成単位の韻律を調節する韻律調節モジュール、韻律が調節された合成単位を連結して合成音を作る音声波形生成モジュール、及び上記合成音の音色を調節する音色制御モジュールを含む音声信号処理部、
を含んでなることを特徴とする音声合成システム。
【請求項10】
上記音声合成システムは、請求項1乃至9のうち何れか一項による音声合成方法を用いて入力された文章の合成音を生成することを特徴とする請求項9に記載の音声合成システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2008−46636(P2008−46636A)
【公開日】平成20年2月28日(2008.2.28)
【国際特許分類】
【出願番号】特願2007−208246(P2007−208246)
【出願日】平成19年8月9日(2007.8.9)
【出願人】(000000527)ペンタックス株式会社 (1,878)
【出願人】(501354211)ボイスウェア カンパニー リミテッド (4)
【住所又は居所原語表記】10th Fl,SAMHWAN Digital Venture Tower,Sungsu−Dong 2−Ga,280−13,SungDong−Gu,Seoul,133−120,Korea