音響再生装置

【課題】音響データの再生に応じて、特定の効果を発生させる。
【解決手段】本発明の音響再生装置は、音響データの再生に応じて、効果を発生する音響再生装置であって、任意の音響データにおける印象またはタイミングを表す音響表現を取得する音響解析部３０−１と、前記取得した音響表現に応じた効果を任意の出力に付与する効果付与部３０−３と、前記音響データおよび前記効果を付与した出力を再生するディスプレイ１０と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音響データの再生に応じて、特定の効果を発生する音響再生装置に関する。
【背景技術】
【０００２】
従来から、写真などの画像を閲覧するために、アルバムやデジタルフォトフレームが用いられている。また、ユーザが好みの音楽を再生しながら、画面に写真を表示する技術も提案されている。例えば、特許文献１には、変化に富む多様な音楽表現の楽曲を生成するとともに、楽曲の演奏時間を自由に変更し、時間的に変化する各種の事象に対応した楽曲の生成を行なう技術が開示されている。この技術では、電話番号、名前、スケジュールなどのデータや情報に基づいて音楽を生成し、音楽データに埋め込まれたイベントデータによって映像を変化させて再生する。具体的には、メロディ（主旋律）についてはメロディフレーズテーブルが用意されており、メロディ以外のジャンルやテンポ、キーなどについては、アレンジメント（伴奏）テーブルが用意されている。メロディフレーズテーブルから電話番号などに対応して選択した複数のメロディフレーズと、所望のアレンジメント要素とを拡張フレーズを用いながら合成することで、音楽表現の豊かな楽曲を生成する。
【０００３】
また、特許文献２には、再生リストファイルを含むデータ構造が提案されており、静止画像とオーディオデータを共にスライドショーとして再生する。この技術では、記録媒体に記録される再生リストファイルは、静止画像とオーディオデータを共にスライドショーとして再生するためのナビゲーション情報を有する再生リストファイルを含む。このナビゲーション情報は、静止画像のプレゼンテーションとオーディオデータの再生とを同期させるために静止画像と、オーディオデータとを関連付ける。さらに、ナビゲーション情報は、オーディオデータの再生が静止画像のプレゼンテーションとは独立して行なわれるようにするために静止画像とオーディオデータとを関連付けている。
【０００４】
また、特許文献３には、音楽に対する印象に対応する画像を自動で選択しつつ、ユーザの好みに調整された画像を表示する技術が開示されている。この技術では、音楽の印象と画像の印象を自動で判定し、この判定に従って、音楽を再生する際の画像を自動で選択して表示する。具体的には、音楽を再生する際に、予め記憶されている音楽の印象を取得し、その音楽の印象に対応する印象を有する画像を、選択して画像表示部に表示する。このように選択され、画像表示部に表示している画像に対して加えられた使用者の操作情報を記憶し、画像を選択する際に反映する。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００５−３５２４２５号公報
【特許文献２】特表２００５−５３８４８１号公報
【特許文献３】特開２０１０−２１０７４６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、特許文献１に開示されている技術では、イベントデータを音楽データに埋め込む必要があるため、音楽データを完成途中や完成状態ではなく、初めから生成する場合に限られてしまう。このため、利用者が手間を省きたい場合や好みの音楽を再生したい場合などのように、既存の音楽を再生する場合は、この技術を使うことができない。
【０００７】
また、特許文献２に開示されている技術では、ナビゲーション情報を用いるが、この情報は、利用者またはシステムが予め指定しておく必要がある。さらに、ナビゲーション情報は、静止制御毎に指定しなければならないため、その作業は膨大な量になってしまう。また、特許文献３に開示されている技術では、音楽の印象語が楽曲単位で割り当てられており、同一楽曲では異なる印象を連続的に表示することは困難である。一方、印象の異なる画像を連続的に表示する場合は、画像毎に楽曲を切り替えなければならないという課題がある。
【０００８】
本発明は、このような事情に鑑みてなされたものであり、音響データの再生に応じて、特定の効果を発生させることができる音響再生装置を提供することを目的とする。
【課題を解決するための手段】
【０００９】
（１）上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の音響再生装置は、音響データの再生に応じて、効果を発生する音響再生装置であって、任意の音響データにおける印象またはタイミングを表す音響表現を取得する表現取得部と、前記取得した音響表現に応じた効果を任意の出力に付与する効果付与部と、前記音響データおよび前記効果を付与した出力を再生する効果再生部と、を備えることを特徴とする。
【００１０】
このように、任意の音響データにおける印象またはタイミングを表す音響表現を取得し、前記取得した音響表現に応じた効果を任意の出力に付与し、前記音響データおよび前記効果を付与した出力を再生するので、市販の音楽などの既存の音響コンテンツを利用することができ、また、音響表現に応じた効果を出力するので、効果を付与するための作業をする必要がなくなる。
【００１１】
（２）また、本発明の音響再生装置において、前記効果付与部は、前記取得した音響表現に応じた視覚効果を画像に付与し、前記効果再生部は、前記音響データおよび前記視覚効果を付与した画像を再生することを特徴とする。
【００１２】
このように、取得した音響表現に応じた視覚効果を画像に付与し、音響データおよび視覚効果を付与した画像を再生するので、市販の音楽などの既存の音響コンテンツを利用することができ、また、音響表現に応じた視覚効果を出力するので、効果を付与するための作業をする必要がなくなる。さらに、同一楽曲内の局所的な変化に応じて効果を付与することによって、楽曲を切り替えることなく印象の異なる画像を連続的に表現することが可能となる。
【００１３】
（３）また、本発明の音響再生装置において、前記表現取得部は、音階を示す情報または分散和音を示す情報を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または前記同期情報における音響表現を抽出する表現抽出部を備えることを特徴とする。
【００１４】
このように、音階を示す情報または分散和音を示す情報を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または前記同期情報における音響表現を抽出するので、既存の音響データから音響表現を出力することが可能となる。例えば、市販の音楽データなどの既存の音響コンテンツを利用することができる。
【００１５】
（４）また、本発明の音響再生装置は、任意の音響データを読み取り、前記音響データにおける任意の音響特徴量を解析し、前記音響特徴量に基づいて、前記音型情報または前記同期情報を抽出する音響解析部を備えることを特徴とする。
【００１６】
このように、任意の音響データを読み取り、前記音響データにおける任意の音響特徴量を解析し、前記音響特徴量に基づいて、前記音型情報または前記同期情報を抽出するので、入力し得るあらゆる音響データを対象とし、音響表現を得ることが可能となる。
【００１７】
（５）また、本発明の音響再生装置は、前記音型情報または前記同期情報が記録された媒体を計算機またはスキャナで読み取り、前記音型情報または前記同期情報を抽出する音響解析部、を備えることを特徴とする。
【００１８】
このように、音型情報または前記同期情報が記録された媒体を計算機またはスキャナで読み取り、前記音型情報または前記同期情報を抽出するので、信号化できるあらゆる音響データを対象とし、音響表現を得ることが可能となる。
【００１９】
（６）また、本発明の音響再生装置において、前記効果再生部は、前記音響データを再生し、前記視覚効果を付与した画像を画面に表示することを特徴とする。
【００２０】
このように、音響データを再生し、視覚効果を付与した画像を画面に表示するので、音響データを視覚的に表現することが可能となる。この場合、音響表現を示すデータを自動的に出力するので、ユーザは予め作業をする必要はない。
【００２１】
（７）また、本発明の音響再生装置において、前記音響データは、コンピュータファイル、光学メディア、または磁気メディアのいずれかであることを特徴とする。
【００２２】
このように、音響データは、コンピュータファイル、光学メディア、または磁気メディアのいずれかであるので、あらゆる音響データを対象とし、音響表現を得ることが可能となる。
【００２３】
（８）また、本発明の音響再生装置において、前記媒体は、ＭＩＤＩ、楽譜、または歌詞のいずれかであることを特徴とする。
【００２４】
このように、媒体は、ＭＩＤＩ、楽譜、または歌詞のいずれかであるので、あらゆるオーディオデータを対象とし、音響表現を得ることが可能となる。
【００２５】
（９）また、本発明の音響再生装置において、前記画面は、スクリーン、ディスプレイ、テレビ、ビルの壁面、窓、ガラス、鏡、またはパネルのいずれかであることを特徴とする。
【００２６】
このように、画面は、スクリーン、ディスプレイ、テレビ、ビルの壁面、窓、ガラス、鏡、またはパネルのいずれかであるので、あらゆる画面に音響表現を表示することが可能となる。また、音響データの再生に合わせて音響表現を自動的に付与することによって、予め作業は必要としない。さらに、同一楽曲内の局所的な変化に応じて音響表現を付与すれば、楽曲を切り替えることなく、印象の異なる音響表現を表示することが可能である。
【発明の効果】
【００２７】
本発明によれば、任意の音響データにおける印象またはタイミングを表す音響表現を取得し、前記取得した音響表現に応じた効果を任意の出力に付与し、前記音響データおよび前記効果を付与した出力を再生するので、市販の音楽などの既存の音響コンテンツを利用することができ、また、音響表現に応じた効果を出力するので、効果を付与するための作業をする必要がなくなる。
【図面の簡単な説明】
【００２８】
【図１】本実施形態に係るマルチメディアシステムの概略構成を示す図である。
【図２】本実施形態に係るマルチメディアシステム１の機能を示すブロック図である。
【図３】本実施形態に係るマルチメディアシステム１の動作を示すフローチャートである。
【発明を実施するための形態】
【００２９】
本発明の実施形態に係る音響再生装置は、入力される音楽データから音響特徴量を解析し、解析した音響特徴量における任意時間内の変化に基づいて、音楽の表現を抽出する。そして、抽出した表現に応じた視覚効果を入力される写真データに付与し、視覚効果を付与した写真データをディスプレイに表示する。この構成により、市販の音楽などの既存の音楽コンテンツを利用することが可能となる。また、音楽データの再生に合わせて視覚効果を自動的に画像に付与するので、効果付与のための作業を予めする必要がない。さらに、同一楽曲内の局所的な変化に応じて視覚効果を付与することによって、楽曲を切り替えることなく、印象の異なる画像を連続的に表示することが可能となる。以下、本発明に係る音響再生装置を、マルチメディアシステムに適用した例を説明する。
【００３０】
本発明の実施形態に係るマルチメディアシステムでは、入力として、画像を利用する。画像とは、動画・静止画のいずれをも含む概念である。本実施形態では、写真データを利用する例を説明するが、本発明は、写真データに限定されるわけではない。
【００３１】
本発明の実施形態に係るマルチメディアシステムでは、入力として、音響信号を利用する。音響信号とは、いずれの音波を含む概念であるが、好ましくは、音楽データを利用する。本実施形態では、一例として、音楽データを用いた例を示すが、本発明の技術的思想は、音楽データに限定されるわけではない。さらに、本発明の実施形態に係るマルチメディアシステムでは、入力される音楽データの音響特徴量の解析にｓｐｅｃｍｕｒｔ法を利用する。本明細書では、一例として、ｓｐｅｃｍｕｒｔ法を示すが、本発明の技術的思想は、ｓｐｅｃｍｕｒｔ法に限定されるわけではない。
【００３２】
図１は、本実施形態に係るマルチメディアシステムの概略構成を示す図である。図１に示すように、マルチメディアシステムは、ディスプレイ１０と、スピーカ２０ａ、２０ｂと、ＰＣ（Personal Computer）３０と、から構成されている。図１では、２つのスピーカ２０ａ、２０ｂが、ディスプレイ１０の両脇に設けられている。また、ＰＣ３０には、写真データ４０と音楽データ５０が入力される。
【００３３】
ＰＣ３０は、ケーブル３０ａを介して映写装置としてのディスプレイ１０に接続されている。また、ＰＣ３０は、ケーブル３０ｂを介して音響装置としてのスピーカ２０に接続されている。ＰＣ３０は、入力される音楽データ５０から音響特徴量を解析し、解析した音響特徴量における任意時間内の変化に基づいて音楽の表現を抽出する。この抽出した表現に応じた視覚効果を、入力される写真データ４０に付与する。そして、ＰＣ３０は、視覚効果を付与した写真データ４０の画像信号をディスプレイ１０に発信すると共に、音楽データ５０の音響信号をスピーカ２０に発信する。その際、ＰＣ３０において視覚効果が付与された写真データ４０はディスプレイ１０にＡ１として映写され、音楽データ５０はスピーカ２０からＡ２として放射される。
【００３４】
図２は、本実施形態に係るマルチメディアシステム１の機能を示すブロック図である。ＰＣ３０の音響解析部３０−１は、入力される音楽データ５０から音響特徴量を解析する。また、ＰＣ３０の表現抽出部３０−２は、音響解析部３０−１が解析した音響特徴量における任意時間内の変化に基づいて音楽の表現を抽出する。さらに、ＰＣ３０の効果付与部３０−３は、表現抽出部３０−２が抽出した表現に応じた視覚効果を写真データ４０に付与する。その他の構成については、図１で説明したとおりであるため、説明を省略する。
【００３５】
図３は、本実施形態に係るマルチメディアシステム１の動作を示すフローチャートである。初めに、ＰＣ３０に、写真データ４０と音楽データ５０を入力する（ステップＳ１）。次に、ＰＣ３０において、入力された音楽データ５０の対数周波数スペクトルを獲得する（ステップＳ２）。まず、時刻ｔにおける音楽データ５０の入力信号をＩ（ｔ）とする時、式（１）に基づいて、帯域ｘのサブバンド信号Ｂｘ（ｔ）を算出する。
【００３６】
【数１】

式（１）において、ｇｔ（ｔ）はガンマトーンフィルタのインパルス応答、Ｓ_ｎはスケールパラメータである。ここで、中心周波数ｆ_ｃＨｚのガンマトーンフィルタのインパルス応答は、式（２）で与えられる。
【００３７】
【数２】

式（２）において、ｎはフィルタの次元数でｂはインパルス応答の長さ、つまりフィルタのバンド幅に関係するパラメータである。人間の聴覚フィルタを想定した場合、ｎ＝４、ｂ＝１．０１９ＥＲＢ（ｆ_ｃ）とすれば良い。ただし，ＥＲＢ（ｆ_ｃ）は中心周波数がｆ_ｃＨｚである等価方形幅（ＥＲＢ：Equivalent Rectangular Bandwidth）を表しており、式（３）で算出される。
【００３８】
【数３】

以上のように、算出されたサブバンド信号Ｂ_ｘ（ｔ）から、式（４）で示される対数周波数スペクトルｖ_ｔ（ｘ）を得る。
【００３９】
【数４】

次に、ＰＣ３０において、入力された音楽データ５０の共通調波構造パターンを獲得する（ステップＳ３）。まず、単一音の性質として、その基本周波数に依らず対数周波数軸上の倍音の強度の比のパターンは一定であると仮定する。これを共通調波構造パターンと呼び、対数基本周波数を原点に取ってｈ_ｔ（ｘ）と表すことにする。モノラル音楽音響信号の場合、ｈ_ｔ（ｘ）は周波数に反比例するので、式（５）で表わすことができる。
【００４０】
【数５】

ここで、ｈ_ｔ（ｘ）は基本周波数に相当する位置を原点とし、基本波成分エネルギーを１（ｈ_ｔ（０）＝１）とする。一方、異なる基本周波数の単一音ｘ_α、ｘ_βが重畳した多重音の場合は、対数周波数軸上にこれら異なる基本周波数の対数の位置ごとにｈ_ｔ（ｘ）を配置すれば、式（６）で示すように、それらの和がそのスペクトルになる。
【００４１】
【数６】

また、構成音の強度（エネルギー）が異なるならば、強度ｐ係数として、式（７）に示すように、ｈ_ｔ（ｘ）に乗ずる。
【００４２】
【数７】

次に、ＰＣ３０において、フーリエ変換を実行し、入力された音楽データ５０の基本周波数分布を算出する（ステップＳ４）。まず、得られた対数周波数スペクトルｖ_ｔ（ｘ）を、式（８）に示すように、逆フーリエ変換して、Ｖ（ｙ）を算出する。
【００４３】
【数８】

一方、得られた共通調波構造パターンｈ_ｔ（ｘ）を逆フーリエ変換して、Ｈ（ｙ）を得る。
【００４４】
【数９】

ここで、Ｖ（ｙ）、Ｈ（ｙ）をｙ領域で除算をし、逆畳み込み演算を行なえば、入力された音楽データ５０の基本周波数分布が得られる。入力された音楽データ５０の基本周波数分布をｕ_ｔ（ｘ）とすると、式（１０）で表わすことができる。
【００４５】
【数１０】

次に、ＰＣ３０において、入力された音楽データ５０の基本周波数を解析する（ステップＳ５）。まず、算出された基本周波数分布ｕ_ｔ（ｘ）の最大値Ｏ_ｔを、式（１１）に示すように、算出する。
【００４６】
【数１１】

ここで、最大値Ｏ_ｔを取るｘをｘ_ｔとし、ｘ_ｔを時刻ｔにおける音楽データ５０の基本周波数とする。
【００４７】
次に、ＰＣ３０において、任意の時間内における入力された音楽データ５０の表現を抽出する（ステップＳ６）。本実施形態では、一例として、一定時間内における基本周波数列を示す。ただし、本発明の技術的思想は、これに限定されるわけではない。ここで、時刻ｔ_１から時刻ｔ_ｎまでの基本周波数列Ｘとする。
【００４８】
【数１２】

そして、例えば、無音を示す式（１３）が得られれば、音楽データ５０の表現として「無し」を抽出する。
【００４９】
【数１３】

また、開始を示す式（１４）が得られれば、音楽データ５０の表現として「挿入」を抽出する。
【００５０】
【数１４】

また、終了を示す式（１５）が得られれば、音楽データ５０の表現として「削除」を抽出する。
【００５１】
【数１５】

また、長音を示す式（１６）が得られれば、音楽データ５０の表現として「静止」を抽出する。
【００５２】
【数１６】

また、上昇を示す式（１７）が得られれば、音楽データ５０の表現として「拡大」を抽出する。
【００５３】
【数１７】

また、下降を示す式（１８）が得られれば、音楽データ５０の表現として「縮小」を抽出する。
【００５４】
【数１８】

また、繰返を示す式（１９）が得られれば、音楽データ５０の表現として「回転」を抽出する。
【００５５】
【数１９】

また、θ_ＨＨｚより高音を示す式（２０）が得られれば、音楽データ５０の表現として「遠方」を抽出する。
【００５６】
【数２０】

また、θ_ＬＨｚより低音を示す式（２１）が得られれば、音楽データ５０の表現として「近接」を抽出する。
【００５７】
【数２１】

また、短音を示す式（２２）が得られれば、音楽データ５０の表現として「軽快」を抽出する。
【００５８】
【数２２】

次に、ＰＣ３０において、抽出された音楽表現に応じた視覚効果を写真データ４０に付与する（ステップＳ７）。本実施形態では、一例として、対応ルールに基づく効果付与を示すが、本発明の技術的思想は、これに限定されるわけではない。例えば、
「無し」が抽出されれば「写真を非表示」、
「挿入」が抽出されれば「フェードしながら写真を表示」、
「削除」が抽出されれば「フェードしながら写真を非表示」、
「静止」が抽出されれば「写真を非遷移」、
「拡大」が抽出されれば「ズームインしながら写真を表示」、
「縮小」が抽出されれば「ズームアウトしながら写真を表示」、
「回転」が抽出されれば「回転しながら写真を表示」、
「遠方」が抽出されれば「サイズを小さくして写真を表示」、
「近接」が抽出されれば「サイズを大きくして写真を表示」、
「軽快」が抽出されれば「上下左右に揺らしながら写真を表示」、
等である。そして、抽出された音楽表現に対応する視覚効果を写真データ４０に順次付与する。
【００５９】
最後に、視覚効果を付与した写真データ４０をディスプレイ１０に映写すると共に、音楽データ５０をスピーカ２０から放射する（ステップＳ８）。
【００６０】
このように、本実施形態によれば、ＰＣ３０に入力される音楽データ５０の基本周波数を解析し、一定時間内における基本周波数列を入力された音楽データ５０の表現として抽出する。そして、抽出した表現に応じた視覚効果を入力される写真データ４０に付与し、視覚効果を付与した写真データ４０をディスプレイ１０に映写すると共に、音楽データ５０をスピーカ２０ａ、２０ｂから放射する。これにより、本実施形態では、市販の音楽など既存の音楽コンテンツを利用できる。また、本実施形態では、音楽データ５０の再生に合わせて視覚効果を自動的に写真データ４０に付与するので、効果付与のために予め作業は必要としない。さらに、音楽データ５０内の局所的な変化に応じて視覚効果を付与するので、楽曲を切り替えることなく、印象の異なる画像を連続的に表示することが可能となる。
【００６１】
以上説明したように、本実施形態によれば、任意の音響信号から音響特徴量を解析し、解析した音響特徴量における任意時間内の変化に基づいて音響の表現を抽出し、抽出した表現に応じた視覚効果を画像に付与し、視覚効果を付与した画像を画面に映写するので、市販の音楽など既存の音響コンテンツを利用できる。また、音響信号の再生に合わせて視覚効果を自動的に付与するので、効果付与のために予め作業は必要としない。さらに、同一楽曲内の局所的な変化に応じて視覚効果を付与すれば、楽曲を切り替えることなく、印象の異なる画像を連続的に表示することが可能である。
【符号の説明】
【００６２】
１０ディスプレイ
２０ａスピーカ
２０ｂスピーカ
２０スピーカ
３０ＰＣ
３０−１音響解析部
３０−２表現抽出部
３０−３効果付与部
３０ａケーブル
３０ｂケーブル
４０写真データ
５０音楽データ

【特許請求の範囲】
【請求項１】
音響データの再生に応じて、効果を発生する音響再生装置であって、
任意の音響データにおける印象またはタイミングを表す音響表現を取得する表現取得部と、
前記取得した音響表現に応じた効果を任意の出力に付与する効果付与部と、
前記音響データおよび前記効果を付与した出力を再生する効果再生部と、を備えることを特徴とする音響再生装置。
【請求項２】
前記効果付与部は、前記取得した音響表現に応じた視覚効果を画像に付与し、
前記効果再生部は、前記音響データおよび前記視覚効果を付与した画像を再生することを特徴とする請求項１記載の音響再生装置。
【請求項３】
前記表現取得部は、音階を示す情報または分散和音を示す情報を含む任意の音型情報、または、音圧レベルを示す情報またはビート位置を示す情報を含む任意の同期情報における所定時間の変化に基づいて、前記音型情報または前記同期情報における音響表現を抽出する表現抽出部を備えることを特徴とする請求項１または請求項２記載の音響再生装置。
【請求項４】
任意の音響データを読み取り、前記音響データにおける任意の音響特徴量を解析し、前記音響特徴量に基づいて、前記音型情報または前記同期情報を抽出する音響解析部を備えることを特徴とする請求項３記載の音響再生装置。
【請求項５】
前記音型情報または前記同期情報が記録された媒体を計算機またはスキャナで読み取り、前記音型情報または前記同期情報を抽出する音響解析部、を備えることを特徴とする請求項３記載の音響再生装置。
【請求項６】
前記効果再生部は、前記音響データを再生し、前記視覚効果を付与した画像を画面に表示することを特徴とする請求項２記載の音響再生装置。
【請求項７】
前記音響データは、コンピュータファイル、光学メディア、または磁気メディアのいずれかであることを特徴とする請求項１から請求項４のいずれかに記載の音響再生装置。
【請求項８】
前記媒体は、ＭＩＤＩ、楽譜、または歌詞のいずれかであることを特徴とする請求項５記載の音響再生装置。
【請求項９】
前記画面は、スクリーン、ディスプレイ、テレビ、ビルの壁面、窓、ガラス、鏡、またはパネルのいずれかであることを特徴とする請求項７記載の音響再生装置。

【図１】