再生機器、その再生方法およびプログラム

【課題】視覚データと音声データとを組み合わせて視聴できるとともに、その切り替え精度を向上させた再生装置を提供する。
【解決手段】１または複数の視覚データを保持する視覚データベース８と、視覚データの所定部分を規定する部分データと、音声データを保持する音声データベース９と、所定部分に対応するフレーズを規定するフレーズデータと、選択された視覚データおよび音声データをそれぞれ再生するよう制御する制御部６と、を具備し、制御部６は、所定部分が選択された場合には、選択された所定部分に対応するフレーズから選択された音声データを再生する再生装置１，３０，６０，９０としている。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、視覚データと音声データとを組み合わせて視聴可能な再生機器、その再生方法およびプログラムに関する。
【背景技術】
【０００２】
動画あるいは静止画等の視覚データと、それに対応する音声データとを組み合わせて視聴する場合がある。たとえば、楽譜を見ながら演奏を聴く、資料を見ながら講演の音声を聞く、あるいは語学テキストを見ながら音声を聞く際等に、視覚データと音声データとを組み合わせて視聴することがある。
【０００３】
また、視覚データと音声データとを組み合わせて視聴する場合には、１つの視覚データに対して複数の音声データを切り替えながら視聴したい（たとえば、オーケストラの楽譜を見ながら、オーケストラの音声から各楽器別に演奏された音声に切り替えたい）場合がある。逆に、１つの音声データに対して複数の視覚データを切り替えながら視聴したい（たとえば、オーケストラの演奏を聴きながら、楽譜を全体譜から各楽器別の楽譜に切り替えたい）場合がある。しかしながら、従来は、視覚データと音声データとがひとつになっているため、視覚データのみあるいは音声データのみを変えることができないという問題がある。
【０００４】
そこで、視覚データと音声データとを組み合わせて視聴する方法であって、音声データに含まれている特徴点（たとえば、周波数や音量）を分析することにより、その特徴点を視覚データの切り替え基準点として、視覚データの当該特徴点にて切り替える技術が提案されている（たとえば、特許文献１参照。）。特許文献１の発明では、分析で得られた特徴点にて次の視覚データに切り替えることができる。よって、視覚データと音声データとを同期させることができる。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開平１１−６９２９０号公報（図１等）
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかし、特許文献１の発明は、周波数や音量等を切り替え基準点としているため、音声データに、こぶしをきかせるような音調等が含まれる場合等に特徴点を抽出できず、次の視覚データへ切り替えるタイミングの精度が低下するという問題が生じている。
【０００７】
そこで、本発明は、視覚データと音声データとを組み合わせて視聴できるとともに、その切り替え精度を向上させることを目的とする。
【課題を解決するための手段】
【０００８】
かかる目的を達成するため、本発明の再生装置の一側面は、動画像データ若しくは静止画データを１または複数の視覚データとして保持する視覚データベースと、その「所定部分」を規定する部分データと、音声データを１または複数保持する音声データベースと、その音声データベースにおいてその「所定部分」に対応するフレーズを規定するフレーズデータと、視覚データまたは音声データを選択する入力部と、選択された視覚データおよび音声データをそれぞれ再生するよう制御する制御部と、を具備し、制御部は、入力部により所定部分が選択された場合には、選択された所定部分に対応するフレーズから選択された音声データを再生するものである。
【０００９】
さらに、音声データベースは、複数の音声データを保持し、制御部は、音声データを再生中に、入力部により別の音声データが選択された場合には、音声データの再生中のフレーズに対応するフレーズから、その別の音声データを再生する再生装置であるのが好ましい場合もある。
【００１０】
さらに、視覚データベースは、複数の視覚データを複数保持し、制御部は、音声データを再生中に、入力部により別の視覚データが選択された場合には、音声データの再生中のフレーズに対応する部分データを有する別の視覚データを再生する再生装置であるのが好ましい場合もある。
【００１１】
さらに、前述の「所定部分」は、動画像または静止画の所定の位置、領域、文字、文字列、数字、記号の場合もある。
【００１２】
さらに、制御部は、再生中の前記フレーズに対応する所定部分を表示するカーソルを、視覚データと重ねて表示させる再生装置とするのが好ましい場合もある。
【００１３】
また、別の本発明の再生方法の一側面は、かかる目的を達成するため、本発明の再生装置の一側面は、動画像データ若しくは静止画データを１または複数の視覚データとして保持する視覚データベースと、その「所定部分」を規定する部分データと、音声データを１または複数保持する音声データベースと、その音声データベースにおいてその「所定部分」に対応するフレーズを規定するフレーズデータと、視覚データまたは音声データを選択する入力部と、選択された視覚データおよび音声データをそれぞれ再生するよう制御する制御部と、を具備する再生装置において、制御部が、入力部により所定部分が選択された場合には、選択された所定部分に対応するフレーズから、選択された音声データを再生するステップを有する。
【００１４】
さらに、音声データを再生中に、入力部により別の音声データが選択された場合には、制御部が、音声データの再生中の上記フレーズに対応するフレーズから別の音声データを再生するステップを有する再生方法が好ましい場合もある。
【００１５】
さらに、音声データを再生中に、入力部により別の視覚データが選択された場合には、制御部が、視覚データの再生中の部分データに対応する部分データを含む別の視覚データを再生するステップを有する再生方法が好ましい場合もある。
【００１６】
また、別の本発明のプログラムの一側面は、かかる目的を達成するため、本発明の再生装置の一側面は、動画像データ若しくは静止画データを１または複数の視覚データとして保持する視覚データベースと、その「所定部分」を規定する部分データと、音声データを１または複数保持する音声データベースと、その音声データベースにおいてその「所定部分」に対応するフレーズを規定するフレーズデータと、視覚データまたは音声データを選択する入力部と、選択された視覚データおよび音声データをそれぞれ再生する制御部と、を具備する再生装置において、所定部分に対応するフレーズから音声データを再生するステップをコンピュータに実行させる。
【００１７】
さらに、音声データを再生中に、入力部により別の音声データが選択された場合には、制御部が、音声データの再生中のフレーズに対応するフレーズから、その別の音声データを再生するステップをコンピュータに実行させるプログラムとするのが好ましい。
【００１８】
さらに、音声データを再生中に、入力部により別の視覚データが選択された場合には、制御部が、音声データの再生中のフレーズに対応するフレーズから別の視覚データを再生するステップをコンピュータに実行させるプログラムとするのが好ましい。
【発明の効果】
【００１９】
本発明によれば、視覚データと音声データとを組み合わせて視聴できるとともに、その切り替え精度を向上させた再生装置を提供できる。
【図面の簡単な説明】
【００２０】
【図１】本発明の第１の実施の形態に係る再生装置の構成の一例を示すブロック図である。
【図２】第１の実施の形態に係る再生機器の表示部における表示画面の一例を示す平面図である。
【図３】図２の表示部に表示された視覚データのＡ部分を拡大して示す拡大平面図である。
【図４】図３の視覚データにおける部分データのＸＭＬによる記述の一例を示す図である。
【図５】第１の実施の形態における音声データおよび別の音声データのフレーズの長さおよび構成を説明する説明図である。
【図６】図５の音声データにおけるフレーズデータのＸＭＬによる記述の一例を示す図である。
【図７】第１の実施の形態の再生機器において、視覚データ、部分データ、音声データおよびフレーズデータのひも付けするデータの一例を示すテキストデータである。
【図８】第１の実施の形態に係る再生装置の再生手順を示すフローチャートである。
【図９】第２の実施の形態に係る再生機器が有する視覚データにより表示される静止画を示す平面図である。
【図１０】第２の実施の形態に係る再生機器が有するフレーズデータのＣＳＶによる記述の一例を示す図である。
【図１１】第２の実施の形態に係る再生機器が有する部分データのＣＳＶによる記述の一例を示す図である。
【図１２】第２の実施の形態に係る再生機器が有する音声データのフレーズと時間との関係を示す説明図である。
【図１３】第３の実施の形態に係る再生機器が有する視覚データの表示例を示す平面図である。
【図１４】第３の実施の形態に係る再生機器が有する音声データのフレーズと、時間との関係を示す説明図である。
【図１５】第４の実施の形態に係る再生機器が有する音声データと、時間との関係を示す説明図である。
【発明を実施するための形態】
【００２１】
以下、本発明の各実施の形態に係る再生装置、再生方法、および再生プログラムについて説明する。
【００２２】
１．第１の実施の形態
（再生装置の構成）
図１は、本発明の第１の実施の形態に係る再生装置１の構成の一例を示すブロック図である。
【００２３】
図１に示すように、再生装置１は、記憶部２、入力部３、音声出力部４、表示部５および制御部６を主な構成要素としている。また、記憶部２、入力部３、音声出力部４および表示部５は、制御部６に接続されている。
【００２４】
記憶部２は、たとえば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）あるいはＳＳＤ（ＳｏｌｉｄＳｔａｔｅｄｒｉｖｅ）等で構成される。この記憶部２には、視覚データベース８および音声データベース９が格納されている。視覚データベース８には、１または複数の視覚データを格納可能であり、音声データベース９には、１または複数の音声データを格納可能である。
【００２５】
本明細書において「視覚データ」とは、動画像データあるいは静止画データ等の視覚用のデータをいう。視覚データとしては、たとえば、ＡＶＩ（ＡｕｄｉｏＶｉｄｅｏＩｎｔｅｒｌｅａｖｉｎｇ）形式やＭＯＶ形式の動画、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）形式やＧＩＦ（ＧｒａｐｈｉｃＩｎｔｅｒｃｈａｎｇｅＦｏｒｍａｔ）形式の静止画、地図データ、テキスト形式のファイルデータを用いることができる。各視覚データには、それぞれにファイル名が付され、そのファイル名により、それぞれの視覚データが識別される。また、視覚データは、動画や静止画等を出力するためのデータと、その動画や静止画等の所定部分を規定する部分データとを有している。部分データについては、後で詳述する。
【００２６】
本明細書において「音声データ」とは、音楽、音声あるいはその他聴覚用のデータをいう。音声データとしては、たとえば、ＷＡＶＥ形式やＡＩＦＦ（ＡｕｄｉｏＩｎｔｅｒｃｈａｎｇｅＦｉｌｅＦｏｒｍａｔ）形式のファイルデータを用いることができる。各音声データには、それぞれにファイル名が付され、そのファイル名により各音声データが識別される。音声データは、音声等を出力するためのデータと、音声を所定のフレーズに区切るためのフレーズデータとを有している。フレーズデータは、視覚データの部分データと対応している。フレーズデータについては、後で詳述する。
【００２７】
入力部３は、ユーザの操作に対応する情報を生成して、制御部６に当該情報を供給する入力デバイスである。入力部３は、ユーザが再生を所望する１または複数の視覚データ、および、１または複数の音声データのいずれか一方または両方を選択できる。また、入力部３により、ユーザは、視覚データまたは音声データの再生開始位置を選択できる。入力部３としては、たとえば、押しボタン等のメカニカルな入力部材を用いてもよい。また、入力部３は、視覚データと共に画面に表示されるカーソル、アイコンあるいは選択バー等を操作することにより、入力できるものであってもよい。また、たとえば、視覚データの表示に重ねられたタッチパネルを設けて、当該タッチパネルから情報を入力可能としてもよい。
【００２８】
音声出力部４は、制御部６より供給された音声データを、人間が聴覚により知覚できる音声等として出力する。具体的には、音声出力部４は、制御部６により供給された音声データをアナログの信号に変換し、その信号を増幅した後、スピーカ等により音声として出力する。
【００２９】
表示部５は、制御部６により供給された視覚データおよびその他のデータ等を、人間が視覚により知覚可能な映像として出力する。表示部５としては、たとえば、液晶ディスプレイを用いることができる。
【００３０】
制御部６は、演算部６ａ、記憶部６ｂおよび計時部６ｃを主に備え、それらが互いに接続されている。制御部６は、記憶部６ｂに格納されているプログラム等により、各部を制御する。演算部６ａとしては、たとえば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を用いることができる。記憶部６ｂは、演算部６ａが実行する基本的なプログラムを記憶すると共に、演算部６ａが実行対象とするプログラムまたはデータを一時的に格納することができる。記憶部６ｂは、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の半導体記憶装置によって構成される。計時部６ｃは、計時可能な手段により構成され、時刻あるいは時間を演算部６ａに供給する。
【００３１】
また、制御部６は、視覚効果処理部６ｄをさらに有していてもよい。視覚効果処理部６ｄは、記憶部６ｂ等に格納された視覚効果の設定データに従って、制御部６から供給された視覚データに映像効果を施す。ここで、映像効果とは、映像データの切替えの途中段階（トランジション）におけるフェードイン／フェードアウトやディゾルブ等のぼかし効果、静止画の大きさを変えるズーミングや静止画を左右方向（パン）または上下方向（チルト）に振る等の擬似的動画効果等であってもよい。映像効果によって、視覚データの切替え表示を自然に見えるようにし、また、静止画をあたかも動画のように表示することができる。また、視覚効果処理部６ｄは、制御部６から供給された視覚データに重畳して、いわゆるカーソル７ａの表示を行ってもよい。
【００３２】
図２は、第１の実施の形態に係る再生機器１の表示部５における表示画面の一例を示す平面図である。
【００３３】
図２の表示部５には、視覚データに基づく映像を表示するための表示領域７と、入力部３としての視覚データ選択アイコン３ａおよび音声データ選択アイコン３ｂが配置されている。また、表示領域７に重畳して、カーソル７ａが表示されている。
【００３４】
表示領域７は、視覚データに基づく映像を視聴するための領域である。視覚データ選択アイコン３ａは、表示領域７に表示させる視覚データを選択するためのアイコンである。図２においては、視覚データ選択アイコン３ａは、現在選択されている視覚データのファイル名と、選択可能な他の視覚データのファイル名を表示する。なお、視覚データ選択アイコン３ａは、入力部３の一部として機能してもよい。入力部３の一部として視覚データ選択アイコン３ａが機能する場合には、ポインティングデバイス等を介して、視覚データ選択アイコン３ａに表示されている所望のファイル名を選択することで、ユーザは、視覚データを選択できる。
【００３５】
音声データ選択アイコン３ｂは、音声出力部４から出力する音声データを選択するためのアイコンである。図２においては、音声データ選択アイコン３ｂは、現在選択されている音声データのファイル名と、選択可能な他の音声データのファイル名を表示する。なお、音声データ選択アイコン３ｂは、入力部３の一部として機能してもよい。入力部３の一部として音声データ選択アイコン３ｂが機能する場合、たとえば、ポインティングデバイス等を介して、音声データ選択アイコン３ｂに表示されている所望のファイル名を選択することで、ユーザは、音声データを選択できる。
【００３６】
（視覚データの構成）
図３は、図２の表示部５に表示された視覚データ１０のＡ部分を拡大して示す拡大平面図である。図４は、図３の視覚データ１０における部分データ１１のＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）による記述の一例を示す図である。
【００３７】
第１の実施の形態においては、再生装置１は、１つの視覚データ１０を保持している。また、視覚データ１０は、図４に示すようなメタデータにより記述された部分データ１１を有する。なお、本実施の形態では、部分データ１１は、視覚データ１０とは、別のファイルとされているが、視覚データ１０の一部に部分データ１１が記載されていてもよい。しかし、視覚データ１０と部分データ１１とが別ファイルとされていることで、視覚データ１０に改変を加えることなく本再生方法を実現できるためより好ましい。また、各データが単純化されることから、再生装置の動作が高速化するという利点も有する。
【００３８】
部分データ１１は、その視覚データ１０の所定の一部または全部を規定している。視覚データ１０が静止画の場合、部分データ１１が規定している「所定の一部」とは、静止画のある所定の領域であってもよい。また、視覚データ１０がテキストデータの場合、部分データ１１が規定する「所定の一部」とは、所定のテキストまたは所定のテキスト群であってもよい。視覚データ１０が楽譜の場合、部分データ１１が規定している「所定の一部」とは、規定の小節または所定の小節群であってもよいし、ユーザが任意に設定した長さのまとまりとしてもよい。また、視覚データ１０が動画の場合、部分データ１１が規定する「所定の一部」とは、再生開始からの相対的な所定の時刻で示される、所定の時間の動画部分であってもよい。
【００３９】
図３の範囲において、部分データ１１は、楽譜内の各小節を表示する領域１０ａ，１０ｂ，１０ｃ，１０ｄ，１０ｅ，１０ｆをそれぞれ規定している。部分データ１１は、たとえば、画像左上を（０，０）として、Ｘ座標、Ｙ座標、矩形の幅および高さを記述することにより、領域１０ａ〜ｆに相当する矩形領域をそれぞれ規定している。
【００４０】
図４に示すように、部分データ１１においては、＜Ｔａｇ＞と＜／Ｔａｇ＞とに挟まれた部分に、各タグの番号が対応する領域１０ａ〜ｆの範囲が記載されている。たとえば、それぞれの領域１０ａ〜ｆの幅および高さ、そして、その領域の左上角の座標が記載されている。また、部分データ１１は、各領域１０ａ〜ｆを、タグ番号で識別できるようにしている。たとえば、タグ１として、＜１＞と＜／１＞との間には、領域１０ａの範囲が記載されている。このように、領域１０ａはタグ１、領域１０ｂはタグ２、領域１０ｃはタグ３、領域１０ｄはタグ４、領域１０ｅはタグ５、そして、領域１０ｆはタグ６として記載されている。
【００４１】
（音声データの構成）
図５は、第１の実施の形態における音声データ２０および別の音声データ２２のフレーズ２０ａ，２０ｂ，２０ｃ，２０ｄ，２０ｅ，２０ｆ，２３ａ，２３ｂ，２３ｃ，２３ｄ，２３ｅ，２３ｆの長さおよび構成を説明する説明図である。
【００４２】
第１の実施の形態においては、音声データベース３は、２つの音声データ２０および音声データ２２を有する。ここでは、音声データ２０，２２は、視覚データ１０の楽譜にて演奏されたピアニストＡの演奏音声およびピアニストＢの演奏音声である。
【００４３】
音声データ２０は、フレーズデータ２１を有し、音声データ２２は、フレーズデータ２３を有する。フレーズデータ２１により、音声データ２０のフレーズ２０ａ，２０ｂ，２０ｃ，２０ｄ，２０ｅ，２０ｆが規定されている。フレーズデータ２３により、音声データ２２のフレーズ２３ａ，２３ｂ，２３ｃ，２３ｄ，２３ｅ，２３ｆが規定される。フレーズデータ２３は、フレーズ２０ａ〜ｆ，２３ａ〜ｆの先頭相対位置を規定する。フレーズデータ２１，２３は、たとえば、各フレーズの音声の先頭からの相対的な開始時間（分、秒、百分の一秒）を単位として保持し、また、各フレーズ２０ａ〜ｆ，２３ａ〜ｆは、タグ付けされている。
【００４４】
図６は、図５の音声データ２０におけるフレーズデータ２１のＸＭＬによる記述の一例を示す図である。
【００４５】
図６に示すように、フレーズデータ２１においては、＜Ｔａｇ＞と＜／Ｔａｇ＞とに挟まれた部分に、フレーズ２０ａ〜ｆの先頭からの相対時間が秒にて記載されている。また、各フレーズ２０ａ〜ｆは、タグ番号により識別可能になっている。たとえば、タグ１として、＜１＞と＜／１＞との間には、フレーズ２０ａの先頭相対時間（秒）が記載されている。このように、フレーズ２０ａはタグ１、フレーズ２０ｂはタグ２、フレーズ２０ｃはタグ３、フレーズ２０ｄはタグ４、フレーズ２０ｅはタグ５、そして、フレーズ２０ｆはタグ６として記載されている。同様に、音声データ２２においては、フレーズ２２ａはタグ１、フレーズ２２ｂはタグ２、フレーズ２２ｃはタグ３、フレーズ２２ｄはタグ４、フレーズ２２ｅはタグ５、そして、フレーズ２２ｆはタグ６として記載されている。
【００４６】
また、第１の実施の形態においては、同じタグ番号の部分データ１１とフレーズデータ２１，２３が対応している。具体的には、第１小節目（すなわち領域１０ａ）と対応する音声部分（フレーズ２０ａ，２２ａ）を、フレーズデータ２１，２３がタグ１として規定している。同様に、第２小節目（すなわち領域１０ｂ）と対応する音声部分（フレーズ２０ｂ，２２ｂ）をタグ３、第３小節目（すなわち領域１０ｃ）と対応する音声部分（フレーズ２０ｃ，２２ｃ）をタグ４、第４小節目（すなわち領域１０ｄ）と対応する音声部分（フレーズ２０ｄ，２２ｄ）をタグ５、第５小節目（すなわち領域１０ｅ）と対応する音声部分（フレーズ２０ｅ，２２ｅ）をタグ６、第６小節目（すなわち領域１０ｆ）と対応する音声部分（フレーズ２０ｆ，２２ｆ）をタグ７として、フレーズデータ２１，２３と部分データ１１とが対応し、同じタグ番号にて識別されている。したがって、部分データ１１が有するタグ数と同数のタグを、フレーズデータ２１，２３が有している。
【００４７】
ここで、図４に示すように、演奏された曲自体が一定のテンポを保っているような場合（図４の音声データ２０のフレーズ２０ｂ〜ｆ）には、各フレーズ２０ｂ〜ｆは、略均一な時間を有することとなる。一方、曲の途中でテンポが変化するような場合（図４の音声データ２２）には、各フレーズ２２ａ〜ｆは、均一な長さとはならない。したがって、音声データ２０，２２は、共に視覚データ１０の領域１０ａ〜ｄに対応するものではあるが、フレーズ２０ａ〜ｆ，２２ａ〜ｆの先頭からの相対的な時間が、音声データ２０，２２毎に異なっている。言い換えると、フレーズデータ２１，２３は、音声データ２０，２２毎に異なるものとなる。
【００４８】
なお、部分データ１１およびフレーズデータ２１，２３は、ＸＭＬにより記述できるが、これに限定されるものではない。たとえば、タグを用いないＸＭＬ、他のタグ形式、バイナリ形式、ＣＳＶ（ＣｏｍｍａＳｅｐａｒａｔｅｄＶａｌｕｅｓ）形式などにより実現してもよい。また、各フレーズは、時間以外の単位で記載されていてもよいし、１小節単位で規定されていなくてもよい。
【００４９】
図７は、視覚データ１０、部分データ１１、音声データ２０，２２およびフレーズデータ２１，２３のひも付けするデータ２４の一例を示すテキストデータである。
【００５０】
再生機器１は、視覚データ１０、部分データ１１、音声データ２０，２２およびフレーズデータ２１，２３のひも付けするデータ２４をさらに有してもよい。データ２４は、音声ファイルの数、ファイル名およびそのフレーズデータのファイル名の記載を有する。また、データ２４は、視覚データの数、ファイル名およびその部分データのファイル名を有する。
【００５１】
さらに、データ２４は、ユーザが再生する音声ファイルと視覚ファイルとを選択するための画面に表示するためのボタン表示用ファイルへのリンクまたはボタンに表示するための文字や数字の記載を有していてもよい。たとえば、データ２４には、音声ファイルの再生速度を変えるためのボタンの表示として、「Ｕｐ」、「Ｄｏｗｎ」の記載を有していてもよい。また、画面に表示させるボタン以外の表示のための記載を有していてもよい。たとえば、ユーザが視覚データ１０に書き込みすることを所望する場合、その書き込んだ内容に関してのデータやその図形ファイルへのリンクを有していてもよい。
【００５２】
（再生装置の動作）
次に、上述の再生装置１の動作について説明する。
【００５３】
図８は、第１の実施の形態における再生装置１の再生手順を示すフローチャートである。
【００５４】
まず、制御部６は、データ２４を読み込み、それに基づく選択画面を表示部５に表示させる。ユーザは、その選択画面により、入力部３から視覚データおよび音声データを選択できる。
【００５５】
制御部６が、入力部３により視覚データあるいは音声データが選択されたことを受信すると、制御部６は、視覚データが選択されたか否かを判断する（ステップＳ１０１）。制御部６が、視覚データが選択されたと判断した場合（ステップＳ１０１においてＹＥＳ）、選択された視覚データを視覚データベース８から読み出し、再生し、選択された視覚データに基づく映像を表示部５に表示させる（ステップＳ１０２）。具体的には、たとえば、視覚データ１０が選択された場合、制御部６は、ステップＳ１０１においてＹＥＳと判断し、表示部５に視覚データ１０に基づく映像を表示させるように制御する。
【００５６】
ステップＳ１０１において視覚データが選択されていないと制御部６が判断した場合（ステップＳ１０１においてＮＯ）、または、ステップＳ１０２の後、制御部６は、音声データが選択されたか否かを判断する（ステップＳ１０３）。音声データが選択されていない（ステップＳ１０３においてＹＥＳ）と判断した場合、制御部６は、動作を終了し、音声データが選択されるまで待機状態となる。
【００５７】
ステップＳ１０３において、音声データが選択された（ステップＳ１０３においてＮＯ）と判断した場合、次に、制御部６は、音声データを音声データベース９から読み出すと共に、音声データの再生中に別の音声データが選択されたか否かを判断する（ステップＳ１０４）。音声データを再生中に別の音声データが選択されたと判断した場合（ステップＳ１０４においてＹＥＳの場合）、制御部６は、再生中の音声データのフレーズデータ、および選択された音声データのフレーズデータを参照し、再生中のフレーズと対応するフレーズから、選択された音声データを再生する（ステップＳ１０５）。たとえば、音声データ２０のフレーズ２０ｂを再生中に、音声データ２２が選択された場合、制御部６は、ステップＳ１０４においてＹＥＳと判断する。そして、制御部６は、ステップＳ１０５において、フレーズデータ２１およびフレーズデータ２３を参照し、再生中のフレーズ（タグ２のフレーズ２０ｂ）に対応する音声データ２２のフレーズ（タグ２のフレーズ２２ｂ）から音声データ２２の再生を開始し、動作を終了する。
【００５８】
ステップＳ１０４においてＮＯの場合、次に、制御部６は、入力部３を介して再生位置が選択されたか否かを判断する（ステップＳ１０６）。再生位置が選択されたと判断した場合（ステップＳ１０６においてＹＥＳ）、制御部６は、部分データを参照し、その選択された領域に対応するフレーズから音声データを再生開始する（ステップＳ１０７）。たとえば、音声データ２０を再生中に、ユーザが入力部４を介して領域１０ｃの領域内を選択した場合、制御部６は、ステップＳ１０６においてＹＥＳと判断する。そして、ステップＳ１０４において制御部６は、領域１０ｃがタグ３にて規定されているので、音声データ２０のフレーズデータ２１を参照し、タグ３にて規定されているフレーズ２０ｃの開始位置から、音声データ２０の再生を開始する。すなわち、領域１０ｃと対応するフレーズ２０ｃから再生を開始できる。
【００５９】
一方、制御部６が、再生位置が選択されていないと判断した場合（ステップＳ１０６においてＮＯの場合）、制御部６は、選択された音声データを先頭から再生開始し（ステップＳ１０８）、動作を終了する。
【００６０】
上述のように、第１の実施の形態にかかる再生装置１では、ユーザは、どの視覚データ１０と、どの音声データ２０，２２とを組み合わせて再生するかを選択できる。また、音声データ２０，２２の再生位置を周波数分析等することなく検出できるため、再生装置１は、ユーザにより選択された再生位置から素早くかつ精度よく、音声データ２０，２２を再生できる。
【００６１】
また、第１の実施の形態にかかる再生機器１では、視覚データ１０を見ながら、再生する音声データ２０，２２およびその再生位置を指定できる。特に、視覚データ１０の領域１０ａ〜ｆを選択することで、その領域１０ａ〜ｆと対応するフレーズ２０ａ〜ｆ，２２ａ〜ｆから再生できるため、視覚的にわかりやすい。また、領域１０ａ〜ｆと対応するフレーズ２０ａ〜ｆ，２２ａ〜ｆとは、同じタグ番号が付されていることで、関連付けが容易となる。
【００６２】
また、第１の実施の形態に係る再生機器１は、音声データ２０，２２と視覚データ１０とを、部分データ１１およびフレーズデータ２１，２３を参照して同期させることができる。したがって、部分データ１１とフレーズデータ２１，２３が対応つけられていることにより、ある音声データを再生中であっても、スムーズに別の音声データを再生できる。そのため、ある音声データを再生中に別の音声データに切り替えた場合に、巻き戻し、早送り等により対応する再生位置を探す必要がない。そのため、所定のフレーズにおいて、異なる演奏者の演奏を聞き比べたりすることが容易となる。
【００６３】
なお、第１の実施の形態においては、ステップＳ１０１に〜Ｓ１０２において、まず、視覚データ１０を再生するものとしたが、ステップＳ１０１〜１０２のステップは、必須ではない。たとえば、視覚データ１０を音声データ２０，２２と同時または音声データ２０，２２の出力の後に再生するようにしてもよい。しかし、ステップＳ１０１〜１０２により、視覚データ１０を見てから、再生する音声データ２０，２２を選択できることに加えて、音声データ２０，２２を選択する前またはその選択と同時に視覚データ１０の所定の領域１０ａ〜ｆを選択できる。
【００６４】
また、上述の実施の形態においては、音声データ２０，２２のいずれかと、視覚データ１０とが選択されるとそれらのデータを制御部６が再生するものとしたが、そのような形態に限らない。たとえば、音声データ２０，２２のいずれかと、視覚データ１０との両方が選択されても、予め配置されている再生ボタンにより再生指示が入力されるまでそれらのデータの両方または片方の再生を開始しなくてもよい。また、その再生指示が入力されるまで、音声データ２０，２２なしで視覚データ１０を切り替え可能としてもよい。また、再生機器１が再生停止ボタンを有する場合、再生停止ボタンにより再生停止指示が入力された場合、その停止したフレーズに対応する視覚データ１０を切り替えできるようにしてもよい。同様に、その停止したフレーズに対応する別の音声データのフレーズを再生できるようにしてもよい。
【００６５】
また、音声データ２０，２２の再生中に、制御部６の視覚効果処理部６ｄは、視覚データ１０に映像効果処理を行うステップを有していてもよい。また、音声データ２０，２２の再生中に、制御部６の視覚効果処理部６ｄは、制御部６から供給された映像データ１０に重畳して、いわゆるカーソル７ａの表示を行ってもよい。たとえば、視覚効果処理部６ｄは、部分データ１１を参照し、再生中の所定の領域１０ａ〜ｆに、カーソル７ａを表示する処理を行ってもよい。
【００６６】
２．第２の実施の形態
次に、本発明の第２の実施の形態に係る再生機器３０について説明する。なお、第１の実施の形態に係る再生機器１と同様の構成要素については、同じ符号を付し、説明を省略する。
【００６７】
図９は、第２の実施の形態に係る再生機器３０が有する視覚データ４１，４２，４３，４４により表示される静止画を示す平面図である。
【００６８】
第２の実施の形態の再生機器３０は、４つの視覚データ４１，４２，４３，４４を有する。視覚データ４１は、中国語テキストデータであり、中国語を横書きに示す。視覚データ４２は、中国語テキストデータであり、中国語を縦書きに示す。視覚データ４３は、視覚データ４２を漢文として日本語にした日本語テキストデータものであり、縦書きに示す。視覚データ４４は、視覚データ２１の中国語の発音を英語表記した静止画である。
【００６９】
また、４つの視覚データ４１〜４４は、所定部分としてテキスト群を規定する部分データを有する。たとえば、図８に示すように、部分データにより、視覚データ４１のテキスト群４１ａ〜ｄ、視覚データ４２のテキスト群４２ａ〜ｄ、視覚データ４３のテキスト群４３ａ〜ｄそして視覚データ４４のテキスト群４４ａ〜ｄが、それぞれ、タグ１〜４として規定されている。
【００７０】
図１０は、第２の実施の形態に係る再生機器３０が有するフレーズデータのＣＳＶによる記述の一例を示す図である。図１１は、第２の実施の形態に係る再生機器３０が有する部分データのＣＳＶによる記述の一例を示す図である。
【００７１】
図１０に示すように、音声データ５１，５２のフレーズデータは、別のＣＳＶファイルに保存されている。たとえば、音声データ５１，５２のフレーズデータにおいては、選択される言語（図１０のｌａｎｇＮｏ．）が記載されている。たとえば、ｌａｎｇＮｏ．は、音声データ５１（中国語）の場合が「０」であり、音声データ５２（日本語）の場合が「１」である。また、フレーズデータには、音声データの先頭からの再生時間に対応した番号（図１０のｔｉｍｅＮｏ．）、再生する音声データ（図１０のｓｔｒｅａｍ）および先頭からの再生時間（図１０のｔｉｍｅ）が記載されている。
【００７２】
図１１に示すように、視覚データ４１〜４４の部分データは、ＣＳＶによりテーブルとして記載されている。たとえば、視覚データ４１〜４４の部分データにおいて、選択されている視覚データ４１〜４４に対応した番号（図１１のｂｏｏｋＮｏ．）、選択されている言語（図１１のｌａｎｇＮｏ．）、先頭からの再生時間と関連づけられた番号（図１１のｔｉｍｅＮｏ．）およびそれらに関連づけられたテキスト（図１１のｔｅｘｔ）が記載されている。たとえば、「ｌａｎｇＮｏ．」の欄には、音声データ５１（中国語）の場合「０」、および音声データ５２（日本語）の場合「１」と記載されている。また、「ｔｉｍｅＮｏ．」の欄には、図１０のフレーズデータにより先頭からの再生時間と関連づけられた番号が記載されている。また、「ｔｅｘｔ」の欄には、それらのフレーズにひも付けされたテキスト（または、そのテキストを記載したファイルのアドレス）が記載されている。
【００７３】
図１２は、第２の実施の形態に係る再生機器３０が有する音声データ５１，５２のフレーズ５１ａ〜ｄ，５２ａ〜ｄと時間との関係を示す説明図である。
【００７４】
再生機器３０は、２つの音声データ５１，５２を有する。音声データ５１は、視覚データ４１および４２に記載の中国語を中国語の発音にて発声した音声である。音声データ５２は、視覚データ４３に記載の中国語を漢文として日本語の発音にて発声した音声である。
【００７５】
フレーズデータは、テキスト群４１ａ〜ｄ，４２ａ〜ｄ，４３ａ〜ｄｃ，４４ａ〜ｄにそれぞれ対応する音声データ５１のフレーズ５１ａ〜ｄおよび音声データ５２のフレーズ５２ａ〜ｄを、図１２のように規定している。したがって、フレーズ５１ａ，５２ａは、テキスト群４１ａ，４２ａ，４３ａ，４４ａにそれぞれ対応している。フレーズ５１ｂ，５２ｂは、テキスト群４１ｂ，４２ｂ，４３ｂ，４４ｂにそれぞれ対応している。フレーズ５１ｃ，５２ｃは、テキスト群４１ｃ，４２ｃ，４３ｃ，４４ｃにそれぞれ対応している。フレーズ５１ｄ，５２ｄは、テキスト群４１ｄ，４２ｄ，４３ｄ，４４ｄにそれぞれ対応している。
【００７６】
上述の再生機器３０では、視覚データが選択された場合には、制御部６は、フレーズデータにより、その再生中の音声データの種類を示す「ｌａｎｇＮｏ．」およびその再生中の音声データの先頭からの再生時間に対応する「ｔｉｍｅＮｏ．」を参照する。そして、制御部６は、選択された視覚データのうち、同じ「ｌａｎｇＮｏ．」および「ｔｉｍｅＮｏ．」を有する視覚データ（Ｔｅｘｔ欄に記載されている）を再生する。同様に、音声データが選択された場合には、制御部６は、フレーズデータを参照し、選択された音声データの「ｌａｎｇＮｏ．」を有し、かつ、その再生中の音声データの「ｔｉｍｅＮｏ．」に対応つけられた再生開始位置から、選択された音声データを再生する。
【００７７】
上述のような再生機器３０を用いることで、ユーザは、所望の視覚データ４１〜４４と音声データ５１，５２を組み合わせて再生できる。たとえば、中国語横書きを見ながら中国語の発音を聞きたい場合には、視覚データ４１と音声データ５１とを、入力部３により選択する。また、中国語の発音を聴きながら、発音の英語表記を見たい場合、入力部３により視覚データ４４と音声データ５１とを選択する。
【００７８】
特に、従来の再生機器では、視覚データと音声データが一つになっているため、所定の視覚データと所定の音声データとの組み合わせの数（本実施例の場合１０種類）のデータを必要としたが、本実施例の場合、部分データとフレーズデータとが対応づけられているため、格納するデータを少なくすることができる。また、複数の音声データについて１つのフレーズデータあるいは複数の視覚データについて１つの部分データとすることにより、格納するデータを少なくし、制御部６の処理速度を向上させることができる。また、その視覚データの種類や複雑さなどに応じて、部分データにより規定する所定の領域のかたまりを任意に設定できるため、データを適宜軽くすることができる。
【００７９】
３．第３の実施の形態
次に、本発明の第３の実施の形態に係る再生機器６０について説明する。なお、第１の実施の形態に係る再生機器１と同様の構成要素については、同じ符号を付し、説明を省略する。
【００８０】
図１３は、第３の実施の形態に係る再生機器６０が有する視覚データ７１，７２，７３，７５，７６，７７の表示例を示す平面図である。
【００８１】
再生機器６０は、視覚データ７１，７２，７３からなる第１の視覚データ群７４と、視覚データ７５、７６、７７からなる第２の視覚データ群７８とを有する。また、再生機器６０は、１つの音声データ８０を有する。
【００８２】
視覚データ７１，７２，７３は、いわゆるプレゼンテーションのスライドであり、プレゼンテーションにおいて、視覚データ７１、視覚データ７２、視覚データ７３の順で表示されたスライドである。同様に、視覚データ７５，７６，７７は、プレゼンテーションにおけるスクリプトを文字として示すテキストデータである。視覚データ７５，７６，７７に表示されるテキストは、プレゼンテーションの本番において、視覚データ７１，７２，７３の各スライドを表示した際に読み上げたスクリプトである。
【００８３】
再生機器６０は、視覚データ７１〜７７の各視覚データの全部を規定する部分データを有している。たとえば、実施例１に係る再生機器１のように、部分データがＸＭＬにより記述されている場合には、部分データは、＜Ｔａｇ＞と＜／Ｔａｇ＞とに挟まれた部分に、再生すべき視覚データ７１〜７７のいずれかのファイル名が記載されている。ファイル名の他、その視覚データ７５，７６，７７が属する視覚データ群７８のフォルダ名が付されている。
【００８４】
図１４は、再生機器６０が有する音声データ８０のフレーズ８０ａ〜ｃと視覚データ７１〜７３，７５〜７７と、時間との関係を示す説明図である。
【００８５】
音声データ８０は、フレーズデータにより、フレーズ８０ａ，８０ｂ、８０ｃが規定されている。フレーズ８０ａは、視覚データ７１，７５と対応し、タグ１で規定されている。フレーズ８０ｂは、視覚データ７２，７６と対応し、タグ２で規定されている。フレーズ８０ｃは、視覚データ７３，７７と対応し、タグ３で規定されている。
【００８６】
次に、再生機器６０の動作について説明する。
【００８７】
制御部６は、選択された音声データ８０と視覚データ７１〜７３，７５〜７７のいずれか１つの再生を開始すると共に、計時部６ｃにより計時を開始する。計時部６ｃは、次のフレーズ８０ａ〜ｃの再生開始のタイミングで、次のフレーズ８０ａ〜ｃと対応つけられている視覚データ７１〜７３，７５〜７７であって、同じ視覚データ群７４，７８に属するものを再生する。たとえば、制御部６は、視覚データ７１の再生中には、視覚データ７１と対応つけられたフレーズ８０ａ（共にタグ１で規定されている）を再生する。フレーズ８０ｂを再生開始するタイミングでは、視覚データ７１が属する視覚データ７４に属し、かつ、フレーズ８０ｂと対応つけられた視覚データ７２（共にタグ２で規定されている）が再生される。同様に、フレーズ８０ｃを再生開始するタイミングでは、視覚データ７３の再生を開始する。視覚データ７３は、視覚データ群７４に属し、かつ、フレーズ８０ｃと対応つけられている（共にタグ３で規定されている）からである。
【００８８】
かかる場合において、入力部３は、視覚データ単位ではなく、視覚データ群単位で選択できてもよい。入力部３により、視覚データ群が選択されると、制御部６は、同じ視覚データ群の視覚データから、部分データを参照する。そして、音声データ８０の再生中フレーズを参照し、その再生中のフレーズに対応した所定部分を規定する部分データを有する視覚データを再生する。たとえば、視覚データ７２と共に再生中のフレーズがフレーズ８１ｂである場合、制御部６は、視覚データ群７８が選択されたことを検出すると、フレーズ６１ｂと対応つけられた視覚データ群７８の視覚データ５６の再生を開始する。
【００８９】
上述のような再生機器６０を用いることで、ユーザは、所望の視覚データ７１〜７３，７５〜７７と、音声データ８０とを組み合わせて、所望の部分から精度よく再生できる。たとえば、プレゼンテーションのスライド（視覚データ７１〜７３）を見ながらプレゼンテーションの録音音声を聞いている途中に、その音声に対応したスクリプト（視覚データ７５〜７７）に表示を切り替えることができる。
【００９０】
４．第４の実施の形態
次に、本発明の第４の実施の形態に係る再生機器９０およびその再生方法について説明する。なお、第１の実施の形態に係る再生機器１と同様の構成要素については、同じ符号を付し、説明を省略する。
【００９１】
図１５は、再生機器９０が有する音声データ９５、視覚データ９１，９２と、時間との関係を示す説明図である。
【００９２】
再生機器９０は、動画像の視覚データ９１、９２を有する。視覚データ９１は、たとえば、合唱団の全体を撮影した動画であり、視覚データ９２は、合唱団の伴奏者を撮影した動画である。
【００９３】
また、再生機器９０は、１つの音声データ９５を有する。音声データ９５は、たとえば、合唱団の合唱を収録した音声である。
【００９４】
視覚データ９１，９２は、動画先頭部分からの相対時刻を示す部分データにより、各部分に区切られている。たとえば、視覚データ９１、９２は、相対時刻が０秒〜１０秒の部分９１ａ，９２ａ、相対時刻が１０秒０１〜１５秒の部分９１ｂ，９２ｂ、相対時刻が１５秒０１〜２５秒の９１ｃ，９２ｃの各部分を部分データは、規定している。
【００９５】
音声データ９５は、フレーズ９５ａ、９５ｂ、９５ｃを再生先頭からの相対時刻により規定するフレーズデータを有している。フレーズ９５ａは、部分９１ａ，９２ａと対応し、フレーズ９５ｂは、部分９１ｂ，９２ｂと対応している、同様に、フレーズ９５ｃは、部分９１ｃ，９２ｃと対応している。
【００９６】
上述のような再生機器９０を用いることで、ユーザは、所望の視覚データ９１または９２と音声データ９５とを組み合わせて精度よく、所望の部分から再生できる。たとえば、録音音声を聞いている際に、合唱団の全体の映像と伴奏者の映像とを自在に切り替えて見ることができる。
【００９７】
５．変形例
以上、再生装置１，３０，６０，９０を本発明の実施の形態として説明したが、本発明は、これに限定されるものではなく、発明の要旨を逸脱しない範囲において種々の変形や変更が可能である。
【００９８】
たとえば、上述した一連の処理は、プログラムにより実行されるものとしたが、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【００９９】
制御部６が実行するプログラム、視覚データおよび音声データは、例えば、フレキシブルディスク等の磁気ディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）若しくはＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等の光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディアに記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供されてもよい。
【０１００】
制御部６が実行するプログラムは、リムーバブルメディアを介して再生装置１，３０，６０，９０にインストールしてもよいし、有線または無線の伝送媒体を介して、図示せぬ通信部で受信し、記憶部２または記憶部６ｂに記憶することで再生装置１，３０，６０，９０にインストールしてもよい。
【０１０１】
なお、再生装置１，３０，６０，９０は、音声出力部４および表示部５を備えるものとしたが、これらは必須ではない。再生装置１，３０，６０，９０自体は、音声出力部４および表示部５を有さずに、音声出力部４および表示部５として機能できる外部機器をインターフェースを介して接続してもよい。たとえば、パーソナルコンピュータを再生装置１，３０，６０，９０として用いて、スピーカやオーディオ等を音声出力部４として接続してもよい。また、表示部５を有していないコンピュータに、表示部５としてテレビ等を接続してもよい。
【０１０２】
また、再生装置１，３０，６０，９０は、再生のためではなく編集のために用いられる装置、方法あるいはプログラムであってもよい。たとえば、動画像データ若しくは静止画データを１または複数の視覚データとして保持する視覚データベースと、その「所定部分」を規定する部分データと、音声データを１または複数保持する音声データベースと、その音声データベースにおいてその「所定部分」に対応するフレーズを規定するフレーズデータと、視覚データまたは音声データを選択する入力部と、選択された視覚データおよび音声データをそれぞれ再生する制御部と、を具備し、所定部分に対応するフレーズから音声データを再生するステップを実行する装置において、部分データおよびフレーズデータの少なくとも一方に、情報の書き込みを可能とする装置であってもよい。たとえば、再生装置１，３０，６０，９０を用いて、ユーザが所定の部分を設定し部分データに書き込むことができてもよい。また、再生装置１，３０，６０，９０を用いて、ユーザが所定のフレーズを設定し、フレーズデータに書き込むことができてもよい。また、音声データの再生速度、音の強弱等を設定できるようにしてもよい。
【０１０３】
また、再生装置１，３０，６０，９０は、据え置き式機器、携帯用機器あるいは、カーナビ等の車載用装置など、音声および映像のコンテンツを再生する機能を有する機器であってもよいし、それらに付随可能な装置であってもよい。
【０１０４】
また、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【０１０５】
また、第３の実施の形態における再生機器６０においては、制御部６は、再生中の音声データ８０に含まれるフレーズデータに基づき、次に再生するフレーズ８０ａ〜ｃと対応する視覚データ７１〜７３，７５〜７７のいずれかを再生するものとしたが、このような形態に限らない。視覚データが有する部分データに、再生順序についての情報が記載されている場合、制御部６は、再生順序についての情報を読み出し、その再生順序に従って、視覚データベース９に保持された視覚データを順次読み出し、音声データのフレーズデータに基づき、切り替えるようにしてもよい。
【０１０６】
なお、本発明の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラムあるいは、そのプログラムを記憶する記録媒体として捉えてもよい。
【０１０７】
また、第１の実施の形態においては、１つの視覚データ１０と２つの音声データ２０，２２を有する再生機器１を例示し、第２の実施の形態においては、４つの視覚データ４１，４２，４３，４４と２つの音声データ５１，５２を有する再生機器３０を例示した。また、第３の実施の形態においては、２つの視覚データ群７４，７８と、１つの音声データ８０とを有する再生機器６０を例示し、第４の実施の形態においては、２つの動画からなる視覚データ９１，９２と、１つの音性データ９３とを有する再生機器９０を例示した。しかし、このような形態に限定されない。再生機器１が有する視覚データおよび音声データの数は、いくつであってもよい。また、これらの実施の形態を適宜組み合わせてもよい。たとえば、第１の実施の形態と第４の実施の形態とを組み合わせて、動画からなる視覚データ１０と、それに対応する複数の音声データを有する再生機器としてもよい。また、第２の実施の形態と第３の実施の形態とを組み合わせて、複数の視覚データ群と、複数の音声データとを、それぞれ組み合わせることができる再生機器としてもよい。
【０１０８】
また、上述の各実施の形態においては、１または複数の視覚データから選択された１つの視覚データと、１または複数の音声データから選択された１つの音声データとを合わせて再生するものとしたが、このような形態に限らない。たとえば、表示部５が複数ある、または、表示部５の表示領域７が分割されている場合に、対応する視覚データを２以上出力するようにしてもよい。また、複数の音声データを重ね合わせて（たとえば、トランペットの演奏音声と、ピアノの演奏音声とを重ね合わせて）出力してもよいし、複数の視覚データを重ね合わせて、あるいは、別領域に出力してもよい。さらに、視覚データは、映像や動画の他、音声をさらに有していてもよい。特に、視覚データが動画像データの場合には、映像の他、音声を含む場合が多い。かかる場合には、動画を静止画の集合体に音声が加わったものと考えることができる。そのため、音声を含む視覚データにおいて、時間情報を特徴的に扱ってもよい。さらに、視覚データの音声部分を音声データとして用いてもよい。また、視覚データの音声に、音声データを重ね合わせて出力してもよい。
【０１０９】
また、上述の各実施の形態においては、ステップＳ１０１〜１０８を行う制御部６としたが、このような形態に限らない。たとえば、ステップＳ１０４，Ｓ１０５は、必須ではない。ステップＳ１０４，Ｓ１０５を有さない場合、音声データを再生中に別の音声データを再生した場合、ユーザが所定部分を選択しない限り、音声データを最初から再生してもよい。
【産業上の利用可能性】
【０１１０】
本発明は、たとえば、静止画や動画と音声と合わせて再生可能な再生機器等に適用できる。
【符号の説明】
【０１１１】
１，
３０，６０，９０再生装置
２入力部
６制御部
７ａカーソル
８視覚データベース
９音声データベース
１０，４１，４２，４３，４４，７１，７２，７３，７５，７６，７７，９１，９２視覚データ
１０ａ〜ｆ，４１ａ〜ｆ，４２ａ〜ｆ，４３ａ〜ｆ，４４ａ〜ｆ，７１，７２，７３，７５，７６，７７，９１ａ〜ｃ，９２ａ〜ｃ所定部分
１１部分データ
２０，２２，５１，５２，８０，９５音声データ
２０ａ〜ｆ，２２ａ〜ｆ，５１ａ〜ｄ，５２ａ〜ｄ，８０ａ〜ｃ，９５ａ〜ｃフレーズ
２１フレーズデータ

【特許請求の範囲】
【請求項１】
動画像データ若しくは静止画データを１または複数の視覚データとして保持する視覚データベースと、
上記視覚データの所定部分を規定する部分データと、
音声データを１または複数保持する音声データベースと、
上記音声データにおける上記所定部分に対応するフレーズを規定するフレーズデータと、
上記視覚データまたは上記音声データを選択する入力部と、
選択された上記視覚データおよび上記音声データをそれぞれ再生するよう制御する制御部と、を具備し、
上記制御部は、上記入力部により上記所定部分が選択された場合には、選択された上記所定部分に対応するフレーズから、選択された上記音声データを再生することを特徴とする再生装置。
【請求項２】
請求項１に記載の再生装置であって、
前記音声データベースは、複数の前記音声データを保持し、
前記制御部は、前記音声データを再生中に、前記入力部により別の音声データが選択された場合には、前記音声データの再生中の前記フレーズに対応する前記フレーズから当該別の音声データを再生することを特徴とする再生装置。
【請求項３】
請求項１または請求項２に記載の再生装置であって、
前記視覚データベースは、複数の前記視覚データを複数保持し、
前記制御部は、前記音声データを再生中に、前記入力部により別の視覚データが選択された場合には、前記音声データの再生中の前記フレーズに対応する前記部分データを有する当該別の視覚データを再生することを特徴とする再生装置。
【請求項４】
請求項１から請求項３のいずれか１項に記載の再生装置であって、
前記所定部分は、動画像または静止画の所定の位置、領域、文字、文字列、数字、記号であることを特徴とする再生装置。
【請求項５】
請求項１から請求項４のいずれか１項に記載の再生装置であって、
前記制御部は、再生中の前記フレーズに対応する前記所定部分を表示するカーソルを、前記視覚データと重ねて表示させることを特徴とする再生装置。
【請求項６】
動画像データ若しくは静止画データを１または複数の視覚データとして保持する視覚データベースと、
上記視覚データの所定部分を規定する部分データと、
音声データを１または複数保持する音声データベースと、
上記音声データベースにおいて上記所定部分に対応するフレーズを規定するフレーズデータと、
上記視覚データまたは上記音声データを選択する入力部と、
選択された上記視覚データおよび上記音声データをそれぞれ再生するよう制御する制御部と、を具備する再生装置において、
上記制御部が、上記入力部により上記所定部分が選択された場合には、選択された上記所定部分に対応する上記フレーズから、選択された上記音声データを再生するステップを有することを特徴とする再生方法。
【請求項７】
請求項６に記載の再生方法であって、
前記音声データを再生中に、前記入力部により別の音声データが選択された場合には、前記制御部が、前記音声データの再生中の上記フレーズに対応する上記フレーズから上記別の音声データを再生するステップを、さらに有することを特徴とする再生方法。
【請求項８】
請求項６または請求項７に記載の再生方法であって、
前記音声データを再生中に、前記入力部により別の視覚データが選択された場合には、
前記制御部が、前記視覚データの再生中の上記部分データに対応する上記部分データを含む上記別の視覚データを再生するステップを、さらに有することを特徴とする再生方法。
【請求項９】
動画像データ若しくは静止画データを１または複数の視覚データとして保持する視覚データベースと、
上記視覚データの所定部分を規定する部分データと、
音声データを１または複数保持する音声データベースと、
上記音声データベースにおいて上記所定部分に対応するフレーズを規定するフレーズデータと、
上記視覚データまたは上記音声データを選択する入力部と、
選択された上記視覚データおよび上記音声データをそれぞれ再生する制御部と、を具備する再生装置において、
上記所定部分に対応する上記フレーズから上記音声データを再生するステップをコンピュータに実行させることを特徴とするプログラム。
【請求項１０】
請求項９に記載のプログラムにおいて、
前記音声データを再生中に、前記入力部により別の音声データが選択された場合には、前記制御部が、前記音声データの再生中の前記フレーズに対応する前記フレーズから上記別の音声データを再生するステップをコンピュータに実行させることを特徴とするプログラム。
【請求項１１】
請求項９または請求項１０に記載のプログラムにおいて、
前記音声データを再生中に、前記入力部により別の前記視覚データが選択された場合には、前記制御部が、前記音声データの再生中の前記フレーズに対応する前記フレーズから上記別の視覚データを再生するステップをコンピュータに実行させることを特徴とするプログラム。

【図１】