並列処理装置

【発明の詳細な説明】
【０００１】
【産業上の利用分野】この発明は例えばベクタ演算を高速に実行するための専用プロセッサや画像及び音声を実時間処理するデジタルシグナルプロセッサ（ＤＳＰ）に適用され、演算回路と、その演算回路に演算の対象となるデータを供給し、演算結果を格納するために用いられる多バンクに分割された２ポートメモリとを有し、外部入力データバス及び外部出力データバスに接続され、並列に動作する複数のデータプロセッシングユニットを用いてデータを処理する並列処理装置に関する。
【０００２】
【従来の技術】図２に従来の並列処理装置を示す。データプロセッシングユニット１１₁〜１１_nは外部入力データバス１２及び外部出力データバス１３に並列に接続されている。各データプロセッシングユニット１１₁〜１１_nはそれぞれ２入力１４，１５、１出力１６をもつ演算回路１７と、２組のランダムアクセスポートを有し、その一方は読み／書きポートＲ／Ｗである２ポートメモリ（ＲＡＭ）１８，１９とを備えている。演算回路１７の出力データと外部入力データバス１２のデータとの一方がセレクタ２１で選択されて２ポートメモリ１８の一方のポートＲ／Ｗに供給され、また演算回路１７の出力データと外部入力データバス１２のデータとの一方がセレクタ２２で選択されて２ポートメモリ１９の一方のポートＲ／Ｗに供給される。２ポートメモリ１８，１９の各他方のポート１２から読み出されたデータはそれぞれ演算回路１７の入力１４，１５へ供給されると共にその一方がセレクタ２３で選択されて外部出力データバス１３へ供給される。
【０００３】各データプロセッシングユニット内で、２ポートメモリ１８，１９からそれぞれ読み出したデータＡ_i，Ｂ_iをポートＲから演算回路１７の入力１４，１５へ供給して演算回路１７内でＺ_i＝Ａ_i＊Ｂ_i（＊：任意の演算）を行い、その演算結果Ｚ_iを２ポートメモリ１８，１９の一方に、そのポートＲ／Ｗを通じて書き込むことを１タイムスロット内で行う。つまりデータＡ_i，Ｂ_i，Ｚ_iに対する各アドレスを同時に指定するアドレス演算を連続的に行うことができる。また例えば２ポートメモリ１８，１９から同時に読み出したデータについて演算回路１７で演算し、演算回路１７の出力データをメモリ１８に書き込むと同時に、２ポートメモリ１９に外部入力データバス１２からのデータを書き込むことが可能であり、そのメモリ１９への書き込みが終了すると、同時に、メモリ１９に書き込まれた新しいデータとメモリ１８内のデータとによるベクタ演算を可能としている（例１）。
【０００４】あるいは最初のステップでメモリ１８，１９の各データをそのポートＲから読み出して演算回路１７へ送出し、その演算結果をメモリ１８のポートＲ／Ｗを通じて書き込む動作と並行して、メモリ１９のポートＲ／Ｗから読み出したデータを外部出力データバス１３へ出力する。次のステップで逆にメモリ１８，１９から読み出したデータを演算回路１７で演算し、その結果をメモリ１９へ書き込むのと並行してメモリ１８のポートＲ／Ｗから読み出したデータを外部出力データバス１３へ出力する。これを繰り返すことによりメモリ１８，１９の役割をパイプライン状に切り替えたオーバヘッドのない処理を可能としている（例２）。
【０００５】
【発明が解決しようとする課題】このように従来の並列処理装置においては、３アドレス演算を可能とするために各データプロセッシングユニットに２個の２ポートメモリ１８，１９を設けている。それだけ各データプロセッシングユニットの回路規模が大きくなり、このデータプロセッシングユニットを多数集積して並列処理装置を作る場合、占有面積や消費電力の点で望ましくない。
【０００６】
【課題を解決するための手段】この発明によれば第３のデータバスが設けられ、また各データプロセッシングユニットには１個の２ポートメモリのみ設けられ、その２ポートメモリの一方の読み／書きポートＲ／Ｗから読み出されたデータと外部出力データバスのデータとの一方が第１セレクタで選択されて演算回路の一方の入力へ供給され、演算回路の出力データと外部入力データバスのデータとの一方が第２セレクタで選択されて２ポートメモリのポートＲ／Ｗへ供給され、２ポートメモリの他方のポートから読み出されたデータがマルチプレクサにより、演算回路の他方の入力と、外部出力データバスと、第３のデータバスとの何れかに選択的に供給され、演算回路の出力は外部出力データバス及び第３のデータバスに接続される。更にこのようなデータプロセッシングユニットの複数個に対し、２ポートメモリが共通に設けられる。この共通メモリの一方の読み／書きポートＲ／Ｗに、外部入力データバスのデータと第３のデータバスのデータとの一方が第３セレクタで選択されて供給され、その共通メモリの一方のポートＲ／Ｗから読み出されたデータと、外部出力データバスのデータとの一方が第４セレクタで選択されて外部出力ポートへ出力され、共通メモリの他方のポートは外部出力データバスに接続される。
【０００７】
【実施例】図１にこの発明の実施例を示し、図２と対応する部分に同一符号を付けてある。この発明では外部入力データバス１２及び外部出力データバス１３の他に第３のデータバス２５が設けられる。また各データプロセッセッシングユニット１１₁〜１１_nには１つの２ポートメモリ１８のみが用いられる。２ポートメモリ１８は少くとも二つのバンクを備え、各バンクには一つのベクタ長のデータを格納することができ、２組のランダムアクセスポートを有するＲＡＭであり、その少くとも一方のポートは読み／書きポートＲ／Ｗである。このポートＲ／Ｗに対し、従来と同様に演算回路１７の出力データと外部入力データバス１２のデータとの一方を第２セレクタ２１で選択して書き込みデータとして供給することができる。更にこのポートＲ／Ｗから読み出されたデータと外部出力データバス１３のデータとの一方が第１セレクタ２６で選択されて演算回路１７の入力１４へ供給される。この場合、第１セレクタ２６へのデータ出力経路と、第２セレクタ２１からのデータ入力経路とが相互に影響しないように、第１セレクタ２６とポートＲ／Ｗとの間にスリーステイトバッファ２７が挿入され、第２セレクタ２１とポートＲ／Ｗとの間にスリーステイトバッファ２８が挿入される。
【０００８】また２ポートメモリ１８の他方のポートＲ（この例では読み出し専用とされた場合である）から読み出されたデータはマルチプレクサ２９により演算回路１７の入力１５と、外部出力データバス１３と、第３のデータバス２５との何れかに選択的に供給される。更にこの発明では２ポートＲＡＭが共通メモリ３１として設けられる。共通メモリ３１の少くとも一方のポートは読み／書きポートＲ／Ｗとされている。外部入力データバス１２のデータと、第３のデータバス２５のデータとの一方が第３セレクタ３２で選択されて書き込みデータとして共通メモリ３１のポートＲ／Ｗへ供給される。共通メモリ３１のポートＲ／Ｗから読み出されたデータと外部出力データバス１３のデータとの何れかが第４セレクタ３３で選択されて外部出力ポート３４へ出力される。この場合も第３セレクタ３２及び第４セレクタ３３と共通メモリ３１のポートＲ／Ｗとの間にそれぞれトライステートバッファ３５，３６が挿入されている。共通メモリ３１の他方のポートＲ（この例では読み出し専用とされた場合である）が外部出力データバス１３に接続される。
【０００９】このように構成されているから、各プロセッシングユニット１１₁〜１１_nにおいて、２ポートメモリ１８の２つのポートＲ／Ｗ、Ｒからそれぞれ読み出したデータＸ_i，Ｙ_iを演算回路１７へ供給して下記の任意の演算を行い、その演算結果をｉ＝１からｍまで累積加算して、Ｘ_i＊Ｙ_iＸ_i，Ｙ_iを要素とするベクタ長ｍの２アドレスベクタ演算を行うことができる。つまり各タイムスロットごとに２ポートメモリ１８の二つのポートよりのデータのためにそれぞれアドレス指定を行い、その演算結果は演算回路１７内に保持した１つ前の演算結果に累加算して演算回路１７内に保持しておけばよく、各タイムスロットでの演算結果を格納するアドレスの指定は行わない。
【００１０】共通メモリ３１は例えば次の３通りに使用される。
ａ．３アドレス演算を行うとき。
共通メモリ３１のポートＲから読み出したデータを外部出力データバス１３を通じて各プロセッシングユニット１１₁〜１１_nの演算回路１７へ共通の係数データＡ_iとして供給し、各データプロセッシングユニット１１₁〜１１_nではそれぞれその２ポートメモリ１８のポートＲから読み出したデータＸ_iと下記の演算を並列に実行し、その演算結果Ｙ_iを各２ポートメモリ１８にポートＲ／Ｗを通じて書き込む。
【００１１】Ｙ_i＝Ａ_i＊Ｘ_iｂ．各データプロセッシングユニットの演算結果を順次取り込むとき。
各データプロセッシングユニット１１₁〜１１_nでそれぞれ累算のような演算を並列に実行し、その最後の演算結果を演算回路１７内のレジスタから第３のデータバス２５を通じて共通メモリ３１に順次取り込む。あるいは各演算回路１７の最後の演算結果を１度それぞれ自己の２ポートメモリ１８に格納し、その後、第３のデータバス２５を通じて共通メモリ３１に順次取り込む。
ｃ．外部に対するデータの入出力バッファとして使用するとき。
【００１２】外部入力ポートからのデータをポートＲ／Ｗを通じて共通メモリ３１に書き込むことや、共通メモリ３１のポートＲから読み出したデータを外部出力ポート３４へ出力することを、各データプロセッシングユニット１１₁〜１１_nの演算と並列に実行させ、転送に伴うオーバヘッドを生じさせない。従来の技術の項で説明した例１を実行させるには２ポートメモリ１８のポートＲ、共通メモリ３１のポートＲからそれぞれ読み出したデータを演算回路１７で演算し、その演算結果を、２ポートメモリ１８にポートＲ／Ｗを通じて書き込むことと同時に、外部からのデータを共通メモリ３１にポートＲ／Ｗを通じて書き込み、共通メモリ３１への書き込みが終了した時に、この共通メモリ３１に書き込まれた新しいデータを用いてベクタ演算を行うことができる。
【００１３】また前記例２を実行させるには、最初のステップで２ポートメモリ１８、共通メモリ３１の各ポートＲから読み出したデータを演算回路１７で演算し、その演算結果を２ポートメモリ１８にポートＲ／Ｗを通じて書き込む動作と並行して共通メモリ３１のデータをポートＲ／Ｗから読み出して外部へ出力する。次のステップでは逆に演算回路１７での演算結果を共通メモリ３１にポートＲ／Ｗを通じて書き込むことと並行して２ポートメモリ１８からポートＲ／Ｗを通じて読み出したデータを外部へ出力する。これを繰り返すことにより、２ポートメモリ１８と共通メモリ３１との役割をパイプライン状に切り替えたオーバヘッドのない処理が可能である。
【００１４】
【発明の効果】以上述べたようにこの発明によれば各データプロセッシングユニットには１個の２ポートメモリしか用いておらず、データプロセッシングユニットの回路規模を従来よりも小さくすることができ、データプロセッシングユニットを多数集積する並列処理装置において占有面積や消費電力を小さくすることができる。
【００１５】なお、データプロセッシングユニットがそれぞれ独立な３アドレス演算を同時に行うことが比較的少ない点に着目してこの発明では、前述したように３アドレス演算の際は共通メモリ３１を、各データプロセッシングユニットが共通に利用するようにして、データプロセッシングユニット間のメモリ数を１に減少したものである。
【図面の簡単な説明】
【図１】この発明の実施例を示すブロック図。
【図２】従来の並列処理装置を示すブロック図。

【特許請求の範囲】
【請求項１】２入力１出力の演算回路とその演算回路へ演算対象となるデータを供給し、その演算結果を格納するために用いられるメモリとを有するデータプロセッシングユニットの複数個が、外部入力データバス及び外部出力データバスに並列に接続された並列処理装置において、上記各データプロセッシングユニットに接続された第３のデータバスが設けられ、上記各データプロセッシングユニットの上記メモリは２組のランダムアクセスポートを有し、少くともその一方は読み／書きポートである２ポートメモリであり、上記各データプロセッシングユニットは上記２ポートメモリの一方の読み／書きポートから読み出されたデータと上記外部出力データバスのデータとの一方を選択して上記演算回路の一方の入力へ供給する第１セレクタと、上記演算回路の出力データと上記外部入力データバスのデータとの一方を選択して上記一方の読み／書きポートへ供給する第２セレクタと、上記２ポートメモリの他方のポートから読み出されたデータを、上記演算回路の他方の入力と、上記外部出力データバスと、上記第３のデータバスとの何れかに選択的に供給するマルチプレクサとを備え、上記演算回路の出力は上記外部出力データバス及び上記第３のバスに接続され、２組のランダムアクセスポートを有し、少くともその一方は読み／書きポートである共通メモリと、その共通メモリのその一方の読み／書きポートに、外部入力データバスのデータと、上記第３のデータバスのデータとの一方を選択して供給する第３セレクタと、上記共通メモリの上記一方の読み／書きポートから読み出されたデータと、上記外部出力データバスのデータとの一方を選択して外部出力ポートへ出力する第４セレクタとを備え、上記共通メモリの他方のポートは上記外部出力データバスに接続されていることを特徴とする並列処理装置。

【図１】