説明

警報管理システム、警報管理装置及び障害原因解析方法

【課題】障害原因を示している警報を簡易に判定できる警報管理装置を提供する。
【解決手段】警報管理装置は、障害端点を示す障害端点情報、該障害端点に対応する回線の上位回線の端点を示す上位端点情報及び該障害端点に対応する回線の下位回線の端点を示す下位端点情報を含む警報を、各通信装置から受信する手段と、受信した第1の警報に含まれる下位端点情報に基づき、該第1の警報が障害原因を示すものではないと判定できる場合、該第1の警報に対する原因フラグを第1の値に設定する手段と、該第1の警報の発生時刻を基準とした第1の所定期間内に発生し、その障害端点が、該第1の警報の障害端点と同一レイヤである第2の警報を抽出し、該第2の警報に対する原因フラグの値と、該第1の警報に対する原因フラグの値が同一でない場合には、該第1の警報及び該第2の警報に対する原因フラグを第1の値に統一する手段とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、障害の管理技術に関し、より詳しくは、各通信装置が生成する多数の警報から障害原因を示している警報を判定する技術に関する。
【背景技術】
【0002】
例えば、ネットワーク内のある装置で障害が発生した場合、この装置を通過している多数の回線が断となる。この多数の回線の断は、各回線を終端している通信装置でも検出されるため、ある障害が発生した場合は、それに付随して大量の警報が発生することになり、障害原因の特定が困難になるという問題がある。この問題を解決するため、ネットワーク内の各回線と通信装置との関係、及び、各回線間の関係を保持する構成管理装置を設ける構成が提案されている(例えば、特許文献1、参照。)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−246679号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
図8は、特許文献1に記載のシステム構成を示す図である。図8に示す構成において、警報管理装置51は、構成管理装置50が有する回線と通信装置との関係、及び、回線間の関係に基づき、ネットワーク52から受信した各警報により示されている障害が、他の障害の影響により発生したものか、根本原因であるかを判定している。
【0005】
従来技術による警報監視方法を実現するためには、構成管理装置50に対して、ネットワーク52内の各回線間の関係及び各回線と各通信装置との関係を示す情報を入力し、さらに、それら情報を最新のものに維持することが必要であるが、これらは、非常に手間のかかる作業であり、その様な手間を必要とせず、簡易に障害原因が判定できれば便利である。
【0006】
したがって、本発明は、構成管理装置を必要とせず、障害原因を示している警報を簡易に判定できる警報管理装置及び障害原因解析方法を提供することを目的とする。さらに、該警報管理装置を含む警報管理システムと、該警報管理装置としてコンピュータを機能させるプログラムを提供することも目的とする。
【課題を解決するための手段】
【0007】
本発明による警報管理装置は、
障害を検出した端点である障害端点を示す障害端点情報、該障害端点に対応する回線の上位回線の端点を示す上位端点情報及び該障害端点に対応する回線の下位回線の端点を示す下位端点情報を含む警報を、各通信装置から受信する第1の手段と、受信した第1の警報に含まれる下位端点情報に基づき、該第1の警報が障害原因を示すものではないと判定できる場合、該第1の警報に対する原因フラグを第1の値に設定する第2の手段と、該第1の警報の発生時刻を基準とした第1の所定期間内に発生し、その障害端点が、該第1の警報の障害端点と同一レイヤである第2の警報を抽出し、該第2の警報に対する原因フラグの値と、該第1の警報に対する原因フラグの値が同一でない場合には、該第1の警報及び該第2の警報に対する原因フラグを第1の値に統一する第3の手段とを備えていることを特徴とする。
【0008】
本発明による警報管理装置の他の実施形態によると、
該第1の警報の発生時刻を基準とした第2の所定期間内に発生し、その障害端点のレイヤが、該第1の警報の障害端点の下位レイヤである第3の警報が存在する場合、該第1の警報及び該第2の警報に対する原因フラグを第1の値に設定する手段をさらに備えていることも好ましい。
【0009】
また、本発明による警報管理装置の他の実施形態によると、
該第1の警報の発生時刻を基準とした第3の所定期間内に発生し、その障害端点のレイヤが、該第1の警報の障害端点の上位レイヤである第4の警報が存在する場合、該第4の警報に対する原因フラグを第1の値に設定する手段をさらに備えていることも好ましい。
【0010】
さらに、本発明による警報管理装置の他の実施形態によると、
前記第2の手段は、受信した前記第1の警報に含まれる上位端点情報が示す端点を障害端点とする第5の警報を既に受信している場合は、該第5の警報に対する原因フラグが、障害原因であることを示す第2の値であるか否かを判定し、第2の値である場合には、該第5の警報に対する原因フラグを第1の値に変更し、さらに、該第5の警報の発生時刻を基準とした第4の所定期間内に発生し、その障害端点のレイヤが、該第5の警報の障害端点のレイヤと同一である第6の警報を抽出し、該第6の警報に対する原因フラグを第1の値に設定することも好ましい。
【0011】
さらに、本発明による警報管理装置の他の実施形態によると、
前記第2の手段は、受信した前記第1の警報に含まれる下位端点情報が示す端点を障害端点とする第7の警報を既に受信している場合に、該第1の警報が障害原因を示すものではないと判定することも好ましい。
【0012】
本発明によるプログラムによると、
上記警報管理装置としてコンピュータを機能させることを特徴とする。
【0013】
本発明による警報管理システムによると、
障害を検出した端点である障害端点を示す障害端点情報、該障害端点に対応する回線の上位回線の端点を示す上位端点情報及び該障害端点に対応する回線の下位回線の端点を示す下位端点情報を含む警報を生成する通信装置と、警報管理装置とを含む警報管理システムであって、該警報管理装置は、前記通信装置からの警報を受信する第1の手段と、受信した第1の警報に含まれる下位端点情報に基づき該第1の警報が障害原因を示すものではないと判定できる場合、該第1の警報に対する原因フラグを第1の値に設定する第2の手段と、該第1の警報の発生時刻を基準とした第1の所定期間内に発生し、その障害端点が、該第1の警報の障害端点と同一レイヤである第2の警報を抽出し、該第2の警報に対する原因フラグの値と、該第1の警報に対する原因フラグの値が同一でない場合には、該第1の警報及び該第2の警報に対する原因フラグを第1の値に統一する第3の手段とを備えていることを特徴とする。
【0014】
本発明による障害原因解析方法によると、
障害を検出した端点である障害端点を示す障害端点情報、該障害端点に対応する回線の上位回線の端点を示す上位端点情報及び該障害端点に対応する回線の下位回線の端点を示す下位端点情報を含む警報を、通信装置が生成する第1のステップと、警報管理装置が、第1の警報を受信し、該第1の警報に含まれる下位端点情報に基づき該第1の警報が障害原因を示すものではないと判定できる場合、該第1の警報に対する原因フラグを第1の値に設定する第2のステップと、警報管理装置が、該第1の警報の発生時刻を基準とした第1の所定期間内に発生し、その障害端点が、該第1の警報の障害端点と同一レイヤである第2の警報を抽出し、該第2の警報に対する原因フラグの値と、該第1の警報に対する原因フラグの値が同一でない場合には、該第1の警報及び該第2の警報に対する原因フラグを第1の値に統一する第3のステップとを備えていることを特徴とする。
【発明の効果】
【0015】
ネットワーク全体の構成を示すデータベースである構成管理装置を必要とせず、簡易に障害原因を示す警報と、他の障害からの影響により発生している警報を見分けることが可能になる。
【図面の簡単な説明】
【0016】
【図1】本発明によるネットワーク管理システムの構成図である。
【図2】警報に含まれる情報を示す図である。
【図3】警報管理装置での処理を示すフロー図である。
【図4】警報管理装置における原因判定処理を示すフロー図である。
【図5】障害例を示す図である。
【図6】障害の他の例を示す図である。
【図7】回線間の関係を示す図である。
【図8】従来技術によるシステム構成図である。
【発明を実施するための形態】
【0017】
本発明を実施するための形態について、以下では図面を用いて詳細に説明する。なお、本発明において、回線とは2つの装置間に設定される情報の伝送路を示すものであり、パス等、他の用語により表現されるものも含むものである。また、回線は、直接、何らかのサービスに使用することも、1つ以上の他の回線を収容することもできる。例えば、図7においては、回線αは、回線α1〜α3の3つの回線を収容しており、回線α3はサービス提供のために使用されている。一方、回線α1は3つの回線α11〜α13を収容しており、回線α2は、4つの回線α21〜α24を収容している。なお、他の回線を収容している回線を、収容されている回線に対する下位回線と、逆に、他の回線に収容されている回線を、収容している回線の上位回線と呼ぶ。例えば、図7において、回線α1は、回線αの上位回線であり、回線α11〜α13の下位回線である。
【0018】
図1は、本発明によるネットワーク管理システムの構成図である。図1に示す様に、ネットワーク管理システム1は、警報管理装置1と、複数の通信装置で構成されるネットワーク2とを備えている。本発明において、ネットワーク2内の通信装置は、障害を検出した場合、当該障害を特定する警報を生成して警報管理装置1に送信するが、この警報には、障害内容に加えて、図2に示す様に、障害端点情報と、上位端点情報と、下位端点情報が含まれている。ここで、障害端点情報は、障害を検出した端点である障害端点を示すものであり、上位端点情報は、障害端点に対応する回線の上位回線の端点(上位端点)を示すものであり、下位端点情報は、障害端点に対応する回線の下位回線の端点(下位端点)を示すものである。なお、図2に示す情報は、例えば、SNMP(Simple Network Management Protocol)のOID(Object IDentifier)フィールドを利用して警報管理装置1に送信する。
【0019】
例えば、図7に示す総ての回線を終端する通信装置があり、回線αを終端する端点がβであり、回線α1〜α3を終端する端点がβ1〜β3であり、回線α11〜α24を終端する端点がβ11〜β24であるものとする。当該通信装置が端点βで障害を検出した場合、当該障害を通知する警報の障害端点情報には端点βが、上位端点情報には端点β1〜β3が、下位端点情報にはヌル値が設定されることになる。また、当該通信装置が端点β1で障害を検出した場合、当該障害を通知する警報の障害端点情報には端点β1が、上位端点情報には端点β11〜β13が、下位端点情報にはβが設定されることになる。
【0020】
さらに、図7に示す回線αと回線α1〜α3のみを終端する通信装置があり、回線αを終端する端点がβであり、回線α1〜α3を終端する端点がβ1〜β3であるものとする。当該通信装置が端点β1で障害を検出した場合、当該障害を通知する警報の障害端点情報には端点β1が、上位端点情報にはヌル値が、下位端点情報にはβが設定されることになる。
【0021】
図3は、警報管理装置1がネットワーク2の通信装置から警報を受信した場合に実行する処理を示すフロー図である。なお、警報装置は、新たに受信した警報の原因フラグを、障害原因であることを示す“原因”に設定して以下に説明する処理を実行する。なお、新たに受信した警報を、“処理中の警報”と呼ぶ。
【0022】
(S31)まず、処理中の警報の上位端点情報が示す上位端点を障害端点とする警報の処理を既に行ったか否かを確認する。つまり、障害端点情報が端点βを、上位端点情報が端点β1〜β3を示す警報を受信した場合、障害端点情報が端点β1を示す警報、障害端点情報が端点β2を示す警報、障害端点情報が端点β3を示す警報を既に処理しているか否かを判定する。なお、以下の説明において、処理中の警報の上位端点情報が示す上位端点を障害端点とする警報を、上位端点の警報と呼ぶ。
【0023】
(S32)上位端点の警報が処理済みである場合、これら上位端点の警報の原因フラグを、障害原因ではなく、他の警報からの影響であることを示す“影響”に設定する。
【0024】
(S33、S34及びS35)これら上位端点の警報の原因フラグが、S32において“影響”に設定する前に“原因”であった場合、これら上位端点の警報の発生時刻を基準として、所定期間内に発生しているこれら上位端点と同一レイヤの警報を抽出し、これら抽出した警報の原因フラグも“影響”に設定する。S33〜S35の処理は、各上位端点と対向する端点の警報を抽出するものであり、所定期間を長く取りすぎると、上位端点と対向するものではない端点の警報の原因フラグを“影響”に変更してしまう可能性が高くなり、逆に、所定期間を短くしすぎると、上位端点と対向する端点の警報が抽出できず、よって、これら警報の原因フラグを“原因”のままにしてしまう可能性が高くなる。したがって、所定期間については、これらの可能性を考慮した上であらかじめ経験的に決定しておく。
【0025】
(S36)続いて、処理中の警報の下位端点情報が示す下位端点を、障害端点とする警報の処理を既に行ったか否かを確認する。つまり、障害端点情報が端点β11を、下位端点情報が端点βを示す警報を受信した場合、障害端点情報が端点βを示す警報を既に処理しているか否かを判定する。なお、以下の説明において、処理中警報の下位端点情報が示す下位端点を障害端点とする警報を、下位端点の警報と呼ぶ。
【0026】
(S37)下位端点の警報が処理済みである場合、下位端点の警報の原因フラグを“原因”に、処理中警報の原因フラグを“影響”に設定する。
【0027】
(S38)最後に、警報管理装置1は、原因判定処理を実行する。図4は、原因判定処理を示すフロー図である。
【0028】
(S41及びS42)処理中の警報の発生時刻を基準として、所定期間内に発生している警報を抽出し、処理中の警報及び抽出した警報をレイヤ毎にグループ化する。ここで、警報のレイヤは、当該警報の障害端点情報が示す障害端点のレイヤであり、処理中の警報及び抽出した警報のうち、処理中の警報と同一レイヤの警報を、処理中レイヤの警報と呼ぶ。また、抽出した警報のうち、処理中の警報のレイヤより1つ上のレイヤの警報を上位レイヤの警報と、処理中の警報のレイヤより1つ下のレイヤの警報を下位レイヤの警報と呼ぶ。
【0029】
(S43及びS44)処理中の警報の原因フラグと、S41で抽出した警報のうち、処理中の警報と同一レイヤの警報の原因フラグが同一でない場合、これら警報の原因フラグを総て“影響”に設定する。つまり、総ての処理中レイヤの警報に対する原因フラグが“原因”を示していない場合、総ての処理中レイヤの警報に対する原因フラグを“影響”で統一する。当該処理は、処理中の警報の障害端点に対向する端点を抽出して、処理中の警報及び抽出した警報の原因フラグが共に“原因”ではない場合に“影響”に設定するものであり、その目的はS33〜S35と同じである。
【0030】
(S45及びS46)続いて、S41で抽出した警報のうち、上位レイヤの警報の原因フラグを総て“影響”に設定し、S41で下位レイヤの警報が抽出された場合、処理中レイヤの警報の原因フラグを総て“影響”に設定する。当該処理は、互いに関係する警報を処理中の警報の発生時刻を基準として抽出し、より下位のレイヤの警報が発生している場合には、上位側のレイヤの警報に対する原因フラグを“影響”に設定するものであり、所定期間に関する条件は、S33〜S35の処理におけるものと同じである。なお、警報は、下位レイヤ側から上位レイヤ側に波及するため、S41における所定期間は、レイヤ毎に異なる値とすることが好ましい。
【0031】
続いて、具体例を用いて図3及び図4の処理を説明する。図5に示す様に通信装置A〜Hが配置され、それぞれのレイヤにおいて実線で示す回線が設定されているものとする。つまり、レイヤ1の回線がそれぞれ隣接する通信装置との間で設定され、レイヤ2の回線が、通信装置A〜C間、通信装置C〜E間、通信装置E〜G間、通信装置G〜H間に、前記レイヤ1の上位回線として設定され、レイヤ3の回線が、通信装置A〜C間、通信装置C〜E間、通信装置E〜H間に、前記レイヤ2の回線の上位回線として設定され、レイヤ4の回線が、通信装置A〜H間に、前記レイヤ3の回線の上位回線として設定されているものとする。なお、図5において、実線の両端の丸印及びその近傍の英数字は端点及び端点名を表している。つまり、例えば、通信装置Cは、レイヤ1から3の回線を終端し、レイヤ1の端点としてC11及びC12を、レイヤ2の端点としてC21及びC22を、レイヤ3の端点としてC31及びC32を有している。図5に示す構成において、通信装置AとB間でレイヤ1の回線の障害が発生し、通信装置EとG間でレイヤ2の回線の障害が発生したものとする。
【0032】
このとき、障害端点として、A12、B11、A22、C21、E22、G21、A32、C31、E32、H31、A42、H41を示す計12個の警報が発生する。図3のフロー処理における説明で述べた様に、これら12個の警報の原因フラグは当初“原因”に設定するが、S31、S32、S36及びS37の処理により、障害端点として、A22、A32、A42、C31、E32、H41を示す警報の原因フラグは“影響”に変更される。さらに、S44においてC21、H31の原因フラグが“影響”に変更され、原因フラグが“障害”である警報は、障害端点としてA12、B11、E22、G21を示している警報になる。
【0033】
図6は、他の構成であり、その表現方法は図5と同じである。図6に示す構成において、通信装置BとC間でレイヤ1の回線の障害が発生したものとする。
【0034】
このとき、障害端点として、B12、C11、A22、E21、A32、E31、A42、H41を示す計8個の警報が発生する。しかしながら、S31、S32、S36及びS37の処理により、障害端点として、A32、E31、A42を示す警報の原因フラグは“影響”に変更される。また、S44においてH41の原因フラグが“影響”に変更される。さらに、障害端点としてB12及びC11を示す警報に対するS45の処理、または、障害端点としてA22及びE21を示す警報に対するS46の処理により、障害端点として、A22、E21を示す警報の原因フラグは“影響”に変更される。よって、原因フラグが“障害”である警報は、障害端点としてB12、C11を示している警報になる。
【0035】
以上、本発明は、ネットワーク2全体の構成を示すデータベースである構成管理装置を必要とせず、簡易に障害原因を示す警報と、他の障害からの影響により発生している警報を見分けることを可能にする。
【0036】
なお、本発明による警報管理装置は、コンピュータに、図3及び図4の処理を実行させるプログラムにより実現することもできる。
【符号の説明】
【0037】
1 警報管理装置
2 ネットワーク

【特許請求の範囲】
【請求項1】
障害を検出した端点である障害端点を示す障害端点情報、該障害端点に対応する回線の上位回線の端点を示す上位端点情報及び該障害端点に対応する回線の下位回線の端点を示す下位端点情報を含む警報を、各通信装置から受信する第1の手段と、
受信した第1の警報に含まれる下位端点情報に基づき、該第1の警報が障害原因を示すものではないと判定できる場合、該第1の警報に対する原因フラグを第1の値に設定する第2の手段と、
該第1の警報の発生時刻を基準とした第1の所定期間内に発生し、その障害端点が、該第1の警報の障害端点と同一レイヤである第2の警報を抽出し、該第2の警報に対する原因フラグの値と、該第1の警報に対する原因フラグの値が同一でない場合には、該第1の警報及び該第2の警報に対する原因フラグを第1の値に統一する第3の手段と、
を備えている警報管理装置。
【請求項2】
該第1の警報の発生時刻を基準とした第2の所定期間内に発生し、その障害端点のレイヤが、該第1の警報の障害端点の下位レイヤである第3の警報が存在する場合、該第1の警報及び該第2の警報に対する原因フラグを第1の値に設定する手段を、
さらに備えている請求項1に記載の警報管理装置。
【請求項3】
該第1の警報の発生時刻を基準とした第3の所定期間内に発生し、その障害端点のレイヤが、該第1の警報の障害端点の上位レイヤである第4の警報が存在する場合、該第4の警報に対する原因フラグを第1の値に設定する手段を、
さらに備えている請求項1又は2に記載の警報管理装置。
【請求項4】
前記第2の手段は、受信した前記第1の警報に含まれる上位端点情報が示す端点を障害端点とする第5の警報を既に受信している場合は、該第5の警報に対する原因フラグが、障害原因であることを示す第2の値であるか否かを判定し、第2の値である場合には、該第5の警報に対する原因フラグを第1の値に変更し、さらに、該第5の警報の発生時刻を基準とした第4の所定期間内に発生し、その障害端点のレイヤが、該第5の警報の障害端点のレイヤと同一である第6の警報を抽出し、該第6の警報に対する原因フラグを第1の値に設定する、
請求項1から3のいずれか1項に記載の警報管理装置。
【請求項5】
前記第2の手段は、受信した前記第1の警報に含まれる下位端点情報が示す端点を障害端点とする第7の警報を既に受信している場合に、該第1の警報が障害原因を示すものではないと判定する、
請求項1から4のいずれか1項に記載の警報管理装置。
【請求項6】
請求項1から5のいずれか1項に記載の警報管理装置としてコンピュータを機能させるプログラム。
【請求項7】
障害を検出した端点である障害端点を示す障害端点情報、該障害端点に対応する回線の上位回線の端点を示す上位端点情報及び該障害端点に対応する回線の下位回線の端点を示す下位端点情報を含む警報を生成する通信装置と、警報管理装置とを含む警報管理システムであって、
該警報管理装置は、前記通信装置からの警報を受信する第1の手段と、
受信した第1の警報に含まれる下位端点情報に基づき該第1の警報が障害原因を示すものではないと判定できる場合、該第1の警報に対する原因フラグを第1の値に設定する第2の手段と、
該第1の警報の発生時刻を基準とした第1の所定期間内に発生し、その障害端点が、該第1の警報の障害端点と同一レイヤである第2の警報を抽出し、該第2の警報に対する原因フラグの値と、該第1の警報に対する原因フラグの値が同一でない場合には、該第1の警報及び該第2の警報に対する原因フラグを第1の値に統一する第3の手段と、
を備えている、
警報管理システム。
【請求項8】
障害を検出した端点である障害端点を示す障害端点情報、該障害端点に対応する回線の上位回線の端点を示す上位端点情報及び該障害端点に対応する回線の下位回線の端点を示す下位端点情報を含む警報を、通信装置が生成する第1のステップと、
警報管理装置が、第1の警報を受信し、該第1の警報に含まれる下位端点情報に基づき該第1の警報が障害原因を示すものではないと判定できる場合、該第1の警報に対する原因フラグを第1の値に設定する第2のステップと、
警報管理装置が、該第1の警報の発生時刻を基準とした第1の所定期間内に発生し、その障害端点が、該第1の警報の障害端点と同一レイヤである第2の警報を抽出し、該第2の警報に対する原因フラグの値と、該第1の警報に対する原因フラグの値が同一でない場合には、該第1の警報及び該第2の警報に対する原因フラグを第1の値に統一する第3のステップと、
を備えている障害原因解析方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−205169(P2011−205169A)
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願番号】特願2010−67548(P2010−67548)
【出願日】平成22年3月24日(2010.3.24)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】