https://www.netone.co.jp/media/detail/20240313-01/
https://www.netone.co.jp/media/detail/20240313-01/
- ライター:知念 紀昭
- メーカーで生産ライン業務を経験後、製品の評価・設計を担当。
その後SIerでシステム設計構築業務を経てネットワンシステムズに入社。
入社後は仮想化ハードウェア・ソフトウェアの評価・検証業務、クラウドソリューション業務などを担当。
現在は、主にデータの利活用・機械学習ビジネスを推進している。
監視ツール群からデータを収集
前回は、AIOps「Splunk IT Service Intelligence」を用いた仮想環境の運用高度化を紹介いたしました。
今回は、Splunk ITSIと監視ツールを連携させた統合ITダッシュボードを提案します。
現行のIT運用ではシステム毎に異なった監視ツールを用いることが多く、運用者は個々のダッシュボードを確認する必要があり、平常時の確認や異常時のトラブルシューティングに時間を要していました。Splunk ITSIは監視対象からデータを直接収集し監視ツールの一つとして用いる方法が一般的です。
更に一歩進んだ使用方法として、個々の監視ツール群からデータを収集しダッシュボードを一つに纏めた「統合ITダッシュボード」を提案します。統合ITダッシュボードの導入によって運用者は通常時に一つのダッシュボードから正常・異常の判断が出来るようになり、障害時にはそのダッシュボードから障害切り分けを実施し、トラブルシューティングの時間が短縮されるでしょう。
図1:Splunk ITSIのデータ収集方法
Splunk ITSIに監視ツール群からデータを取り込むことにより、厳選されたデータのみがSplunkのインデクサーに取り込まれデータ量が極小化されます。そのため、Splunk ITSIが消費するリソース(CPU、メモリ、ストレージ、ネットワーク)の極小化と、取り込み容量に比例して増えるライセンス費用が極小化され、結果的に大規模展開も可能な拡張性を期待できます。
また、既存の監視ツール群と連携して共存するため、それらを排除して置き換えるリスクは発生しません。
統合ITダッシュボードをPOCで使用し、もしも利用価値が見いだせなかった場合には簡単に取り外すことが出来るため、お試し利用も可能です。
統合ITダッシュボードの目指すゴール
Splunk ITSIを用いた統合ITダッシュボードは、インフラとアプリの一体となった見える化「IT運用高度化」を実現し、障害の極小化を図ります。
統合ITダッシュボードの目指すゴールは4つです。
一つ目は複数の監視ツールを統合するITダッシュボードそのものです。二つ目は、自動的に障害箇所を特定することによる障害時の切り分け迅速化です。三つ目は、アラートとして上がってこないサイレント障害の検知です。最後に四つ目が、将来予測機能によって異常を素早く予測し障害を未然に防止することです。三つ目と四つ目のゴールはAIを用いて実現されます。
図2:統合ITダッシュボードの目指す四つのゴール
Splunk ITSIによる統合ITダッシュボード
Splunk ITSIを用いた統合ITダッシュボードでは、各監視ツール群からAPIやログをもとにデータが収集され可視化されます。前回までの記事でご紹介したように、各監視対象をサービスとして定義し、サービスとサービスの関係を依存関係として定義しヘルススコアが計算されることによって、障害発生時にどこが根本原因なのかサービスツリーから把握できます。
障害発生時には、ダッシュボード上のタイルやツリーをクリックしドリルダウン形式で調査も可能です。また各ツール群へのハイパーリンク誘導も出来ます。監視ツールによっては該当箇所の動的URLがデータとしてSplunk ITSIに取り込まれるため、ピンポイントで障害発生のダッシュボードに導かれます。
図3:ドリルダウンや各ダッシュボードへのリンクでトラブルシュート
また障害箇所に該当する管理者に対してメール通知やチャットによる通知も可能です。更にカスタマイズダッシュボードを作成し、特定の関係者へのみ公開を許可しステータス共有を行うこともできます。
統合ITダッシュボードを用いたトラブルシューティング
個々の監視ツール群で運用している場合、障害発生時には複数の監視ツールで状況を確認する必要があります。複雑化に伴って確認箇所が多くなり、それに伴いサーバ管理者とアプリ開発者とネットワーク管理者とストレージ管理者などが連携して行うケースの場合には解決時間の長期化の恐れがあります。
図4:従来のトラブルシューティング
一方、Splunk ITSIを用いた統合ITダッシュボードがあればダッシュボード上で障害切り分けが行われ障害箇所を担当する管理者が早く対応できるため、早期解決が期待できます。
図5:統合ITダッシュボードを用いたトラブルシューティング
最後に
今回はAIOpsのSplunk ITSIと監視ツールを連携させた統合ITダッシュボードをご提案致しました。様々な分野へのデータ利活用・AI活用に挑戦するネットワンシステムズに今後もご期待ください。
※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。
0 コメント:
コメントを投稿