KDDI株式会社様 運用効率化事例
システムごとに異なる監視アプリケーションを利用していたKDDIが、Zabbixで監視業務を標準化。サポート体制の統一と運用の効率化を実現
システムごとに異なる監視アプリケーションを利用していたKDDIが、Zabbixで監視業務を標準化。サポート体制の統一と運用の効率化を実現
監視ソリューションを自社内で運用し、監視の標準化と効率化を目指す
特定のベンダーや製品に依存することなく、運用・監視に必要な機能を十分に持ち合わせていること
運用・監視の改善を自社内で行うことが可能であること
監視の標準化に向け、監視実装ポリシーを明文化
Zabbix用テンプレートを作成し、標準テンプレートとして展開
運用・監視の設定に必要な知識の共通基盤ができ、サポート体制が統一
標準化によって導入プロセスの簡素化が可能に
構築から監視体制が整備できるまでの時間が3週間から30分に短縮
KDDIは、大手通信事業者として5Gを中心とした通信サービスを提供するとともに、顧客へのデジタルトランスフォーメーションの推進や、金融事業、エネルギー事業など、国内外で幅広く事業を展開している。
同社が監視ソリューションの導入を検討することになったのは、システムごとに異なる監視アプリケーションを利用していたことが背景にある。また、人手による運用業務となっていたことから、効率性も課題だったほか、属人化した状況も現場担当者を悩ませていた。
「設備によって監視サーバーが異なるため、担当する設備が変わる度に学習コストが発生します。また、実装コストや監視設備の開発・保守コストも削減したいと考えていました」と、 KDDI エンジニアリング推進本部 クラウドエンジニアリング部 エキスパートの神谷太郎氏は語る。
改善に向けた仕組みを導入しようとしたものの、開発を委託していたベンダーが監視も担当していたため、自ら手を入れることができなかった。ベンダーの提供する監視ソリューションを自社内で運用できるよう変革するという選択肢もあったが、「ベンダーとの責任分界点が課題となりますし、システムごとに監視システムが異なる状況も解消したかったので、自社で独自に運用できる監視ソリューションを検討することとなりました」と神谷氏は述べている。
また、監視項目を設備単位で設計・構築していたことから、設備によって監視内容が異なっていたほか、監視品質にもムラがあった。
そこで神谷氏のチームは、監視の標準化に向けて動き出した。まず、監視の実装標準を統一すべく、監視実装ポリシーを作成して明文化。監視すべき項目の目的や実装例を記載することで、監視項目の最低ラインを明確にした。その内容を開発パートナーにも提供し、社内の各部門と開発パートナーで実装すべき認識を統一。こうして整備した監視実装ポリシーにより、監視の標準化に向けた準備を整えた。
ソリューションの導入にあたっては、さまざまなツールを比較検討した。最終的にはZabbixともう1件のソリューションまで絞り込んだが、最終的にZabbixを選択したのは、「それまでにもZabbixの利用経験があり、必要最低限の知識を持つ担当者が多かったことに加え、監視ソリューションとして、統計機能など運用監視に必要なものがZabbixにはほぼすべて入っていたことが大きかったですね」と神谷氏は言う。
また、「当チームではログを監視することが多く、そのニーズに合ったソリューションがZabbixでした。他のソリューションはサービスの状態を監視するものが多く、長期的なデータ保存やログ監視が得意ではないものもありましたから」と神谷氏。同氏が利用経験のあったZabbix 1.8などの古いバージョンでは、ログ監視の性能に不安もあったというが、「今回のZabbix 5.0/6.0の導入にあたっては、大きくパフォーマンスが改善されていることが確認でき、安心して使えると判断しました」としている。
さらに神谷氏は、アイテム設定やトリガー設定といった監視設定がすべてGUIにて可能で、上位通知などの細かな部分がカスタムできる点も評価している。「初めてZabbixで監視設定する担当者がいても、GUIであれば初見でもわかりやすいと感じています。それに、ポーリング時などにAPIを利用して他システムと連携できるのもありがたいですね」(神谷氏)
Zabbixの導入プロセスはスムーズだったという神谷氏だが、チューニングには多少の苦労が伴ったという。「内部でサポートを実施するため、標準化する段階で他システムでのチューニング事例などを元に、基本的なチューニングができるようにしました。特に現在利用しているMariaDBは、大規模になると適切に機能しない部分もあったため、そのチューニングには少し苦労しました」と神谷氏。
それでも導入の効果は大きかった。まず、運用・監視の設定に必要となる知識の共通基盤ができたことだ。これにより、コスト削減が実現したほか、現場担当者への教育も容易になった。「これまでは、特定の担当者でなければわからないことも多く、知っている人を探すだけでも一苦労でした。それが今では、当チームがZabbixサポート部門のような役割を果たすようになっています。知らない部署からの問い合わせも来るようになったため、対応は大変ですが、サポート体制が統一できて効率性は高まりました」と神谷氏は言う。
また、ポリシーを自動適用する仕組みなども取り入れた結果、「構築からテンプレートを適用し、監視体制を整えるまで30分程度でできるようになりました。過去には3週間程度かかっていたので、大幅な時間短縮です」と神谷氏。「何百台もあるサーバーへのポリシー適用漏れも防げるため、品質向上にもつながっています。LLDの仕組みを活用すれば、コンテナの監視も自動化できますしね」と、神谷氏はその成果を説明する。
社内サポート体制に切り替えても、特に大きな問題は生じていないと神谷氏。むしろ、社内でZabbix経験のある担当者に質問できるようになったことから、以前より迅速なサポートができているという。社内で利用しているMicrosoft Teamsには、Zabbixに関する質問ができる場も設けた。そこでは、3営業日以内での課題解決を目指し、質問への解決方法を手順も含めて提示しているという。
導入後は監視項目の標準化も実現した。神谷氏と同じシステムアセットGでグループリーダーを務める川俣充氏も、「これまでは設備を導入する際、それぞれ独自の設計だったため、各設備が適切に監視ができているかチェックする必要がありました。それが標準化できたことで、導入プロセスが省略できるようになっています。監視項目の確認も必要なくなり、承認の手続きも簡略化できるようになりました」と語る。
標準化にあたっては、KDDI内で定めた監視実装ポリシー内で監視項目を容易に設定できる仕組みの導入を心掛けた。また、自社内で監視実装ポリシーに準じたZabbix用の標準テンプレートを作成。マクロを変更することで、環境に応じた監視もできるようになった。「テンプレートの使いやすさもZabbixならではだと感じます」と、川俣氏は述べている。
こうしてサーバーの監視体制が整備できたKDDIでは、今後サーバー以外にも、ネットワークやモバイル系などさまざまな設備に対してZabbixの利用を拡大していく計画だ。ノウハウや悩みを共有することが相互解決につながり、結果として監視品質も向上すると考えているためだ。今後監視対象とするホストの台数は、サーバー系およびモバイル系の設備でそれぞれ約5000ホスト、ネットワーク系の設備で約2万ホストまで拡大する予定だという。
そのため、まずはベースライン監視の標準化を実施する予定だ。サービスの利用状態を確認するためのKPIを各設備で定義し、KPI単位での異常を判定、リアルタイムで障害を検知できるようにするという。また、機械学習をZabbixで標準化し、CPUの利用率など機器単位のメトリックデータを分析、異常の有無を判定して障害を検知できるようにしていく考えだ。
「今後もより良い監視をZabbix上で実現し、設備運用のスタンダードとして改善していく予定です」と神谷氏は語った。
KDDIは移動通信・固定通信の両方を併せ持つ、総合通信事業者として時代の変革をリードする企業を目指しています。個人のお客さま向けには「au」ブランドのもと、移動体通信 (au携帯電話) 事業と固定通信 (ブロードバンド・インターネット/電話) 事業を展開し、シームレスにつながる新しい通信環境の実現に貢献しています。また、法人のお客さまには、FMCネットワークからデータセンター、アプリケーション、セキュリティ対策まで全てのICT領域でサービスを提供し、ビジネスを強力にサポートしています。
質問事項にお答えくださいまたは、マーケティングチームまでお気軽にお問い合わせください。