DMMはECサービスや動画サービス、はたまた英会話サービスまでいろいろ手広くやられているサービスです。古い情報にはなりますが、そのDMMがシステム監視において基本としている5つの考えがあるという情報があったのでまとめておきます。
概要)
P56より、DMM.comの監視ノウハウの記事にて
●基本的に5つの監視の考え方で構成されている模様。
・死活監視
→Pingによる監視
・リソース監視
→CPU使用率、メモリ使用率、ディスク使用率、ロードアベレージ、
SWAPは必ず監視。閾値を超えたら、アラート。
・サービス監視
→URLにアクセスして正常か確認
・ポート監視
→該当ポートにアクセスできるか確認
・トラフィック監視
→SWやルータの監視
●アラートのレベル分けとタスク化
→DMMくらいの規模だと大小問わなければ、多くのアラームがある。レベル毎に分けて必要な行動を迅速にとれるように、計画をしている。
上記の5つの監視とそのアラート情報のレベル分けは、どのシステム監視でもやるべきなんでしょうね~