ポストモーテム【post mortem】

概要

ポストモーテムとは、システム障害インシデントが収束した後に実施する振り返りのプロセス。原因の特定と再発防止策の策定を目的とした文書および会議の総称である。
ポストモーテムのイメージ画像

語源はラテン語の「死後に」を意味する言葉で、医療分野では「検死」(遺体解剖)を指す。IT分野では、米グーグル(Google)社などの大規模サービスを運営する企業が障害対応の標準プロセスとして整備したことで広まった。特にSRE(Sire Reliability Engineering)の実践と結びついて普及している。

ポストモーテムの文書には一般的に、障害の発生日時と継続時間、影響を受けた利用者数やサービス範囲、時系列の対応経緯、根本原因の分析、そして具体的なアクション項目が記載される。根本原因の分析には「なぜなぜ分析」の手法が用いられることが多く、表面的な技術的原因だけでなく、監視の不備や手順の欠如といったプロセス上の問題まで掘り下げる。

現代のポストモーテム文化では、航空事故調査などと同様に「特定の個人を責めることはしない」(blame-free)姿勢が基本とされる。個人の失敗として処理するのではなく、システムや組織の構造的な問題として捉えることで、関係者が事実を正確に開示しやすくなり、より深い分析が可能になるとされる。Google社が公開しているSREハンドブックでもこの姿勢が明文化されており、多くの企業がその考え方を取り入れている。

作成されたポストモーテム文書は社内で共有、蓄積され、類似インシデントの予防や新メンバーの教育に活用される。アクション項目には担当者と期日を明記し、進捗を追跡する運用が標準とされる。文書を書いて終わりにするのではなく、改善策の実施状況を定期的に確認するところまでをポストモーテムのサイクルとして定義する組織も多い。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。