第5章 信頼性のメトリクス
信頼性のメトリクスは、定量的測定を使用してソフトウェア製品の信頼性を示すために使用されます。使用するメトリクスは、信頼性のメトリクスを適用するシステムのタイプや、アプリケーションドメインの要件によって異なります。サイト信頼性エンジニアリング (SRE) の観点から、Java アプリケーションにフォーカスする主要なメトリクスがいくつかあります。
平均故障時間
平均故障時間 (MTTF: Mean Time to Failure) とは、2 つの連続する失敗間の間隔を指します。MTTF の測定に使用する時間の単位はシステムによって異なり、トランザクションの回数によって定義することもできます。大量のトランザクションがあるシステムの場合は、MTTF は通常一貫しています。
平均修復時間
平均修復時間 (MTTR: Mean Time to Repair) とは、故障の原因となったエラーの追跡と修復にかかる平均時間を指します。
平均故障間隔
MTTF と MTTR のメトリクスを組み合わせた場合、その結果は 平均故障間隔 (MTBF: Mean Time Between Failure) に相当します。時間の測定は、MTTF に含まれる実行時間ではなく、実際の時間になります。
故障発生率
故障発生率 (ROCOF: Rate of Occurrence of Failure) は、単位時間の間隔で発生する故障回数を指し、頻繁に発生する想定外のイベントの可能性に重点を置いています。
要求時故障率
要求時故障率 (POFOD: Probability of Failure on Demand) とは、サービスのリクエストが実行される際にシステムが故障する確率を指します。POFOD は、安全を最重視するシステムにおいて必要不可欠なもので、時としてサービスが要求される保護システムに適しています。
可用性
可用性は、システムがいつでも利用可能である確率を測定します。システムの修復時間と再起動する時間を考慮する必要があります。