Chapter5 可用性

什么是可用性(Availability)

可用性(Availability)与可靠性(reliability)或可信性(r dependability)的区别

故障(Fault) vs 失败(Failure)？

可用性策略使系统能够忍受故障，以便服务保持符合其规格说明。这些策略可以防止故障导致失败，或至少限制故障的影响，并使修复成为可能。

Ping/echo：用于确定与相关网络路径的连通性和往返延迟。
监视器(Monitor)：用于监控系统其他部分的健康状态的组件。
心跳(Heartbeat)：系统监视器与被监视的进程之间的定期消息交换。
- 进程定期在其监视器中重置看门狗计时器，
- 将心跳消息与其他控制消息捆绑在一起，减少开销。
"ping"和"heartbeat"之间的区别是什么？
- 谁发起健康检查？ping 是检查者主动发信息，heartbeat 是被检查者发信息
时间戳(Timestamp)：用于检测分布式消息传递系统中的事件顺序错误。
条件监控(Condition Monitoring)：检查进程或设备中的条件，或验证设计过程中的假设。
- 例如，在数据存储和传输中使用校验和(checksum)。
投票(Voting)：这种策略的常见实现是三重模块冗余(Triple Modular Redundancy TMR)。

主动冗余(热备份)(Active Redundancy (hot spare))：保护组中的所有节点以并行方式处理相同的输入，允许冗余备份与活动节点保持同步状态。
备用(冷备份)(Spare (cold spare))：保护组的冗余备份保持停机状态，直到发生故障切换，此时在将冗余备份投入使用之前，会启动电源复位程序。
被动冗余(温备份)(Passive Redundancy (warm spare))：只有保护组的活动成员处理输入流量；
- 其中一个职责是向冗余备份提供定期的状态更新。
回滚(Rollback)：恢复到先前已知的良好状态，称为"回滚点"。
- 这种策略与冗余策略结合使用。
- 在发生回滚后，故障组件的备用版本变为活动状态。
- 回滚依赖于先前状态的副本（检查点）。
- 检查点可以存储在固定位置，并需要定期更新。
重试(Retry)：当故障是暂时性的，重新尝试操作可能会成功。
- 例如，网络重传。
忽略错误行为(Ignore Faulty Behavior)：当确定某个消息是伪造的时，忽略来自该消息源的消息。
- 例如，忽略来自拒绝服务攻击者的消息。
退化(Degradation)：在组件故障的情况下保持最关键的系统功能，放弃较不关键的功能。
重新配置(Reconfiguration)：将责任重新分配给仍然正常运行的资源，同时尽可能保持功能性。