服务整体的可用性,需要方方面面来保证
服务可用性也是衡量系统的一个关键指标
看上图,系统自身我们要配置好入口处的限流、单机限流、cpu自适应限流,对下游做好超时熔断配置,并做好降级方案
通过监控报警发现和定位问题
通过一些演练,来提前模拟问题和故障现场
通过执行预案,快速恢复问题
通过不断的压测,探测系统流量的瓶颈
除此之外,做好冗余部署,容灾和逃生方案,弹性扩缩容也是比较关键的
其他要说的就是,在做系统设计的时候,原则就是面向失败设计,我们假设哪些环节一定会出问题,而不是假设这里应该不会出问题吧 =-=
包括下意识规避redis 大key 问题,能够自动探测到热点key等也是额外的手段~
旁支逻辑做好failSafe和降级开关,关键时候是要弃车保帅的!
说点什么
您将是第一位评论人!