说起程序员的痛苦时刻,深夜接到告警电话、短信绝对榜上有名,甚至可能留下“铃声PTSD”。
这也从另一个侧面提醒我们,所有在前台给用户丝滑体验的互联网产品,背后都有庞杂的系统和大量的工程师在支撑。而这其中,监控平台是保证高并发业务稳定运行的关键。
作为全球上百万款应用背后的通信云服务商,融云的高可用架构能保障峰值高达3572亿的日消息量100%送达。同时,“融云北极星【专业版】”提供完善的实时数据监控能力和异常指标告警服务,可供业务进行全局监控和问题排查。融云专有云客户可免费使用全部功能,非专有云客户可通过「开发者后台-北极星-概览-立即升级」付费开通服务。
“北极星”的业务数据实时统计、API监控能力,包含总消息量、消息峰值、消息量变化趋势在内的全局消息数据,用户同时在线数据,接口调用QPS(每秒查询率) 及报错情况。
在实时监控数据基础上,“融云北极星【专业版】”还上线了丰富的告警功能,可在业务调用融云IM、RTC接口的相关指标发生波动时,通过短信、邮件等方式告知相关人员及时排查和采取应对措施。
一、API告警:APIQPS&错误码
QPS:可设置全局或指定某个API的QPS阈值,当QPS大于等于设定频率时触发告警。
错误码:可指定HTTP错误码或业务返回错误码,既可以选择全部错误码,也可选择某个指定的错误码;可根据错误码出现的频次设定告警条件,如1分钟或1小时内出现404的次数为100次(调整范围1~10000次)。
二、消息量告警:全部&指定会话类型
可选择全部会话类型或指定的某个会话类型告警,针对上行、分发、下行进行监控;
比较时段支持与昨日同时段、上周同时段、环比上个时段作为对比参照,可选择消息量增长、下降某个单一维度,也可选择异常波动选项(即无论增长还是下降,到达设定幅度后均会触发告警)。
API和消息量告警均支持设置1分钟、5分钟、30分钟、1小时、3小时的告警间隔。同一规则在设定的告警间隔内不会重复发送告警通知;如规则设置为全局时,不同API在告警间隔内会多次触发。全局监控让“融云北极星”得以对IM和RTC服务进行全局追踪,是保障服务性能的关键手段;实时告警则可以支持开发者掌握业务波动,从而有的放矢地对业务进行管理和优化。