|
项目背景 |
|
充值支付业务是中国移动重要业务之一,随着充值支付中心业务的扩展,其内部业务模块关系越来越复杂,与外部商户、省侧依赖愈加紧密,系统的异常往往涉及业务、应用、系统多个层面,故障的定位和解决需要大量日志分析、指标分析和系统研判,传统技术手段的监、管、控的运维方式已难以满足业务发展的要求。
在此形式下,急需探索AI技术在故障定位方面的应用,利用大数据和人工智能技术,逐步构建智能运维平台,实现降本增效。
|
系统架构 |
|
|
主要功能 |
|
■ 业务故障监测:对流量类、错误(成功)率类、响应时间类、容量类四类业务黄金指标进行实时监控,支持周期性指标、长期趋势、统计平稳度等指标模型。
■ 故障定位:包括故障调用链的分析,集群故障定位和故障知识库。故障调用链分析是通过对服务调用关系的分析,判断异常所在的服务和实例;集群故障定位主要用于确定中间件集群出问题的主机;故障知识库则是对历史故障进行记录和沉淀,在后续发生相似的问题的时候能够及时匹配到相关的信息。
■ 告警收敛:通过降噪过滤、关联聚合、以及对特定场景的识别,大幅降低告警条数,推荐更有可能是根源的告警。
■ 日志服务:日志服务功能提供对报文、告警、INFO日志的筛选、搜索和统计功能。能够通过日志主机对日志条目进行筛选、也可以自选需要展示的日志字段。
|
应用效果 |
|
■ 10万+ 减少到100+,人均处理告警减少90%
■ 准确率100%,响应及时率提升40%
■ 流程效率提升,通过告警分诊,准确判断归属和责任,响应时间提升80%