“智”在掌控!来看信服云如何实现桌面云场景下的AIOps智能运维
近日,QCon全球软件开发大会在广州举办。深信服创新研究院高级技术专家易佳在现场带来《深信服桌面云AIOps智能运维一体化方案演进》的主题演讲。

一、深信服桌面云简介
桌面云,即虚拟桌面架构(Virtual Desktop Infrastucture),俗称虚拟云桌面(VDI)。VDI的核心是云桌面的计算存储网络在服务器端完成,通过专有协议连接云桌面。易佳介绍,深信服桌面云具有移动性强、不受地域限制、集中管控、安全度高等特点。
二、挑战与方案设计
随着桌面云运维遇到第三方软件兼容性、蓝屏、木马等挑战,企业需要快速定位问题所在,如应用卡慢、响应延迟等,以及企业可能遇到私有云资源不足、硬件故障、网络等深层挑战,为此,深信服提出了桌面云智能运维一体化技术方案。

所有数据经由数据总线流入数据分析引擎,统一存储于InfluxDB、MongoDB等数据库,结合OpenAPI,供上层调度、分析和业务应用。

算法分析部分,包含特征工程、训练与模型调优,常用算法如故障预测、异常检测、关联推理等;
业务系统部分,包括闲置虚拟机识别、虚拟机扩容缩容建议等,如果出现故障,对故障进行溯源和故障分析。
这里数据采集引擎使用的是Sangfor AIOps Agent,借鉴了telegraf、datadog等开源agent的思想,实现了基于Golang的插件化采集引擎,支持采集Windows、Linux等多类不同维度的指标数据,供给AIOps分析。
随着用户诉求和用户体量的的不断变化,AIOps数据模型与AI框架演进了三个版本。

第二个演进的版本是一个轻量级AIOps引擎,支持OpenAPI和数据统一调度。同时也在这个版本引入缓存机制,实现了存算分离。同时,更多的AI算法也得到了支持。
从第三个版本开始,实现了一套桌面云全栈AIOps引擎。在该版本中,面对数据上报的性能瓶颈问题,抽象了数据接口,实现负载均衡。



最后,针对多维异构数据进行了冷热分层处理,冷数据存档供AI离线分析和模型训练,热数据实时监控和展示。
三、算法设计
深信服桌面云AIOps引擎提供业务自适应的AI调度,包括统一数据管理、统一模型管理和统一平台策略。

基于bagging策略的分段线性回归算法,目的是设计一套评分模型来评测当前虚拟机、主机和集群的健康程度。
基于CPU、内存、磁盘、告警等多维度学习,为每个维度建立弱学习器,最后综合多个弱学习器构建强学习器,计算得出整体的健康评分。
该算法综合评价多维核心资源消耗数据,以识别整体负载水平,结合专家经验设置的告警规则以捕捉偶发异常,运用bagging策略进行加权投票计算出机器的最终健康度评分。

该模型基于历史的CPU和内存时序数据来计算有效峰值,根据计算得到的资源有效峰值数据判断是否命中缩容/扩容策略,若命中则进一步判断该虚拟机是否处于懒惰机制保护时间段,判断通过后基于网格搜索以及A/B Test方法给出虚拟机最佳推荐配置。

根据经验换算公式得到mhz单位的CPU容量剩余数据与内存剩余数据,捕捉虚拟机平均vCPU消耗数据后,基于资源约束算法结合贪心策略,输出可新增虚拟机建议和硬件扩容优化指引。


该方案支撑大盘、集群、主机、虚拟机、网络、存储、应用软件全栈监控与分析。方案引入50+规则诊断一些核心指标问题,采集超过800维度的数据,适配30+卡慢场景,实现20+机器学习和统计算法,从而做到识别出常见的异常问题。

针对卡慢问题,深信服桌面云卡慢/故障异常检测准确率达到87%。实施卡慢缓解建议后,约有47%的问题能够得到明显缓解。
执行AIOps优化策略后,整体成本平均下降18%左右。同时,AIOps的智能诊断能力,可以覆盖桌面云65%的已知资源卡慢问题。


以上就是关于《深信服桌面云AIOps智能运维一体化方案演进》的分享,关注“深信服科技”公众号,持续获取更多技术干货内容。