欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

“智_在掌控!来看信服云如何实现桌面云场景下的AIOps智能运维

2024-06-17 08:59:21 栏目 : 科技资讯大全 围观 : 0次

QCon全球软件开发大会在广州召开。深圳创新研究院高级技术专家易嘉作了题为“深圳桌面云AIOps智能运维集成解决方案的演进”的主旨演讲。

本演讲将重点介绍AIOps在桌面云场景中的实践经验,下面是他演讲的摘要。1.非常确信的桌面云介绍桌面云,即虚拟桌面架构(Virtual Desktop Infrastructure),一般称为虚拟云桌面(VDI)VDI的核心是云桌面的计算存储网络在服务器端完成,并通过专有协议连接到云桌面。我们坚信,桌面云具有强大的移动性、不受地域限制、集中控制和高安全性的特点。随着桌面云的维护和维护遇到了第三方软件兼容性、蓝屏、木马等挑战,企业需要快速识别应用卡速度慢、响应延迟等问题,企业需要私有云资源短缺、硬件故障等问题。你可能会遇到一些深层次的挑战,比如网络。

该计划包括两个核心组件:数据服务和智能分析服务。数据源主要是Logs,Traces和Metrics,它们代表桌面云的日志,链接和度量数据。所有数据通过数据总线流向数据分析引擎,集成到InfluxDB和MongoDB等数据库中,并与Open API一起存储,用于更高级别的调度、分析和业务应用程序。

调度器部分包括策略发送器、动作和建议的编排、平台本身的运行状况监测等。算法分析部分包括特征工程、培训、模型调优;通用算法如故障预测、异常检测、相关推理等;业务系统部分包括空闲虚拟机识别、虚拟机扩展和缩小建议等,在发生故障时进行故障跟踪和故障分析。这里的数据采集引擎使用了Sangfor AIOps Agent,借鉴了telegraf、datadog等开源代理的思想,实现了基于Golang的插件采集引擎,支持Windows、Linux等各个维度的指标数据采集,并为AIOps分析提供了投入。随着用户需求和数量的变化,AIOps数据模型和AI框架已经演变成三个版本。第一个版本是一个轻量级的监控分析系统,支持时间序列数据、警报数据、统计分析和容器化部署。支持主机、虚拟机数据采集,做简单的AI分析,适合小用户使用。第二个进化版本是轻量级AIOps引擎,支持Open API和数据集成调度。同时引入了缓存机制,实现了内存分离。更多的AI算法也得到了支持。从第三个版本开始,桌面云的全栈AIOps引擎已经实现。面对数据升级的性能瓶颈,此版本抽象了数据接口并实现了负载平衡。其次,设计了一个双对存储器磁盘的分配层次结构。对于具有高度优先级的实际数据和实际经验至关重要的指标,我们将确保优先存储。同时,对数据结构进行多级分割表的优化。保留横向扩展能力,并按集群划分表。它减少了不必要的标签条目,如ip和hostname,只保留标签中的一个。为了在实时性和准确性之间取得平衡,减少数据重复,我们可以根据收集指标区分不同的收集周期,例如CPU设置为10秒,内存设置为20秒。静态数据,如服务器型号、磁盘大小等,只收集一次。在时间窗口内重新加权数据,例如过程信息;根据指标量和拥塞程度动态调整收集周期。最后,对多维异构数据进行冷与冷分层处理,冷数据存档用于AI离线分析和模型训练,实时监控和显示热数据。桌面云AIOps引擎提供业务自适应人工智能调度,包括统一数据管理、统一模型管理和统一平台策略。其中包括基于bagging策略的分段线性回归算法,基于网格搜索的缩放模型,基于资源约束算法和贪婪策略的虚拟机附加模型,以及基于时间序列特征提取和随机森林的空闲资源识别模型。基于bagging策略的分段线性回归算法旨在设计一个评分模型,以评估当前虚拟机、主机和集群的健康状况。基于对CPU、内存、磁盘、报警等的多维学习,为每个维度构建一个弱学习器,最后整合多个弱学习器构建一个强学习器,计算出整体健康分数。该算法对多维核心资源消耗数据进行综合评估,识别整体负荷水平,结合专家经验设定的预警规则捕捉意外异常,并使用bagging策略进行加权投票,计算出机器最终的健康评分。基于网格搜索的扩展模型在公共云和混合云场景中也很常见。如果虚拟机的CPU和内存资源不足或过多,则需要进行精细的调度,以控制运营成本,同时保证经验。该模型根据历史CPU和内存定时数据计算有效峰值,根据计算出的资源有效峰值数据确定是否命中缩小/扩展策略,如果命中,则进一步确定该虚拟机是否处于懒惰机制保护时段。判断后根据网格搜索和A/B Test方法给出虚拟机的最佳推荐配置。资源约束算法和贪婪策略虚拟机的新添加模型是基于总体允许并发性和当前并发性而设计的,根据并发性计算集群中剩余的内存和vCPU数量,读取集群的总体配置和当前虚拟机的并发性。通过经验转换公式,得到mhz单位的CPU容量剩余数据和内存剩余数据,得到虚拟机平均vCPU消耗数据后,根据资源约束算法和贪婪策略,输出可添加的虚拟机建议和硬件扩展优化指南。基于时间序列特征提取和随机林闲置资源识别模型,结合可扩展假设测试的时间序列特征,扩展虚拟机特征维度,训练随机林模型,输出虚拟机闲置概率及处置建议。同时收集用户反馈,反复优化预训练模型,形成闭环.第四,实践与落地效应本方案支持对大市场、集群、主机、虚拟机、网络、存储、应用软件的全栈监控与分析。它引入了50多条规则,诊断了一些核心指标问题,收集了800多个维度的数据,适应了30多个慢卡场景,实施了20多个机器学习和统计算法来识别常见异常问题。在桌面云场景中,虚拟机中的第三方流程问题相对较多,应用桌面云AIOps解决方案可以实现很多改进。对于慢速卡的问题,桌面云卡的慢速/故障异常检测准确率已达到87%。在实施长期缓解建议后,约47%的问题得到了显著缓解。在实施AIOps优化策略后,总体成本平均降低了18%。与此同时,AIOps的智能诊断功能覆盖了桌面云中65%的已知资源卡速度问题。此外,桌面云AIOps也面临一些挑战。例如,在私有云场景中,由于网络的限制,很难获取大量数据并进行持续的AI学习,从而导致整个AI链接更长。其次,用户的业务场景很多,在医疗、金融等各种场景下,算法模型如何实现高覆盖率和准确识别也是当前比较的问题。我们坚信,未来桌面云的演进方向将体现在增加更多的反馈和模型自我更新机制,实现多业务场景的覆盖。基于业务图像和业务知识图,实现了故障的精确诊断。以上是关于“Deep Trust Desktop Cloud AIOps智能运维集成解决方案演进”的分享,关注“Deep Trust Technology”公众号,不断获取更多技术干燥内容。

展开剩余内容

分享到:

猜你喜欢

热门标签