数据挖掘解决方案
数据中心承载着成百上千的业务应用。随着业务迅猛的发展、多样化的扩展,数据中心面临着巨大的规模扩张和运维压力。我们通过挖掘整合数据中心各个环节的海量数据,统一协调,指导运维,构建下一代智能化数据中心。在面对业务扩张的同时,更加合理、智能化的应对业务压力,并更好的保障数据中心的稳定性。
智能数据中心数据挖掘平台系统主要针对服务器、网络、数据中心各种基础设施相关的状态、性能、利用率、功耗、故障等数据,应用机器学习方法进行挖掘分析,产出预测模型和调度策略,与集群管理和机房动环系统联动,优化数据中心的运营管理,构建全新的智能化数据中心。
基于数据驱动的智能数据中心架构方案
一、功能组件
•统一预测请求服务(Prediction Requst Service,PRS)
所有预测请求的统一HTTP前端入口,定义了统一的URL地址和JSON消息格式。
根据请求消息的不同标识来区分不同的执行流程(用户自带原始数据还是平台主动拉取)。
•数据装配器
为具体模型应用从数据仓库拉取原始数据,用于后续请求模型。
•数据仓库
对接运维数据仓库(IDC Data Warehouse)平台,提供硬件数据在线/离线查询服务。
•统一模型请求服务(Model Request Service,MRS)
定义了平台内部不同模型的接入/调用规范。
•特征工程库
集成常用特征处理方法的一组库函数/算子,区分单机/并行;
单机库主要与线上模型结合,实现由原始数据=>内部特征=>预测结果的在线。
•模型请求流程
并行库主要用于处理大规模离线历史数据,实现离线模型训练流程;目前主要支持Spark。
•算法平台
公司内部主要的公共算法平台(Paddle、BML等),用于高效训练调优模型。
二.应用场景
1.硬盘故障预警
提前发现故障硬盘,启动故障修复/数据迁移操作;硬盘健康分级,利旧回收。独创技术:硬盘smart属性变点检测,自适应提取各厂商不同型号硬盘故障特征,提高模型迁移能力。
2.网络流量预测
预测未来时刻的网络出入带宽,用于外网攻击识别和内网拥塞调度,剔除流量异常计费,削峰填谷。
3. 智能散热
预测未来机房的PUE、室内外温湿度,实现机房散热与负载协同,降低PUE;
4.服务器能耗预测
预测未来时刻的服务器功耗值,优化机房供节电,增加单机架服务器密度。
5.网络故障日志挖掘
分析syslog文本语义,预测网络设备故障,提高运维效率。
6.网络故障定位
在检测到网络链路发生抖动后,迅速定位最可能发生故障的子链路。
7.网络巡检
通过对网络质量数据(时延,丢包率等)做异常检测,实现日常网络异常智能告警。通过对各数据中心与网络核心流量关联分析,实现日常对端口流量的智能巡检与告警。