题目描述
推动生产企业高质量发展,最根本的底线是保证安全、防范风险,而生产过程中产生的数据能够实时反映潜在的风险。附件1为某生产企业某日00:00:00-22:59:59由生产区域的仪器设备记录的时间序列数据(已经进行数据脱敏),本题未给出数据的具体名称,这些数据可能是温度、浓度、压力等与安全密切相关的数据。
请依据附件1数据,建立数学模型,完成以下问题:
问题1:
附件1所给出的数据都可能存在波动,且所有波动都在安全值范围内。有些波动可能是正常性波动,例如随着外界温度或者产量变化的波动,或者可能是传感器误报,这些波动具有规律性、独立性、偶发性等特点,并不能产生安全风险,我们视为非风险性异常,不需要人为干预;有些波动具有持续性、联动性等特点,这些异常性波动的出现是生产过程中的不稳定因素造成的,预示着可能存在安全隐患,我们视为风险性异常,需要人为干预、分析和评定风险等级。请建立数学模型,给出判定非风险性异常数据和风险性异常数据的方法。
问题2:
结合问题1的结果,建立数学模型,给出风险性异常数据异常程度的量化评价方法,要求使用百分制(0-100分)对每个时刻数据异常程度进行评价(分值越高表示异常程度越高)。应用所建立的模型和附件1的数据,找到数据中异常分值最高的5个时刻及这5个时刻对应的异常传感器编号(每个时刻只填写5个异常程度最高的传感器编号,异常传感器不足5个则无需填满;如果得分为0,可以不用填写异常传感器编号),并给出数学模型对所得结果进行评价。
思路
经典的异常分析问题,异常数据一般可以用机器学习的方法做,常用的聚类
kmeans
dbscan
决策树
孤立深林
LSTM
以上模型都可以套用进来
需要思路的同学,进 – 群