[1]吴斌鑫,刘 美,周正南,等.基于 Lasso 回归及模型修正的双重回归缺失值插补方法研究[J].机械与电子,2022,(09):17-21.
 WU Binxin,LIU Mei,et al.Research on Missing Value Interpolation Method of Double Regression Based on Lasso Regression and Model Modification[J].Machinery & Electronics,2022,(09):17-21.
点击复制

基于 Lasso 回归及模型修正的双重回归缺失值插补方法研究()
分享到:

《机械与电子》[ISSN:1001-2257/CN:52-1052/TH]

卷:
期数:
2022年09期
页码:
17-21
栏目:
设计与研究
出版日期:
2022-09-27

文章信息/Info

Title:
Research on Missing Value Interpolation Method of Double Regression Based on Lasso Regression and Model Modification
文章编号:
1001-2257 ( 2022 ) 09-0017-05
作者:
吴斌鑫 1 2 刘 美 1 周正南 1 2 莫常春 1 4 吴 猛 2 张 斐 3
1. 广东石油化工学院,广东 茂名 525000 ; 2. 吉林化工学院,吉林 吉林 132022 ; 3. 东莞理工学院,广东 东莞 523419 ; 4. 大连交通大学,辽宁 大连 116028
Author(s):
WU Binxin1 2 LIU Mei1 ZHOU Zhengnan1 2 MO Changchun1 4 WU Meng2 ZHANG Fei3
( 1.Guangdong University of Petrochemical Technology , Maoming 525000 , China ; 2.Jilin Institute of Chemical Technology , Jilin 132022 , China ; 3.Dongguan University of Technology , Dongguan 523419 , China ; 4.Dalian Jiaotong University , Dalian 116028 , China )
关键词:
轴承数据岭回归 Lasso 回归缺失值插补相关性分析
Keywords:
bearing data ridge regression Lasso regression missing data interpolation correlation analysis
分类号:
TP274
文献标志码:
A
摘要:
针对各传感网络中传感数据因工作环境变化、传感设备异常等因素而引起的测量值缺失的问题,提出了一种基于 Lasso 回归及模型修正的双重回归缺失值插补方法。该方法采用原始数据滑动窗口法生成数据集并随机删除部分数据,以 Lasso 回归模型为基准,使用岭回归与皮尔逊相关性分析联合分析且生成集成岭回归与相关性的数据集,并将其作为 Lasso 回归模型的特征(双列),以双重回归方式进行模型修正,最终实现对缺失值的插补。以西储大学轴承数据为例,对所提方法及另外 2 种缺失值插补方法( KNN的数据插补和 Lasso 回归的缺失值插补)在缺失率为 4% 、10% 和 20% 下进行比较,并采用均方根误差、模型训练时间及决定系数作为评估指标。结果表明,基于 Lasso 回归及模型修正的双重回归缺失值插补方法具有较好的表现,为后续的故障诊断提供可靠的基础数据。
Abstract:
Aiming at the missing measurement values caused by the change of working environment and abnormal sensor equipment of petrochemical units , a method of double regression of missing value interpolation based on Lasso regression and model modification is proposed.The method uses the original data sliding window method to generate the dataset and randomly delete some data.Taking Lasso regression model as a benchmark , the method uses ridge regression with Pearson correlation analysis to jointly analyze and generate a dataset integrating ridge regression and correlation.This is a feature( double row ) of the Lasso regression model.On the basis of the dual regression , the missing value is finally interpolated.Taking the bearing data from Western Reserve University as an example , the proposed method and the other two missing value interpolation methods ( KNN data interpolation , Lasso regression missing value interpo ation ) are compared at missing rate of 4% , 10% and 20% , and the root mean square error , model training time and determination coefficient are used as evaluation indexes.The results show that the double regression missing value interpolation method based on Lasso regression and model modification performs well , and provides reliable basic data for subsequent fault diagnosis.

参考文献/References:

[ 1 ] ROYSTON P.Multiple imputation of missing values : update [ J ] .The stata journal : promoting communications on statistics and stata , 2005 , 5 ( 3 ): 227-241.

[ 2 ] 兰妥,江弋,刘光生 . 基于 Sas 的时间序列缺失值处理方法比较[ J ] . 计算机技术与发展, 2008 ( 10 ): 43-45.
[ 3 ] LITTLE R J A , RUBIN D B .Statistical analysis with missing data [ J ] .Technometrics , 2002 , 45 ( 4 ): 364-365.
[ 4 ] 王德宝 . 基于 KNN 算法的改进研究及其在数据分类中的应用[ D ] . 淮南:安徽理工大学,2018.
[ 5 ] BEALE E , LITTLE R .Missing values in multivariate analysis [ J ] .Journal of the royal statistical society series B , 1975 , 37 ( 1 ): 129-145.
[ 6 ] WANG Y W , LI J , STOICA P .Spectral analysis of signals : the missing data case [ M ] .Williston : Morgan and Claypool , 2006.
[ 7 ] 侯贤沐,王付勇,宰芸,等 . 基于机器学习和测井数据的碳酸盐岩孔隙度与渗透率预测[ J ] . 吉林大学学报(地球科学版),2022 , 52 ( 2 ): 644-653.
[ 8 ] 黄玉贵 . 基于回归预测的铝块表面质量研究[ J ] . 农业装备与车辆工程, 2022 , 60 ( 1 ): 146-148.
[ 9 ] 郑侃,魏煜锋,文智胜,等 . 基于 BP 神经网络方法的风电场风速插 补 分析 应用 [ J ] . 南方能源建设,2021 , 8( 1 ): 51-55.
[ 10 ] 颜海波,邓罡,姜云卢 . 基于 MRCD 估计的多元线性回归模型的稳健估计[ J ] . 广西师范大学学报(自然科学版),2022 , 40 ( 1 ): 175-186.
[ 11 ] 王泽,张玉敏,吉兴全,等 . 基于深度学习与内核岭回归的电力系统鲁棒状态估计[ J ] . 高电压技术, 2022 ,48 ( 4 ): 1332-1342.
[ 12 ] 董艺,路云龙 . 基于相关性分析和主成分分析的基因调控网络研究[ J ] . 吉林化工学院学报, 2021 , 38 ( 9 ):112-116.
[ 13 ] 方升,梁飞豹,刘勇进 . 统计回归模型及其优化算法综述[ J ] . 福州大学学报(自然科学版), 2021 , 49 ( 5 ): 638-654.

备注/Memo

备注/Memo:
收稿日期: 2022-04-19
基金项目:国家自然科学基金面上基金资助项目( 62073091 );广东省高校重点领域(新一代信息技术)专项( 2020ZDZX3042 );东莞理工学院机器人与智能装备创新中心项目( KCYCXPT2017006 );广东省普通高校机器人与智能装备重点实验室项目( 2017KSYS009 );广东省普通高校特色创新项目( 2017KTSCX176 );机械设备健康维护湖南省重点实验室开放基金项目( 21903 )
作者简介:吴斌鑫 ( 1997- ),男,浙江嘉兴人,硕士研究生,研究方向为石化机组轴承数据挖掘;刘 美 ( 1967- ),女,广东湛江人,博士,教授,研究方向为智能检测与智能控制,通信作者。
更新日期/Last Update: 2022-10-25