博客
关于我
机器学习经典模型简单使用及归一化(标准化)影响
阅读量:426 次
发布时间:2019-03-06

本文共 4014 字,大约阅读时间需要 13 分钟。

俗话说的好,不动手就永远不知道该怎么做,上次一听说要做这个的时候人都懵了,听了几次似乎都摸不到门道,这次花了几天时间去写了写,总算是摸到了点门道。

实验

数据集

这次用到的数据集是跟火电厂有关的,都是匿名特征,数据量为20160*170,做到最后发现只根据时间顺序就能做的比较好。

归一化

先来讲讲归一化。归一化也称标准化,是数据挖掘的一项基础工作,使用归一化的原因大体如下

  • 数据存在不同的评价指标,其量纲或量纲单位不同,处于不同的数量级。解决特征指标之间的可比性,经过归一化处理后,各指标处于同一数量级,便于综合对比。
  • 求最优解的过程会变得平缓,更容易正确收敛。即能提高梯度下降求最优解时的速度。
  • 提高计算精度。

MinMaxScaler

线性归一化,也称为离差标准化,是对原始数据的线性变换,min-max标准化方法的缺陷在当有新数据加入时,可能会导致X.max和X.min的值发生变化,需要重新计算。其转换函数如下:

StandardScaler

标准差归一化,也叫Z-score标准化,这种方法给予原始数据的均值(mean,μ)和标准差(standard deviation,σ)进行数据的标准化。经过处理后的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

MaxAbsScaler

原理与MinMaxScaler很像,只是数据会被规模化到[-1,1]之间。也就是特征中,所有数据都会除以最大值。这个方法对那些已经中心化均值维0或者稀疏的数据有意义。

模型

本次实验使用了5个模型,分别为Lasso、Redige、SVR、RandomForest、XGBoost。

实验方式

  • 以不同方式划分数据集和测试集
  • 使用不同的归一化(标准化)方式
  • 使用不同的模型
  • 通过比较MSE(均方误差,mean-square error)的大小来得出结论

部分代码及结果

数据预处理

#按时间排序sort_data = data.sort_values(by = 'time',ascending = True)sort_data.reset_index(inplace = True,drop = True)target = data['T1AOMW_AV']sort_target = sort_data['T1AOMW_AV']del data['T1AOMW_AV']del sort_data['T1AOMW_AV']from sklearn.model_selection import train_test_splittest_sort_data = sort_data[16160:]test_sort_target = sort_target[16160:]_sort_data = sort_data[:16160]_sort_target = sort_target[:16160]sort_data1 = _sort_data[:(int)(len(_sort_data)*0.75)]sort_data2 = _sort_data[(int)(len(_sort_data)*0.75):]sort_target1 = _sort_target[:(int)(len(_sort_target)*0.75)]sort_target2 = _sort_target[(int)(len(_sort_target)*0.75):]import scipy.stats as statsdict_corr = {    'spearman' : [],    'pearson' : [],    'kendall' : [],    'columns' : []}for i in data.columns:    corr_pear,pval = stats.pearsonr(sort_data[i],sort_target)    corr_spear,pval = stats.spearmanr(sort_data[i],sort_target)    corr_kendall,pval = stats.kendalltau(sort_data[i],sort_target)        dict_corr['pearson'].append(abs(corr_pear))    dict_corr['spearman'].append(abs(corr_spear))    dict_corr['kendall'].append(abs(corr_kendall))        dict_corr['columns'].append(i)    # 筛选新属性  dict_corr =pd.DataFrame(dict_corr)new_fea = list(dict_corr[(dict_corr['pearson']>0.41) & (dict_corr['spearman']>0.45) & (dict_corr['kendall']>0.29)]['columns'].values)# 选取原则,选取25%分位数 以上的相关性系数

模型测试

from sklearn.linear_model import LinearRegression,Lasso,Ridgefrom sklearn.preprocessing import MinMaxScaler,StandardScaler,MaxAbsScalerfrom sklearn.metrics import mean_squared_error as msefrom sklearn.svm import SVRfrom sklearn.ensemble import RandomForestRegressorimport xgboost as xgb#最大最小归一化mm = MinMaxScaler()lr = Lasso(alpha=0.5)lr.fit(mm.fit_transform(sort_data1[new_fea]), sort_target1)lr_ans = lr.predict(mm.transform(sort_data2[new_fea]))print('lr:',mse(lr_ans,sort_target2))ridge = Ridge(alpha=0.5)ridge.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)ridge_ans = ridge.predict(mm.transform(sort_data2[new_fea]))print('ridge:',mse(ridge_ans,sort_target2))svr = SVR(kernel='rbf',C=100,epsilon=0.1).fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)svr_ans = svr.predict(mm.transform(sort_data2[new_fea]))print('svr:',mse(svr_ans,sort_target2))estimator_RF = RandomForestRegressor().fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)predict_RF = estimator_RF.predict(mm.transform(sort_data2[new_fea]))print('RF:',mse(predict_RF,sort_target2))bst = xgb.XGBRegressor(learning_rate=0.1, n_estimators=550, max_depth=4, min_child_weight=5, seed=0,subsample=0.7, colsample_bytree=0.7, gamma=0.1, reg_alpha=1, reg_lambda=1)bst.fit(mm.fit_transform(sort_data1[new_fea]),sort_target1)bst_ans = bst.predict(mm.transform(sort_data2[new_fea]))print('bst:',mse(bst_ans,sort_target2))

结果

lr: 7.736200563088036ridge: 3.264150764935616svr: 3.505799850945091RF: 0.24087179220636037bst: 0.9945862722591914

上面的这段代码测试的是最大最小归一化情况下的结果,测试其他标准化时只需要改动mm = MinMaxScaler(),这段代码即可。

实验结果及原因分析

经过多次测试,统计结果如下

通过对比,可以发现,

  • 对于Lasso模型,使用MaxAbsScaler方式时,MSE增大十分明显,且归一化后结果高于不进行归一化时(可能是数据的问题),
  • 对于Redige模型,归一化结果也明显高于不归一化时的结果。
  • 对于SVR模型,不进行归一化时,其MSE会非常大,是因为svm实质上选择的是分割两类数据最远的超平面,由于错分类造成了影响,不进行归一化会造成对平面的影响,导致得到的划分平面不准确测试集成功率低。
  • 对于RandomForest和XGBoost来说,是否进行归一化对结果影响不大。这也是树模型的一大特征。

 

转载地址:http://uywuz.baihongyu.com/

你可能感兴趣的文章
OpenCV与AI深度学习 | 实战 | 文本图片去水印--同时保持文本原始色彩(附源码)
查看>>
OpenCV与AI深度学习 | 实战 | 通过微调SegFormer改进车道检测效果(数据集 + 源码)
查看>>
OpenCV与AI深度学习 | 实战—使用YOLOv8图像分割实现路面坑洞检测(步骤 + 代码)
查看>>
OpenCV与AI深度学习 | 实战篇——基于YOLOv8和OpenCV实现车速检测(详细步骤 + 代码)
查看>>
OpenCV与AI深度学习 | 实战|OpenCV实时弯道检测(详细步骤+源码)
查看>>
OpenCV与AI深度学习 | 实用技巧 | 使用OpenCV进行模糊检测
查看>>
OpenCV与AI深度学习 | 实践教程|旋转目标检测模型-TensorRT 部署(C++)
查看>>
OpenCV与AI深度学习 | 工业缺陷检测中数据标注需要注意的几个事项
查看>>
OpenCV与AI深度学习 | 干货 | 深度学习模型训练和部署的基本步骤
查看>>
OpenCV与AI深度学习 | 手把手教你用Python和OpenCV搭建一个半自动标注工具(详细步骤 + 源码)
查看>>
OpenCV与AI深度学习 | 水下检测+扩散模型:或成明年CVPR最大惊喜!
查看>>
OpenCV与AI深度学习 | 深入浅出了解OCR识别票据原理
查看>>
OpenCV与AI深度学习 | 深度学习检测小目标常用方法
查看>>
OpenCV与AI深度学习 | 超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务
查看>>
OpenCV与AI深度学习 | 高效开源的OCR工具:Surya-OCR介绍与使用
查看>>
OpenCV与AI深度学习|16个含源码和数据集的计算机视觉实战项目(建议收藏!)
查看>>
Opencv中KNN背景分割器
查看>>
OpenCV中基于已知相机方向的透视变形
查看>>
OpenCV中的监督学习
查看>>
opencv中读写视频
查看>>