当前位置: 首页 > news >正文

每天五分钟机器学习:数据和特征决定机器学习的上限(特征工程)

本文重点

本文将了解机器学习的特征工程,有一句话是说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,这句话充分说明了特征工程的作用,如果将特征工程做好,那么模型的效果是不会差的。

特征工程的四个关键步骤

1、数据预处理

2、特征选择

3、特征降维

4、特征构造

数据预处理

数据预处理是特征工程的第一步。

我们需要将数据进行统一化处理,举一个例子,比如房子的特征有房屋面积还有房屋的数量这两个特征,那么面积可能是100平米,而房屋数量也能就3个,这两个特征相差三倍,所以没有在同一规格,需要将二者进行归一化处理,将数据统一到同一个个规格中。

有的数据还会存在缺失值,那么此时我们需要对其进行处理,常用的方式有以下几种:

1、均值

2、就近填补

3、K近邻法

4、将缺失值也作为一种特征,有缺失为1,无缺失为0

5、舍弃该缺失值

6、训练一个模型,预测缺失值

特征选择

数据处理完成之后,我们需要进行特征选择,因为一开始没有必要使用所有的特征,我们可以通过下面的方法找到最合适的特征。
1、方差选择法:如果某个特征的方差特别小,那么说明这个特征变化很小,有可能对模型的影响力很小。

2、使用相关系数(连续变量)和统计检验(离散变量)来对特征进行评估。
3、互信息法可以用来检测自变量对因

相关文章:

  • Mysql注入
  • 测开 - 进阶篇 - 细节狂魔
  • 四旋翼无人机学习第4节--STM32、MPU9250等器件的绘制
  • Linux系统中利用open函数多次打开同一个文件操作方法
  • Windows下安装及卸载程序可用的添加和删除当前路径到环境变量的bat脚本以及如何和inno setup结合使用的实例
  • 【无标题】
  • stm32f103c6t6下的HAL库搭建三种低功耗模式
  • 多态
  • 彻底理解Java并发:synchronized关键字
  • 由一个按键程序引发的思考(上)
  • CDH大数据平台 21Cloudera Manager Console之azkaban与freeIPA、Kerberos等组合配置(markdown新版二)
  • Web开发:Web开发中的域概念整理与解读
  • html制作一个酷炫的记事本(源码)
  • Java项目:超市管理系统(java+SSM+JSP+LayUI+jQ+Mysql)
  • MATLAB 2--结构化程式与自定义函数
  • Go学习笔记 -- 并发原理
  • 【MindSpore产品】【数据处理功能】加入数据增强之后,报出卷积输入类型不同的问题
  • 基于Nexus搭建docker镜像源仓库
  • Estimating High-Dimensional Directed Acyclic Graphs with the PC-Algorithm
  • Linux文件查找find