当前位置：首页 > news >正文

每天五分钟机器学习：数据和特征决定机器学习的上限（特征工程）

news 来源：原创 2024/4/28 5:32:08

本文重点

本文将了解机器学习的特征工程，有一句话是说：“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”，这句话充分说明了特征工程的作用，如果将特征工程做好，那么模型的效果是不会差的。

1、数据预处理

2、特征选择

3、特征降维

4、特征构造

数据预处理是特征工程的第一步。

我们需要将数据进行统一化处理，举一个例子，比如房子的特征有房屋面积还有房屋的数量这两个特征，那么面积可能是100平米，而房屋数量也能就3个，这两个特征相差三倍，所以没有在同一规格，需要将二者进行归一化处理，将数据统一到同一个个规格中。

有的数据还会存在缺失值，那么此时我们需要对其进行处理，常用的方式有以下几种:

1、均值

2、就近填补

3、K近邻法

4、将缺失值也作为一种特征，有缺失为1，无缺失为0

5、舍弃该缺失值

6、训练一个模型，预测缺失值

数据处理完成之后，我们需要进行特征选择，因为一开始没有必要使用所有的特征，我们可以通过下面的方法找到最合适的特征。
1、方差选择法：如果某个特征的方差特别小，那么说明这个特征变化很小，有可能对模型的影响力很小。

2、使用相关系数（连续变量）和统计检验（离散变量）来对特征进行评估。
3、互信息法可以用来检测自变量对因

Mysql注入

测开 - 进阶篇 - 细节狂魔

【无标题】

多态

彻底理解Java并发：synchronized关键字

由一个按键程序引发的思考（上）

html制作一个酷炫的记事本（源码）

MATLAB 2--结构化程式与自定义函数

Go学习笔记 -- 并发原理

基于Nexus搭建docker镜像源仓库

Linux文件查找find