数据降维和特征筛选的区别

分析测试百科网 > 行业资讯 > 技术原理

数据降维和特征筛选的区别

2022.11.24

数据降维，一般说的是维数约简（Dimensionality reduction）。它的思路是：将原始高维特征空间里的点向一个低维空间投影，新的空间维度低于原特征空间，所以维数减少了。在这个过程中，特征发生了根本性的变化，原始的特征消失了（虽然新的特征也保持了原特征的一些性质）。

而特征选择，是从 n 个特征中选择 d (d<n)个出来，而其它的 n-d 个特征舍弃。所以，新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。

主要区别在于坐标上。

特征选择，是在给定一组特征（也即确定了坐标）后，从中选取一个特征子集，因此相当于把一些坐标去除的过程。在大部分情况下特征选择都是在冗余变量较多的情况下使用，此时相当于坐标为斜坐标，甚至还存在冗余坐标（即用p个特征表达了k (k

降维，如果特指PCA这种线性降维方法，则降维所得的子空间是在原始坐标系旋转下不变的。而如果坐标系恰好选取为主向量，则PCA实际上等价于对这组特殊的坐标系进行特征选择，方式是根据样本在坐标轴上分散的程度来决定该坐标轴的去留。而在一般情形下，PCA降维所得的子空间是由几乎所有原始特征张成的，因此原始特征全部起作用。

因此，有学者（Zou & Hastie)提出了sparse PCA，旨在强迫使用部分原始特征张成尽量“优质”的子空间，同时实现了降维+特征选择，从而能在分析主成分的同时还可以加入模型的解释性。

如果涉及到非线性降维，如流形学习等方法，则与特征选择区别甚大，此时不仅有降维，还带有坐标轴的非线性扭转伸缩等操作。特征选择在更多情形下，还只是限于线性的范畴（此处的线性指对参数的线性）。

特征筛选

互联网

喜欢作者我要约稿

数据降维和特征筛选的区别

特征筛选（随机森林）

周锦帆

喜欢作者

打赏方式

数据降维和特征筛选的区别

特征筛选（随机森林）

周锦帆