关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

数据降维和特征筛选的区别

2022.11.24

数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。

而特征选择,是从 n 个特征中选择 d (d<n)个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。

主要区别在于 坐标 上。

特征选择,是在给定一组特征(也即确定了坐标)后,从中选取一个特征子集,因此相当于把一些坐标去除的过程。在大部分情况下特征选择都是在冗余变量较多的情况下使用,此时相当于坐标为斜坐标,甚至还存在冗余坐标(即用p个特征表达了k (k

降维,如果特指PCA这种线性降维方法,则降维所得的子空间是在原始坐标系旋转下不变的。而如果坐标系恰好选取为主向量,则PCA实际上等价于对这组特殊的坐标系进行特征选择,方式是根据样本在坐标轴上分散的程度来决定该坐标轴的去留。而在一般情形下,PCA降维所得的子空间是由几乎所有原始特征张成的,因此原始特征全部起作用。

因此,有学者(Zou & Hastie)提出了sparse PCA,旨在强迫使用 部分 原始特征张成尽量“优质”的子空间,同时实现了降维+特征选择,从而能在分析主成分的同时还可以加入模型的 解释性 。

如果涉及到非线性降维,如流形学习等方法,则与特征选择区别甚大,此时不仅有降维,还带有坐标轴的非线性扭转伸缩等操作。特征选择在更多情形下,还只是限于线性的范畴(此处的线性指对参数的线性)。

推荐
热点排行
一周推荐
关闭