基础数学课18-寻找特征

这里我们查看如何将信息增益和信息熵应用到机器学习的其他领域,比如特征选择。

在编程领域,机器学习已经有了很广泛的应用,包括监督学习,无监督学习。在其中我们可以都使用特征选择。这是因为机器学习的主要步骤就是数据准备,特征工程,模型拟合,离线和在线测试。其中的特征工程,就是准备模型拟合过程中需要的各种数据,之前说的朴素贝叶斯时候,将水果的特征划分为了数字,就是基本的特征工程。除此外,在特征工程中,还有着特征选择,缺失值的填补,异常值的去除等。这里我们说的就是特征选择。

因为一个事物往往具有多个特征,比如N个,如果直接使用穷举法进行选择,那么复杂度可能达到2的N次方。

为此在特征选择领域中,引入了一些选择方法。

比如我们可以基于信息熵来进行特征选择。

如果我们希望为一个文本数据提取特征,就可以先将完整的文章划分为多个单词或词组。展示了文章的关键属性,

之后,我们怎么知道那些文字是重要特征?也就是可以根据哪些来将文章划分为正确的分类之中。

如果一个特征,只在特定的几个分类中出现,对于其他的分类很少出现,那么这个特征我们就可以认为具有较强的区分能力。比如出现电影这个词的文章,很多都是娱乐分类下的,很少出现在政治文章中。

对于这样的一个特征,我们就可以使用信息熵来进行衡量。

如果熵很低,说明这个信息增益高,说明这个特征对应的数据只出现在少数分类中,对于分类的判断有价值。

这样我们就可以对特征排序,挑选出靠前的特征。

除此外,还可以利用卡方校验来检验两个变量的独立

其就是检验特征和分类是否独立,如果独立,那么就没有关联性。

在这个过程中,需要计算 四种情况

正相关的两种和负相关的两种。

如果正向相关值远远大于负向或者负向远远大于正向,可以认为相关性高。

反之接近则认为相关度低。

利用卡方验证的值来从高到低排序,获取到排列靠前的值。

发表评论

邮箱地址不会被公开。 必填项已用*标注