基础数学课18-寻找特征

这里我们查看如何将信息增益和信息熵应用到机器学习的其他领域，比如特征选择。

在编程领域，机器学习已经有了很广泛的应用，包括监督学习，无监督学习。在其中我们可以都使用特征选择。这是因为机器学习的主要步骤就是数据准备，特征工程，模型拟合，离线和在线测试。其中的特征工程，就是准备模型拟合过程中需要的各种数据，之前说的朴素贝叶斯时候，将水果的特征划分为了数字，就是基本的特征工程。除此外，在特征工程中，还有着特征选择，缺失值的填补，异常值的去除等。这里我们说的就是特征选择。

因为一个事物往往具有多个特征，比如N个，如果直接使用穷举法进行选择，那么复杂度可能达到2的N次方。

为此在特征选择领域中，引入了一些选择方法。

比如我们可以基于信息熵来进行特征选择。

如果我们希望为一个文本数据提取特征，就可以先将完整的文章划分为多个单词或词组。展示了文章的关键属性，

之后，我们怎么知道那些文字是重要特征？也就是可以根据哪些来将文章划分为正确的分类之中。

如果一个特征，只在特定的几个分类中出现，对于其他的分类很少出现，那么这个特征我们就可以认为具有较强的区分能力。比如出现电影这个词的文章，很多都是娱乐分类下的，很少出现在政治文章中。

对于这样的一个特征，我们就可以使用信息熵来进行衡量。

如果熵很低，说明这个信息增益高，说明这个特征对应的数据只出现在少数分类中，对于分类的判断有价值。

这样我们就可以对特征排序，挑选出靠前的特征。

除此外，还可以利用卡方校验来检验两个变量的独立

其就是检验特征和分类是否独立，如果独立，那么就没有关联性。

在这个过程中，需要计算四种情况

正相关的两种和负相关的两种。

如果正向相关值远远大于负向或者负向远远大于正向，可以认为相关性高。

反之接近则认为相关度低。

利用卡方验证的值来从高到低排序，获取到排列靠前的值。

Heaven.Blog

基础数学课18-寻找特征

发表评论取消回复

发表评论 取消回复

发表评论取消回复