基础数学课18-寻找特征
这里我们查看如何将信息增益和信息熵应用到机器学习的其他领域,比如特征选择。
在编程领域,机器学习已经有了很广泛的应用,包括监督学习,无监督学习。在其中我们可以都使用特征选择。这是因为机器学习的主要步骤就是数据准备,特征工程,模型拟合,离线和在线测试。其中的特征工程,就是准备模型拟合过程中需要的各种数据,之前说的朴素贝叶斯时候,将水果的特征划分为了数字,就是基本的特征工程。除此外,在特征工程中,还有着特征选择,缺失值的填补,异常值的去除等。这里我们说的就是特征选择。
因为一个事物往往具有多个特征,比如N个,如果直接使用穷举法进行选择,那么复杂度可能达到2的N次方。
为此在特征选择领域中,引入了一些选择方法。
比如我们可以基于信息熵来进行特征选择。
如果我们希望为一个文本数据提取特征,就可以先将完整的文章划分为多个单词或词组。展示了文章的关键属性,
之后,我们怎么知道那些文字是重要特征?也就是可以根据哪些来将文章划分为正确的分类之中。
如果一个特征,只在特定的几个分类中出现,对于其他的分类很少出现,那么这个特征我们就可以认为具有较强的区分能力。比如出现电影这个词的文章,很多都是娱乐分类下的,很少出现在政治文章中。
对于这样的一个特征,我们就可以使用信息熵来进行衡量。
如果熵很低,说明这个信息增益高,说明这个特征对应的数据只出现在少数分类中,对于分类的判断有价值。
这样我们就可以对特征排序,挑选出靠前的特征。
除此外,还可以利用卡方校验来检验两个变量的独立
其就是检验特征和分类是否独立,如果独立,那么就没有关联性。
在这个过程中,需要计算 四种情况
正相关的两种和负相关的两种。
如果正向相关值远远大于负向或者负向远远大于正向,可以认为相关性高。
反之接近则认为相关度低。
利用卡方验证的值来从高到低排序,获取到排列靠前的值。