基础数学课20-统计意义

这次我们聊一下统计的意义和显著性检验

我们已经讨论过不同的机器学习算法了,接下来我们必然希望在实际工作应用这样的算法。并且去评估算法对商业价值的提升程度。

那么统计的意义就是可以帮助我们校验商业提升程度。

比如我们通过AB测试来校验不同的方案下,用户订单的转换率。

但是我们如何对比两种方案的优劣呢?

最简单的话,就是进行正态分布的比较,

如果我们可以直接获取到两个数据结果的全部数据进行正态分布的话,那么我们必然可以得出一个有效的结果集。

但是如果是基于采样数据进行判断呢?

如果我们基于采样数据,得到的结果是B方案不如A方案。肯定是不科学的。

因为B不如A,在这里,会有两种可能性,一方面是本身B就不如A,另一方面则是采样带来的偏差。

如果是本身问题,那么就称为不同组之间具有显著性差异,如果是第二种,则是无显著性差异。

而且在显著差异之中,还需要注意差异具有显著性和具有显著差异两个区别,差异具有显著性值指的是数据来源具有差异。具有显著差异则是差异的幅度很大,可能相差100倍。

两者没有必然的联系,可能两个来源不同的数据,其均值是1和1.2。这样绝对差就很小。而来自同一个数据的采样,均值可能是1和100. 差异没有显著性。

之后是统计中的假设验证,统计上的假设检验指的是对随机变量的参数或者总体分布作出一个假设,利用样本信息来判断假设是否合理, 对于这种先行设定的假设,在统计学上称为虚无假设,也叫做H0,和虚无假设对立的假设,直接叫做对立假设。

一开始我们先认为原假设存在,计算会导致什么结果,如果出现了不应该出现的事件,那么就认为原假设不成立。那么什么样的事件可以叫做不应该出现的?

一般来说,如果概率小于0.05,那么就是小概率事件,就是不应该出现的。

最后我们说下P值的概念

就是虚无假设为真的时候,样本出现的概念,其实就是我们观测到的样本数据符合原定介绍的可能性有多大。

P值如果很小,就说明观测值和假设H0的期望值有很大的偏离,可以拒绝原假设。反之则没有理由拒绝。

发表评论

邮箱地址不会被公开。 必填项已用*标注