区间估计是什么,区间估计和置信区间的区别是什么

很多小伙伴想知道:做数据分析 , 到底要懂多少统计学?小熊妹很认真地做一个懒人攻略 , 不讲复杂的理论 , 直接讲实际操作 , 希望能帮助到大家哦 。 如果要讲统计学 , 第一个概念要从区间估计讲起 , 这是后续很多方法的基础 。 一听:“区间估计”的名字 , 很多小伙伴会一脑袋问号: 1、为什么要“估计” 2、为什么还要有“区间” 今天的分享就从这里开始 。 一:什么是“估计”“估计”是指用抽样的数据估计全体的数据情况 。 之所以这么做 , 是因为很多时候 , 想全体采集数据太难了!比如生产真空包装鸡腿的企业 , 要检查质量 , 就得把包装拆开 , 那鸡腿就不能再卖了 。 这是多大的损失呀!所以必须抽样 。 如果直接用抽样数据代表全体数据 , 就是所谓:点估计 。 常见的点估计指标有2个: 平均值:比如抽样鸡腿的平均重量为150克 。 比例:比如抽样鸡腿的卫生合格率为99.9% 。 但是 , 直接这么做会有问题 , 就是:抽样对象不同 , 点估计值经常有差异 。 为了解决这个问题 , 有了区间估计的做法二:什么是“区间估计”通俗地讲:区间估计是在点估计的基础上 , 给一个合理取值范围 。 比如: 抽样鸡腿的平均重量为150克 , 是一个点估计值 。 抽样鸡腿的平均重量为145克到155克之间 , 是一个区间估计 。 其中 , 145到155称为置信区间 。 这很符合人们的常规理解:东西很难100%准确 , 有个范围也是可以理解的 。 但这个范围有多大可信度呢?人们用置信置信水平来衡量 , 即:“我们有多大把握 , 真实值在置信区间内” 。 一般用(1-α)表示 。 如果α取0.05 , 则置信水平为0.95 , 即95%的把握 。 置信区间与置信水平连起来 , 完整的表达为:“我们有95%的把握 , 鸡腿平均重量在145至155克之间 。 ”有小伙伴会好奇 , 为啥置信水平不是100%!通俗地说 , 当置信水平太高时 , 置信区间会变得非常大 , 从而产生一些正确但无用的结论 。 比如:我们有100%的把握 , 小熊妹颜值在负分滚粗(-10分)与美若天仙(10分)之间……这是句正确的废话 。 再比如:我们有95%的把握 , 小熊妹是个颜值8分的美女(10分满分)……这个结论是不是有用多了!三:如何做区间估计做区间估计需要四步 , 不想看原理的小伙伴 , 死记硬背即可 。 第一步:确认抽样对象和要计算的指标(看算平均值还是比例) 第二步:进行抽样 , 获得样本数据(平均值、比例、方差、样本量) 第三步:给定置信水平(1-α值) 第四步:利用Z分布 , 求出对应置信区间范围计算公式为:

区间估计是什么,区间估计和置信区间的区别是什么

文章插图
只要把公式的参数 , 套进去即可 。 其中标准差 , Z值/t值 , 平均值等参数 , 在各种计算工具里都有现成的公式可以用 。 四:两个简单的例子某公司主要针对中老年群体开发产品 , 用户在购买时无需提供身份信息 , 因此不清楚用户年龄 。 现需抽样 , 调查其目标客户的年龄是否符合“中老年”的范畴 , 抽样数据如下 , 请计算90%置信水平下的目标客户年龄置信区间(如下图) 。
区间估计是什么,区间估计和置信区间的区别是什么

文章插图
再看个比例的例子 。 某公司想了解用户满意度 , 而有相当比例的用户没有在商品评价里打分 , 因此采用调查方法 , 抽300名未在网站打分用户调查 , 其中182名用户表示满意 , 求95%置信水平下 , 用户满意率的置信区间(如下图)
区间估计是什么,区间估计和置信区间的区别是什么

文章插图
看到这个结果 , 反应快的小伙伴已经马上意识到:这种计算能用来验证业务有没有撒谎!比如上例中 , 如果业务方说“用户满意率肯定在70%以上”这样谎言就被戳穿了 。 实际上 , 也确实是如此操作的 。 区间估计的方法是做假设检验的基础理论 , 所以小伙们都得掌握一下 。 五:这么神奇的方法 , 为啥平时不咋用?答:现代企业采集数据的手段丰富了很多 , 特别是互联网企业 , 用户的注册、点击、互动数据是全体收集的 。 因此想了解用户消费情况 , 完全可以针对全体统计消费率 , 消费金额等指标 。 就不需要抽样了 , 因此用得很少 。 但这不意味着运营、产品、销售的同学就不需要掌握这个概念 。 因为这两年ABtest大行其道 , 导致抽样实验的方法又形成一轮文艺复兴 。

推荐阅读