显著性分析


显著性分析

文章插图
1、Coefficient 系数
回归分析的系数代表了每个自变量对因变量的 贡献度 ,系数的绝对值越大,表示该变量在模型里面贡献越大,也表示了该自变量与因变量的关系越紧密 。
另外这些系数的值表明了自变量与因变量的关系,比如S(总出口)的系数为0.58,则表示当总出口每增加一个单位,在其他自变量的值不发生改变的时候,因变量财政收入会增加0.58个单位 。
而且这个系数也表示了自变量与因变量之间的关系类型,即它分为 正向 和 负向 ,系数为正,表示正相关,系数为负,表示负相关 。如下图所示:
不管是正向大还是负向大,越大,表示与因变量的关系强度越大,只不过是正相关还是负相关的问题 。
该参数是整个回归模型里面 最重要的参数 ,没有之一 。
2、StdError:回归系数的标准差
回归的标准误是模型中随机扰动项(误差项)的标准差的估计值 。它的平方误差项的方差的无偏估计量,实际上又叫做误差均方,等于残差的平方和/(样本容量-待估参数的个数) 。
【显著性分析】
这个值越小,表示模型的预测越准 。
3、t-Statistic T统计量
在统计学里面,T统计量是假设检验的重要枢轴量,多用于两样本均值检验,回归模型系数显著性检验 。
T-Statistic=平均值 / 标准误
一般来来说,这个值表示,与P-value意义差不多,都是在验证零假设的情况下,模型的 显著性 ,但是有些时候P-value会有一些问题,比如丢失一些信息 。计算机里面进行统计验证的时候,T统计量越大,表示越显著 。
一般abs()》=1.96 就可以
4、Probability 概率:
这个就是P值,关于它的解释,翻以前的文章,这里不多说 。一般需要小于0.05
5、6、7:Robust_SE Robust_t Robust_Pr [b] 这三个字段,分别表示了标准差的健壮度、T统计量的健壮度和概率的健壮度 。
在统计学里面,Robust Test通常被翻译 稳健性检验 ,一般来说,就是通过修改(增添或者删除)变量值,看所关注解释变量的回归系数和结果是否稳健 。
8、VIF (方差膨胀因子(Variance Inflation Factor,VIF)) ,这个值主要验证解释变量里面是否有冗余变量(即是否存在多重共线性) 。一般来说,只要VIF超过 7.5 ,就表示该变量有可能是 冗余变量。
1.概念与意义 在假设检验中,显著性水平显著性水平显著性水平显著性水平((((Significant level,,,,用用用用α表示表示表示表示))))的确定是假设检验中至关重要的问题 。显著性水平是在原假设成立时检验统计量的值落在某个极端区域的概率值 。因此,如果取α= 0.05,如果计算出的p值小于α ,则可认为原假设是一个不可能发生的小概率事件 。当然,如果真的发生了,则犯错误的可能性为5% 。显然,显著性水平反映了拒绝某一原假设时所犯错误的可能性,或者说,α是指拒绝了事实上正确的原假设的概率 。2.通常的取值 α值一般在进行假设检验前由研究者根据实际的需要确定 。常用的取值是0.05或0.01 。对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假设的可能性为95%;对于后者,则研究者接受事实上正确的原假设的可能性为99% 。显然,降低α值可以减少拒绝原假设的可能性 。因此,在报告统计分析结果时,必须给出α值 。3.进行统计推断 在进行假设检验时,各种统计软件均会给出检验统计量观测值以及原假设成立时该检验统计量取值的相伴概率(即检验统计量某特定取值及更极端可能值出现的概率,用p表示) 。p值是否小于事先确定的α值,是接受或拒绝原假设的依据 。如果p值小于事先已确定的α值,就意味着检验统计量取值的可能性很小,进而可推断原假设成立的可能性很小,因而可以拒绝原假设 。相反,如果p值大于事先已确定的α值,就不能拒绝原假设 。在计算机技术十分发达,以及专业统计软件功能十分强大的今天,计算检验统计量及其相伴概率是一件十分容易的事情 。然而,在20世纪90年代以前,只有服从标准正态分布的检验统计量,人们可以直接查阅事先准备好的标准正态分布函数表,从中获得特定计算结果的相伴概率 。而对于的服从t-分布、F-分布、卡方分布或其它特殊的理论分布的检验统计量(大多数的假设检验是这样),人们无法直接计算相伴概率 。人们通常查阅各类假设检验的临界值表进行统计推断 。这些表格以自由度和很少的几个相伴概率(通常为0.1、0.05和0.01)为自变量,以检验统计量的临界值为函数排列 。在进行统计推断时,人们使用上述临界值表根据事先确定的显著性水平,查阅对应于某一自由度和特定相伴概率的检验统计量的临界值,然后将所计算出的检验统计量与该临界值相比较 。如果检验统计量的计算值大于临界值,即实际的相伴概率小于事先规定的显著性水平,便可拒绝原假设 。否则,可接受原假设 。4.举例 在根据显著性水平进行统计推断时,应注意原假设的性质 。以二元相关分析为例,相关分析中的原假设是“相关系数为零”(即2个随机变量间不存在显著的相关关系) 。如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),就可以认为“相关系数为零”的可能性很低,既2个随机变量之间存在显著的相关关系 。在正态分布检验时,原假设是“样本数据来自服从正态分布的总体” 。此时,如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),则表明数据不服从正态分布 。只有p值高于α值时,数据才服从正态分布 。这与相关分析的假设检验不同 。5.作者在描述相关分析结果时常有的失误 仅给出相关系数的值,而不给出显著性水平 。这就无法判断2个随机变量间的相关性是否显著 。有时作者不是根据显著性水平判断相关关系是否显著,而是根据相关系数的大小来推断(相关系数越近1,则相关关系越显著) 。问题是,相关系数本身是一个基于样本数据计算出的观测值,其本身的可靠性尚需检验 。此外,作者在论文中常常用“显著相关”和“极显著相关”来描述相关分析结果,即认为p值小于0.05就是显著相关关系(或显著相关),小于0.01就是极显著相关关系(或极显著相关) 。在假设检验中,只有 “显著”和 “不显著”,没有“极显著”这样的断语 。只要计算出的检验统计量的相伴概率(p值)低于事先确定的α值,就可以认为检验结果“显著”(相关分析的原假设是“相关系数为零”,故此处的“显著”实际意味着“相关系数不为零”,或说“2个随机变量间有显著的相关关系”);同样,只要计算出的检验统计量的相伴概率(p值)高于事先确定的α值,就可以认为检验结果“不显著” 。在进行相关分析时,不能同时使用0.05和0.01这2个显著性水平来决定是否拒绝原假设,只能使用其中的1个 。

推荐阅读