python-绘图与可视化( 五 )


① 上四分位数与下四分位数的差叫四分位差,它是衡量数据发散程度的指标之一
② 上界线和下界线是距离中位数1.5倍四分位差的线,高于上界线或者低于下界线的数据为异常值
描述性统计是容易操作、直观简洁的数据分析手段 。但是由于简单,对于多元变量的关系难以描述 。现实生活中,自变量通常是多元的:决定体重的不仅有身高,还有饮食习惯、肥胖基因等因素 。通过一些高级的数据处理手段,我们可以对多元变量进行处理,例如,特征工程中,可以使用互信息方法来选择多个对因变量有较强相关性的自变量作为特征,还可以使用主成分分析法来消除一些冗余的自变量来降低运算复杂度 。
参考书目:《数据馆员的python简明手册》
【python-绘图与可视化】

推荐阅读