① 上四分位数与下四分位数的差叫四分位差,它是衡量数据发散程度的指标之一
② 上界线和下界线是距离中位数1.5倍四分位差的线,高于上界线或者低于下界线的数据为异常值
描述性统计是容易操作、直观简洁的数据分析手段 。但是由于简单,对于多元变量的关系难以描述 。现实生活中,自变量通常是多元的:决定体重的不仅有身高,还有饮食习惯、肥胖基因等因素 。通过一些高级的数据处理手段,我们可以对多元变量进行处理,例如,特征工程中,可以使用互信息方法来选择多个对因变量有较强相关性的自变量作为特征,还可以使用主成分分析法来消除一些冗余的自变量来降低运算复杂度 。
参考书目:《数据馆员的python简明手册》
【python-绘图与可视化】
推荐阅读
- 大数据技术之HBase原理与实战归纳分享-上
- 创造与魔法10月26日礼包兑换码是什么
- 苹果12pro的功能介绍_苹果12pro功能介绍与玩法
- Java核心技术阅读笔记 java中的自动拆装箱与缓存
- 光与夜之恋夏鸣星妙景偶拾答案是什么
- 创造与魔法10月27日礼包兑换码是多少
- 剑与远征万圣节皮肤怎么获得
- 使用EF Core更新与修改生产数据库
- 创造与魔法10月28日礼包兑换码是多少
- 红茶怎么做(红茶的功效与作用)