excel数据分析案例,数据分析实战案例 。小编来告诉你更多相关信息 。
今天给大家分享一个真实的探究变量间关系的例子 。
为什么低质量的钻石反而更加贵ggplot(diamonds, aes(cut, price)) + geom_boxplot()
【数据分析实战案例 excel数据分析案例】ggplot(diamonds, aes(color, price)) + geom_boxplot()
ggplot(diamonds, aes(clarity, price)) + geom_boxplot()
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
钻石价格和重量的关系低质量的钻石价格反而高,是因为一个混杂变量:carat,carat对钻石来说是一个很重要的变量,低质量的钻石一般都要重一点 。我们可以做出了克拉和价格的关系:
ggplot(diamonds, aes(carat, price)) +
geom_hex(bins = 50)
文章插图
文章插图
我们在探究其余的变量和因变量的关系时,需要控制混杂变量后再探究自变量与因变量的关系,也就是说在本例中探讨cuts, colours, clarity和price的关系时,需要控制掉,或者是抠掉carat对price的影响 。
在分析之前首先对数据进行变形,可以更好的看出变量的线性关系
diamonds2 %
filter(carat %
mutate(lprice = log2(price), lcarat = log2(carat))
然后再作图
ggplot(diamonds2, aes(lcarat, lprice)) +
geom_hex(bins = 50)
文章插图
文章插图
可以清楚的看到carat和price线性关系,现在我们对转换后的变量进行线性拟合:
mod_diamond <- lm(lprice ~ lcarat, data = https://www.0579wy.com/article/diamonds2)
拟合过后,我们就相当于形成了carat对price的效应,此时我们看cuts, colours, clarity与模型残差的关系就是抠掉carat对price的效应之后cuts, colours, clarity与price的真正关系了 。
diamonds2 %
add_residuals(mod_diamond, \”lresid\”)
ggplot(diamonds2, aes(cut, lresid)) + geom_boxplot()
ggplot(diamonds2, aes(color, lresid)) + geom_boxplot()
ggplot(diamonds2, aes(clarity, lresid)) + geom_boxplot()
文章插图
文章插图
文章插图
文章插图
文章插图
文章插图
此时,从上面3个图中我们可以看出cuts, colours, clarity与price的关系就不再是文章开头所写的反常的关系了 。
小结 往期内容:
推荐阅读
- 盘点做好口碑营销几个环节 口碑营销案例及分析
- 关于事件营销的经典案例简析 事件营销又称为什么
- 关于搜索引擎推广方案的案例解析 搜索引擎营销案例内容
- 5个值得学习的营销案例分析 营销策略有哪些内容
- 盘点往年知名品牌的5个营销案例 品牌推广案例分析
- 关于设计平衡计分卡案例参考 平衡积分卡是什么
- 关于4p营销案例分析 4p营销理论是什么
- 10个数据分析工具分享 大数据分析平台哪个好用一点
- 关于新媒体营销方案案例分享 新媒体营销模式
- 关于MGM的典型案例分析 mgm营销模式