分享写数据分析报告的教程 如何写数据分析报告?

给你一份数据 , 你能完美的出一份数据报告吗?本文结合一个小故事 , 来告诉大家如何写好一份数据分析报告 , enjoy~
本故事纯属虚构 。
故事发生在花果山 , 主人公是一只初入职场的小猴子 , 名叫“嗨皮君” , 他刚刚被水帘洞科技有限公司录用为数据分析专员 。 他的老板就是大名鼎鼎的数据分析师“猴子” , 公司里的人都尊称他为“齐天大圣” 。
花果山最近出现了一些状况 , 某些猴子感染了不明病毒 , 导致花果山发生了严重的疫情 。 现在水帘洞科技有限公司的员工都只能在家办公 。
这天 , 老板齐天大圣通过“猴信”(花果山全民都在用的IM软件)找到嗨皮君 , 他说:“嗨皮君 , 你刚进公司不久 , 需要尽快熟悉公司的业务 。 现在还不能上班 , 但也不能把这些时间浪费了 。 这样 , 我给你一份数据 , 你好好研究分析一下 , 下周给我一份数据分析报告 。 ”
接到任务 , 嗨皮君心里十分紧张:这可是进入公司的第一个任务啊 , 一定要好好表现!于是他认认真真地观看了老板齐天大圣以前做过的数据分析教学视频 , 还在网上查阅了很多相关资料 。
以下便是嗨皮君的思考和写作过程:
一、分析背景及目的数据源:Baby Goods Info Data-数据集-阿里云天池
这是一份母婴产品的销售数据 , 数据集各字段的含义如下:
我们需要从这些数据中发现某些规律或者异常 , 进而给运营团队提出建议 。
二、分析思路从“产品”和“用户”两个角度来分析:
1. 产品角度
  • 分析销量随时间变化有什么规律
  • 分析哪些是热销产品 , 哪些是滞销产品 , 它们有什么特征
2. 用户角度
  • 分析婴儿年龄和销量之间有什么关系
  • 分析婴儿生日和销量之间有什么关系
三、分析过程1. 数据清洗(1)确定分析表
把列名替换成中文 , 调整列宽和列与列的顺序:
(2)多删少补
① 处理重复项
由上述结果可见 , 并未发现重复项 。
② 处理空值项
处理结果发现 , 产品信息表中的空值项均出现在商品属性字段下 , 由于商品属性是特定值 , 不可预估 , 在缺乏其他数据源的情况下没有办法进行填补 , 因此暂时忽略这些空值项 。
婴儿信息表中未发现有空值项 。
(3)一致化处理
把“购买时间”和“婴儿生日”用分列功能转换为日期格式 , 把“婴儿性别”转换成其真实含义 。
(4)异常值处理
① 删除性别异常值
婴儿出生时的性别只有男和女两种可能 , 经过上面的清洗步骤 , 发现婴儿性别出现了异常值 , 删除掉 。
② 删除日期异常值
经排序后观察发现 , 购买时间的区间范围是[2012/7/2,2015/2/5] , 没有极端异常值 。
婴儿生日的区间范围是[1984/6/16,2015/8/15] , 产品销售时间在2012年~2015年 , 却出现了生日是1984年的婴儿 , 显然这个1984/6/16的项是异常项 , 故需删除 。
③ 判断数据集是否还有可能存在异常值
对购买数量进行描述统计分析得:
变异系数=标准差/平均值*100%=2515% , 说明数据集离散程度很高 , 可能存在部分极端值 。
有时候某些异常值我们在数据清洗阶段无法发现 , 所以在结合图表分析的时候我们还会进行异常值的判断 。
2. 结合图表分析(1)分析销量随时间变化有什么规律
① 观察整体销售趋势
从图中发现 , 2014年11月出现了一个显著的销量高峰 。
看到11月份销量暴涨我们通常会想到是由于双十一活动造成的 , 是否真的这样呢?
我们先假设是由于双十一活动造成的 , 那么销量暴涨背后必定是由于购买人数暴涨 , 下面便要收集数据证明购买人数也暴涨 。
② 分析2014年11月出现销量暴增的原因
进一步 , 查看11月的销售情况:
从上图中可以看出 , 2014年11月销售暴增主要是因为11月13日这天的销量出现了暴增 。
③ 分析2014年11月13日这天出现销量暴增的原因

推荐阅读