进行数据整理分析的3大战略 如何进行数据整理分析?

想要做一个专题分析 , 首先就是要有数据 。 那么数据有哪些种类呢 , 数据又从哪里来呢?这两个问题将会引导我们学会如何理解数据和收集数据 。
01数据的类型我们经常会在Excel的设置单元格对话框中看到很多的数据类型,但其实这么多数据类型 , 最终都可以归为两大类 。
? 定性数据(字符型数据):
◎分类数据 , 如男女、民族等 , 不能区分大小 , 不能运算
◎顺序数据 , 如成绩的优良中差、满意度评分等 , 可分大小
? 定量数据(数值型数据):
◎离散型数据:如用户数、消费次数等 , 可加减
◎连续型数据:成绩、消费金额等 , 可乘除
※统计方法差异:
连续型变量:频数分析、集中趋势分析(均值、众数、中位数)、离散程度分析(标准差、方差、最大值、最小值、范围);
非连续性变量:主要能做频数分析
02数据的收集? 公司自己的数据库
互联网公司一般会通过数据埋点(日志)来获取数据 , 如UV/PV、用户数、用户停留时间、浏览页面等用户行为数据 。
传统业务的公司则可能会通过一些系统 , 如SAP;
? 公开出版物 , 如统计局出版的期刊、年鉴等;
? 互联网
互联网上有很多的第三方的数据平台如:年鉴汪、中研网数据、中国互联网数据平台、腾讯大数据、国家数据 , 中国统计信息网等 。
? 市场调研
线上问卷调查(如问卷星)、线下问卷调查、电话回访等 。
03数据的整理收集完数据 , 下一步就是要做数据的整理了 , 数据整理是一项很繁琐很枯燥的工作 。
? “三心二意”的整理数据:
◎信心:无论多少数据 , 相信自己一定能干掉它;
◎细心:1%的错误=100%的失败 , 注意每一个细微之处 。
◎平常心:加班、电脑死机 , 软件无响应 , 一定要淡定!
◎诚意:对数据严谨负责 , 诚心诚意 , 保证数据客观真实
◎合意:要满足领导和业务部门的需求 , 及时沟通 。
? “火眼金睛”的整理数据:
◎数据的异常表现:
空值、重复值、缺失值、波动太大、不同数据源获取的数据矛盾 , 数据与常识或经验矛盾等 。
◎数据异常原因分析:系统故障 , 人为因素
? “按部就班”的整理数据(记得数据源备份一下哦)
◎数据分类化:每类数据命名并统一格式
◎数据统一化

  • 数据口径的统一化 , 也就是同一维度的数据单位要一致 。 举个例子:二手车的行驶里程里面的数据不能有单位是“公里”的还有单位是“万公里”的 , 所有的数据要换算成同一单位 。
  • 数据定义的统一化 , 举个例子 , 新增对普遍人来说就是新注册用户 , 但在这个总数据里头 , 仍需细分 , 内部人员注册 / 搜索引擎注册 / 其他子产品用户注册 / 公众号入口注册 / PC端的注册 / 移动端的注册 / APP端的注册...等等 , 在整理数据时 , 要细分数据指标的意义 。
◎删除多余的空格
◎删除重复值
◎填补缺失值(统计计算值填充 , 模型计算填充等)
◎处理异常值(平均值填充 , 统计计算值填充等)
◎不同数据源的交叉验证 。
【进行数据整理分析的3大战略 如何进行数据整理分析?】好啦 , 数据的收集和整理过程中的需要注意的问题到这里就大概介绍完啦 , 剩下的更多的是需要你在实际工作中结合实际情况去应用啦!作为一名数据分析师 , 你一定要学会修炼出一颗平常心 , 不能浮躁敷衍 。 记住 , 整理数据要“三心二意”、“火眼金睛”、“按部就班” 。 一起奋斗吧 , 加油!

    推荐阅读