分析数据的4大流程 如何分析数据?( 三 )


某买卖二手书app一开始关注每月卖家人数、上传商品数量、卖家人均上传商品数量 , 数据很漂亮;若以月为单位关注一个月内有活跃的商家、一周内有搜索曝光次数大于3次的商品数量 , 就会发现趋势并不乐观 。
“有效行为”可能含义丰富 , 需要寻找有意义的用户行为模式和机遇 , 虚拟数据的噪音会掩盖原本你应该要面对和解决的问题 。
除了1个思维2个指标 , 了解数据瓶颈(也称“天花板”)和同行大盘 , 能让你把精力和财力花在刀刃上 。 如 , 某CEO对8%的流失率心烦意乱 , 和同行沟通后发现8%已经是一个较低值 , 他便改变了关注点 , “流失率维持即可 , 精力放在其他指标” 。
三、数据采集常见的数据采集有以下四个渠道:

  1. 行为数据(埋点)
  2. 流量数据(JS采集或第三方 , 如Google Analytics、百度统计)
  3. 业务数据(运营后台)
  4. 外部数据(第三方或爬虫)
to C的产品如腾讯新闻 , 产品汪最常接触的是行为埋点数据 , 埋点展开说是长篇幅的技术统计学(详见下一篇推送);品牌推广、H5营销PR常关注流量数据;关注订单成交的运营喵日常跑后台数据;竞品分析外部数据爬起来 。
四、数据清洗数据清洗根据不同的业务场景有不同的标准 , 主要是一些空值、异常值的处理 , 使数据得出的结论可靠可信 。
栗子1:取非0数据时要排除 。
…… where click !=0 or click not or ……
栗子2:统计时长(duration)相关行为时 , 过高或过低的时长为异常值 , 假定>=10 ms 和 <=10000000 ms 的阅读行为有效行为 。
select date, itemid, count(itemid) as rec, sum(isexposure) as exposure, sum(case when duration>=10 and duration<10000000 then isread else 0 end) as click, sum(case when duration>=10 and duration<10000000 then duration else 0 end)/1000 as read_time from all_user_active_info ……
栗子3:记录用户点击历史时 , 排除停留时长<=1s的点击 。
排除虚假点击 , 让记录的用户数据更贴近用户的真实意图 , 提高推荐策略的准确性 。
其他数据分析重在思维 , 可能有人会问“我需要学习获取数据、分析数据的工具技能吗”?
如果你在UC、腾讯这类大厂工作 , 一群兢兢业业的BI工程师会将苦涩难懂的数据可视化 , 你只要懂得提需求+善用“筛选”功能即可得到你想要的数据;
如果你在中小公司工作 , Excel要玩得溜的同时 , 学点SQL和Python总没错 , 不然你可能会面临“取一个数据要排期一两周”的尴尬 。
学习一些基础的工具技能 , 例如在Python尝试用pearsonr(x, y)分析各项指标的相关性 , 用SQL percentile(BIGINT col, p)引发对不同分位点的思考 , 对思维益处多多且效率提高不少(Skill:Excel->SQL->Python) 。 做一个数据驱动的产品汪 , 如获武林秘诀 。
结语Accenture的首席科学家肖尔·斯瓦米纳坦说:“科学是纯粹经验主义和不带偏见的 , 但是科学家不是 。 科学家是客观和机械的 , 但是科学家不是 。 科学是客观和机械的 , 但是它同样重视那些有创造力、直观思考、能够转变观念的科学家 。 ”
注重数据善用数据的同时 , 避免唯数据论 , 毕竟它是验证直觉、提高效率少走弯路的手段而已 。
在互联网+时代 , “你的用户用每次点击、浏览、喜欢、分享和购买都会留下一条洒满数字面包屑的轨迹 , 这条轨迹从他们第一次听说你开始 , 到永远流失那天结束” 。
突然觉得生活在这个时代从事着互联网工作(推荐产品+数据分析)很幸福 , “熟悉的陌生人”的无声交流 , 让事情一点点变好 , 就暂且抛开数据泄露数据利用这种恼人的话题吧 。

推荐阅读