挖掘数据分析产品经理的相关价值 如何挖掘数据分析产品经理?( 二 )


4. 参数估计参数估计是根据从总体中抽取的随机样本来估计总体分布中未知参数的过程 。 在对数据进行统计分析时 , 对于知道其分布形式的总体 , 用若干未知参数来表示 , 研究总体分布 , 首先就要估计出参数的取值 , 这样的问题就是参数估计问题 。
参数估计从估计形式看 , 区分为点估计与区间估计;从构造估计量的方法讲 , 有矩估计、最小二乘估计、似然估计、贝叶斯估计等 。
5. 假设检验假设检验是用于检验统计假设的一种方法 。 而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说 。 一旦能估计未知参数 , 就会希望根据结果对未知的真正参数值做出适当的推论 。 统计上对参数的假设 , 就是对一个或多个参数的论述 。
假设检验 , 又称统计假设检验 , 是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法 。 假设检验基本原理是先对总体的特征作出某种假设 , 然后通过抽样研究的统计推理 , 对此假设应该被拒绝还是接受作出推断 。
假设检验的种类包括:t检验 , Z检验 , 卡方检验 , F检验等等 。
三、数据挖掘方法数据挖掘方法按照是否有目标变量可分为有监督学习的预测性方法和无监督学习的描述性方法 。
预测性方法通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型 , 并将该模型用于预测未来新数据的有关性质 , 包括分类和回归 。
描述性方法以简洁概述的方式表达数据中的存在一些有意义的性质 , 分为聚类和关联 。
1. 分类分类是找出数据中的一组数据对象的共同特点并按照分类模式将其划分为不同的类 , 其目的是通过分类模型 , 将数据中的数据项映射到某个给定的类别中 。
分类的输出变量为离散型 , 常见的分类方法包括(朴素)贝叶斯、决策树、逻辑回归、KNN、SVM、支持向量机、神经网络、随机森林和逻辑回归等 。
分类可以应用到涉及到应用分类、趋势预测中 , 如用户分层、用户商品推荐、用户流失率、促销活动响应等 。
2. 回归回归分析反映了数据中数据的属性值的特性 , 通过函数表达数据映射的关系来发现属性值之间的依赖关系 。 它可以应用到对数据的预测及相关关系的研究中去 。
回归的输出变量为连续型 , 常见的回归方法有线性回归、多项式回归、岭回归、套索回归、弹性网络回归等
回归可以应用到销量预测、备货管理中 , 如通过回归分析对电商商品的销售趋势作出预测 。
3. 聚类聚类是把数据按照相似性归纳成若干类别 , 同一类中的数据彼此相似 , 不同类中的数据相异 。 聚类分析可以建立抽象概念 , 发现数据的分布模式 , 探索可能的数据属性之间的相互关系 。
聚类类似于分类 , 但与分类的目的不同 , 是针对数据的相似性和差异性将一组数据分为几个类别 。 属于同一类别的数据间的相似性很大 , 但不同类别之间数据的相似性很小 , 跨类的数据关联性很低 。
细分市场、细分客户群体都属于数据挖掘中的聚类问题 , 例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等 。
聚类能够实现对样本的细分 , 使得同组内的样本特征较为相似 , 不同组的样本特征差异较大 。 例如零售场景中对客户的细分 , 然后针对不同类别的客户进行对应营销 。
4. 关联关联是隐藏在数据项之间的关联或相互关系 , 即可以根据一个数据项的出现推导出其他数据项的出现 。 关联规则的挖掘过程主要包括两个阶段:

  • 第一阶段为从海量原始数据中找出所有的高频项目组;
  • 第二阶段是从这些高频项目组产生关联规则 。
关联指的是发现数据的各部分之间的联系和规则 , 常见的关联分析算法包括Aprior算法、Carma算法 , 序列算法等 。
关联常用于预测客户的需求 , 例如消费者常常会同时购买哪些产品 , 从而有助于商家的捆绑销售 。

推荐阅读