分析客户画像的5个步骤都有哪些 分析客户画像的5个步骤( 三 )

  • 第三类是地理属性,这一类标签的时效性跨度很大,如GPS轨迹标签需要做到实时更新,而常住地标签一般可以几个月不用更新,所用的挖掘方法和前面两类也大有不同,如图10-6所示 。

  • ▲图10-6 三类标签属性
    1. 人口属性画像
    人口属性包括年龄、性别、学历、人生阶段、收入水平、消费水平、所属行业等 。 这些标签基本是稳定的,构建一次可以很长一段时间不用更新,标签的有效期都在一个月以上 。 同时标签体系的划分也比较固定,表10-2是中国无线营销联盟对人口属性的一个划分 。
    大部分主流的人口属性标签都和这个体系类似,有些在分段上有一些区别 。
    表10-2 人口标签
    很多产品(如QQ、Facebook等)都会引导用户填写基本信息,这些信息就包括年龄、性别、收入等大多数的人口属性,但完整填写个人信息的用户只占很少一部分 。 对于无社交属性的产品(如输入法、团购App、视频网站等),用户信息的填充率非常低,有的甚至不足5% 。
    在这种情况下,一般会用填写了信息的用户作为样本,把用户的行为数据作为特征训练模型,对无标签的用户进行人口属性的预测 。 这种模型把有标签用户的标签传给与他行为相似的用户,可以认为是对人群进行了标签扩散,因此常被称为标签扩散模型 。
    下面使用视频网站性别年龄画像的例子来说明标签扩散模型是如何构建的 。
    某个视频网站希望了解自己的用户组成,于是对用户的性别进行画像 。 通过数据统计,有大约30%的用户在注册时填写了个人信息,将这30%的用户作为训练集,以构建全量用户的性别画像,所用数据如表10-3所示 。
    分析客户画像的5个步骤都有哪些 分析客户画像的5个步骤

    文章插图

    表10-3 视频网站用户数据
    下面来构建特征 。 通过分析发现男性和女性对于影片的偏好是有差别的,因此使用用户观看的影片列表预测用户性别有一定的可行性 。 此外,还可以考虑用户的观看时间、浏览器、观看时长等,为了简化,这里只使用用户观看的影片特征 。
    由于观看影片特征是稀疏特征,所以可以调用MLlib,使用LR、线性SVM等模型进行训练 。 考虑到注册用户填写的用户信息的准确性不高,所以可以从30%的样本集中提取准确性较高的部分(如用户信息填写较完备的)用于训练,因此整体的训练流程如图10-7所示 。
    对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和覆盖率都可以达到70%左右 。
    ▲图10-7 训练流程
    对于人口属性标签,只要有一定的样本标签数据,并找到能够区分标签类别的用户行为特征,就可以构建标签扩散模型 。 其中使用的技术方法主要是机器学习中的分类技术,常用的模型有LR、FM、SVM、GBDT等 。
    2. 兴趣画像
    兴趣画像是互联网领域中使用最广泛的画像,互联网广告、个性化推荐、精准营销等领域最核心的标签都是兴趣标签 。 兴趣画像主要是从用户海量的行为日志中进行核心信息抽取、标签化和统计,因此在构建用户兴趣画像之前需要先对用户有行为的内容进行内容建模 。
    内容建模需要注意粒度,过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致标签没有区分度 。
    • 例如用户在购物网上点击查看了一双“Nike AIR MAX跑步鞋”,如果用单个商品作为粒度,画像的粒度就过细,结果是只知道用户对“Nike AIR MAX跑步鞋”有兴趣,在进行商品推荐时,也只能给用户推荐这双鞋;
    • 而如果用大品类作为粒度,如“运动户外”,将无法发现用户的核心需求是买鞋,从而会给用户推荐所有的运动用品,如乒乓球拍、篮球等,这样的推荐缺乏准确性,用户的点击率就会很低 。
    为了保证兴趣画像既有一定的准确性又有较好的泛化性,我们会构建层次化的兴趣标签体系,其中同时用几个粒度的标签去匹配用户兴趣,既保证了标签的准确性,又保证了标签的泛化性 。 下面以用户的新闻兴趣画像举例,介绍如何构建层次化的兴趣标签 。
    新闻兴趣画像的处理难度要比购物兴趣画像困难,购物标签体系基本固定,如图10-8所示,京东页面已经有成熟的三级类目体系 。
    分析客户画像的5个步骤都有哪些 分析客户画像的5个步骤

    文章插图

    ▲图10-8 三级类目体系
    1)内容建模
    新闻数据本身是非结构化的,首先需要人工构建一个层次化的标签体系 。 考虑如图10-9所示的一篇新闻,看看哪些内容可以表示用户的兴趣 。

    推荐阅读