分析客户画像的5个步骤都有哪些 分析客户画像的5个步骤( 四 )


分析客户画像的5个步骤都有哪些 分析客户画像的5个步骤

文章插图

▲图10-9 新闻例子
首先,这是一篇体育新闻,体育这个新闻分类可以表示用户兴趣,但是这个标签太粗了,因为用户可能只对足球感兴趣,所以体育这个标签就显得不够准确 。
其次,可以使用新闻中的关键词,尤其是里面的专有名词(人名、机构名),如“桑切斯”“阿森纳”“厄齐尔”,这些词也表示了用户的兴趣 。 关键词的主要问题在于粒度太细,如果某天的新闻里没有这些关键词,就无法给用户推荐内容 。
最后,我们希望有一个中间粒度的标签,既有一定的准确度,又有一定的泛化能力 。 于是我们尝试对关键词进行聚类,把一类关键词当成一个标签,或者拆分一个分类下的新闻,生成像“足球”这种粒度介于关键词和分类之间的主题标签 。 我们可以使用文本主题聚类完成主题标签的构建 。
至此,就完成了对新闻内容从粗到细的“分类-主题-关键词”三层标签体系的内容建模,新闻的三层标签如表10-4所示 。
分析客户画像的5个步骤都有哪些 分析客户画像的5个步骤

文章插图

表10-4 三层标签体系
可能读者会有疑问,既然主题的准确度和覆盖率都不错,我们只使用主题不就可以了吗?为什么还要构建分类和关键词这两层标签呢?这么做是为了针对用户进行尽可能精确和全面的内容推荐 。
当用户的关键词命中新闻时,显然能够给用户更准确的推荐,这时就不需要再使用主题标签;而对于比较小众的主题(如体育类的冰上运动主题),若当天没有新闻覆盖,就可以根据分类标签进行推荐 。 层次标签兼顾了刻画用户兴趣的覆盖率和准确性 。
2)兴趣衰减
在完成内容建模以后,就可以根据用户点击,计算用户对分类、主题、关键词的兴趣,得到用户兴趣标签的权重 。 最简单的计数方法是,用户点击一篇新闻,就把用户对该篇新闻的所有标签兴趣值上加1,用户对每个词的兴趣计算使用如下的公式:
scorei+1=scorei+ C×weight
其中,词在这次浏览的新闻中出现,则C=1,否则C=0, weight表示词在这篇新闻中的权重 。
这样做有两个问题:一个是用户的兴趣累加是线性的,数值会非常大,老的兴趣权重会特别高;另一个是用户的兴趣有很强的时效性,对一篇新闻昨天的点击要比一个月之前的点击重要得多,线性叠加无法突出用户的近期兴趣 。
为了解决这个问题,需要对用户兴趣得分进行衰减,可使用如下的方法对兴趣得分进行次数衰减和时间衰减 。
次数衰减的公式如下:
scorei+1=α×scorei+ C×weight, 0<α<1
其中,α是衰减因子,每次都对上一次的分数做衰减,最终得分会收敛到一个稳定值,α取0.9时,得分会无限接近10 。
时间衰减的公式如下:
scoreday+1=scoreday×β, 0<β<1
它表示根据时间对兴趣进行衰减,这样做可以保证时间较早期的兴趣会在一段时间以后变得非常弱,同时近期的兴趣会有更大的权重 。 根据用户兴趣变化的速度、用户活跃度等因素,也可以对兴趣进行周级别、月级别或小时级别的衰减 。
3. 地理位置画像
地理位置画像一般分为两部分:一部分是常驻地画像;一部分是GPS画像 。 这两类画像的差别很大,常驻地画像比较容易构造且标签比较稳定,GPS画像需要实时更新 。
常驻地包括国家、省份、城市三级,一般只细化到城市粒度 。 在常驻地挖掘中,对用户的IP地址进行解析,并对应到相应的城市,再对用户IP出现的城市进行统计就可以得到常驻城市标签 。 用户的常驻城市标签不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等 。
GPS数据一般从手机端收集,但很多手机App没有获取用户GPS信息的权限 。 能够获取用户GPS信息的主要是百度地图、滴滴打车等出行导航类App,此外收集到的用户GPS数据比较稀疏 。
百度地图使用该方法并结合时间段数据,构建了用户公司和家的GPS标签 。 此外百度地图还基于GPS信息,统计各条路上的车流量,进行路况分析,图10-10所示是北京市某天的实时路况图,红色表示拥堵线路 。
分析客户画像的5个步骤都有哪些 分析客户画像的5个步骤

文章插图

▲图10-10 北京的实时路况图
04 用户画像评估和使用人口属性画像的相关指标比较容易评估,而兴趣画像的标签比较模糊,所以人为评估比较困难,对于兴趣画像的常用评估方法是设计小流量的A/B测试进行验证 。

推荐阅读