评价指标有哪些 十个评价指标,带你认识推荐系统?

随着移动互联网的飞速发展 , 网络中的信息量呈指数式增长 , 大量的商品、资讯、知识、视频、音乐等内容和资源可供用户选择 , 信息过载问题日益突出 。而推荐系统是解决信息过载最有效的方式 , 因此 , 基于大数据的推荐系统已经成为了移动互联网的研究热点 。
其实推荐系统在上世纪末就已经出现了 , 亚马逊在1998年就通过基于ITEM的协同过滤技术 , 为数百万客户提供商品选购建议 。而学术界对于推荐系统的研究也一直在进行着 。
虽然随着云计算、大数据、人工智能等新兴科技的发展 , 算力、数据和算法的提升 , 使推荐系统的性能越来越好 , 但针对推荐系统的评价体系则基本保持了稳定 , 只是各项指标的精度在不断提升 。
了解推荐系统 , 可以从认识推荐系统的评价指标开始 , 主要包括以下十点:
1.用户满意度:
用户作为推荐系统的重要参与者 , 其满意度是评测推荐系统的最重要指标 。有时 , 互联网企业会通过调查问卷的方式 , 或者是简单的满意或不满意的按钮 , 来获得用户的满意度反馈 。但更多的时候 , 用户满意度是通过对用户某些行为的统计进行量化分析后计算出来的 。比如在移动电商应用中 , 用户如果购买了推荐的商品 , 就表示他们在一定程度上满意系统的推荐结果 , 而购买转化率就可以用于度量用户的满意度 。此外 , 点击率、分享率、收藏率、停留时间等指标 , 也都可能在度量用户满意度方面具备一定的权重 。
2. 预测准确度
预测准确度只是泛泛的名称 , 具体要看你希望预测什么内容 , 例如预测用户对系统推荐的电影的观后评分?或是预测系统推荐的歌曲列表中 , 用户最终选择了几首加入到了他的歌单?但总体来说 , 预测准确度是度量一个推荐系统或者推荐算法在预测用户行为的准确性方面最重要的指标 。提高预测准确度通常依赖于算法和模型精度的提升 , 所以更具备学术层面的研究价值 。大数据、机器学习等热门技术 , 与预测准确度之间的关系极为密切 , 彼此之间互相促进 , 技术的发展推动了预测准确度的提升 , 而似乎永无止境的对预测准确度的提升需求 , 也带动了技术层面的不断投入 。
3. 覆盖率
覆盖率用来描述一个推荐系统对长尾内容或商品的发掘能力 。关于覆盖率的定义 , 最简单的理解是推荐系统能够推荐出来的物品 , 占平台中全部物品的比例 。以图文内容推荐为例 , 自媒体作者可能会很关心他们的内容有没有被推荐给读者 , 而对于覆盖率达到100%的推荐系统 , 则意味着每篇内容都被推荐给了至少一个用户 。但对于仅提供热门文章排行榜的系统来说 , 例如一些大学论坛的首页可能只显示每日十大文章 , 这样的推荐系统 , 它的覆盖率是很低的 , 因为它只会推荐那些被大量阅读的文章 , 而这些文章在所有文章中的占比非常小 。
4. 多样性
用户的兴趣是非常广泛的 , 在一个视频应用中 , 用户可能既喜欢看烧脑电影 , 也喜欢看动作大片 。那么 , 为了满足用户广泛的兴趣 , 推荐列表需要能够覆盖用户不同的兴趣领域 , 即推荐结果需要具有多样性 。而想提升推荐系统的多样性 , 那么就需要在较大的时间跨度上去识别和理解用户的兴趣 。
5. 新颖性
所谓新颖 , 就是指给用户推荐那些他们以前没有听说过的内容或商品 , 例如在视频应用中应该尽可能多地向用户推荐他们没有看过的电影 。而考虑到很多用户在某个应用中的使用粘性可能并不高 , 例如一个用户可能同时是多个视频应用的用户 , 所以仅仅依靠用户在自己系统中的行为记录来保证推荐的新颖性是不够的 。除此之外比较简单方法是基于内容或商品的平均流行度去进行推荐 , 因为越不热门的东西越可能让用户觉得新颖 。不过 , 向用户推荐不流行的内容或商品 , 其实是牺牲了一定的推荐精度的 , 所以我们需要权衡该指标与其它指标之间的平衡 , 这不仅在于技术层面的考量 , 可能也在于商业层面的考量 。

推荐阅读