电商多模态数据是什么?数据匹配方法主要有两种


电商多模态数据是什么?数据匹配方法主要有两种

文章插图
小吉导读:目前学术界对多模态的研究主要集中在通用领域,对电子商务的研究相对较少 。在多模态数据匹配中,ViLBERT方法在一般领域有较好的效果,但在电子商务领域,由于提取的ROI不理想,效果低于预期 。本文提出了一种图形匹配模型——fashionBert 。其核心问题是如何在电子商务中提取或表达图像特征 。分享了模型的整体结构和算法,以及在业务中的应用效果和实验数据的改进 。本文已被信息检索领域的顶级国际会议SIGIR20IndustryTrack收录 。温福礼:贾分享人工智能算法和系统的演变 。
背景
随着Web技术的发展,互联网包含了大量的多模态信息(包括文本、图像、语音、视频等 。).从海量多模态信息中寻找重要信息一直是学术界研究的重点 。多模态匹配的核心是文本和图像匹配技术,这也是一项基础研究,在很多领域都有应用,如跨模态红外、图像字幕生成、图像问答系统、图像知识推理等 。然而,目前学术界的研究主要集中在通用领域的多模态研究,而电子商务领域的多模态研究相对较少 。但电商领域也需要多模态匹配模型,应用场景很多 。本文主要研究电子商务中的图形多模态技术 。
多模式匹配研究简史
跨模态研究的重点是如何匹配多模态数据,即如何将多模态信息映射到统一的表示空 。早期的研究主要分为两条主线:典型相关分析(CCA)和视觉语义嵌入(VSE) 。
CCA系列方法
主要是通过分析图片和文字的相关性,然后将图片和文字链接到同空 。这一系列的问题论文很完善,但是效果相对于深度学习方法还有待提高 。虽然后期有基于深度学习(DCCA)的方案,但是和后面的VSE方法相比还是有一定差距的 。
VSE系统方法
将图像和文本分别表示为潜在嵌入,然后将多模态潜在嵌入拟合到同空 。VSE方法被扩展到许多方法,例如扫描和PFAN 。这些方法在一般的图文匹配中取得了很好的效果 。
随着预训练和自监督技术在CV和NLP领域的应用 。从2019年开始,一些学者开始尝试使用基于大规模数据的预先训练好的BERT模型来拟合同一空房间的图形信息 。这些方法在一般领域都取得了很好的效果,这一系列的方法可以在VLBERT的论文中找到 。
基于BERT的预训练图形模型主要流程:
1)首先利用图像目标检测技术识别图像中的感兴趣区域(ROI) 。
2)将感兴趣区域作为图像的表征,与文本表征进行BERT多模态融合 。有两种方案:
单流:以VLBERT为代表,图像令牌和文本令牌直接放入BERT进行多模态融合 。
Cross-stream:以ViLBERT为代表,图像令牌和文本令牌初步交互,然后放入BERT 。
我们尝试了维尔伯特的方法,发现在一般领域确实效果不错 。但是在电子商务领域,由于提取的ROI不理想,效果低于预期 。主要原因是:
1)电商图片投资回报率太少
电商形象产品单一,背景简单,ROI少,如图1(c) 。从统计上来说,一般领域的MsCoCo数据每张图片可以提取19.8个ROI,而电商只能提取6.4个ROI 。当然我们可以强制提取最小ROI,比如维尔伯特要求10~36ROI,维尔伯特要求100ROI 。然而,当设置了最小提取ROI时,提取了太多重复的ROI,如图1(e)所示 。
2)电商ROI不够细粒度
电商图片单一,提取的ROI主要是对象级的产品(例如,整体连衣裙、t恤等 。).相对来说,文字不够细 。例如,文本可以描述主题的非常详细的属性(例如,圆领、七分裤、七分裤等 。).因此,图像的ROI不足以匹配文本标记 。你可以对比一下电子商务领域的图1(c)和图1(d) 。看看一般域的图1(a)和图1(b),你会发现一般域更简单 。只要图像中的主体能和文本令牌对齐,基本上不会太差 。
3)电商图片ROI太吵
如图1(f)提取的模特头、头发、手指,对商品搭配用处不大 。
这也说明了电商领域也是采用现有的ROI方法,并不能得到非常理想的结果 。如果我们说重新训练一个电子商务的ROI提取模型需要大量的数据标注 。那么有没有简单易行的方法来做图形匹配呢?

图1:电子商务领域的ROI问题
FashionBERT图形匹配模型
本文提出了一种FashionBERT图文匹配模型 。核心问题是如何提取或表达电子商务中的图像特征 。2019年年中,谷歌发表了一篇文章,selfie,一个图像自监督学习模型 。主要思想是将图像分成子图像,然后预测子图像的位置信息 。以便模型能够理解图像特征 。这部作品对我们很有启发 。我们直接从图像中分割出同样大小的补丁,然后用补丁作为图像的令牌,并将其与文本进行拟合,如图2所示 。使用补丁的好处:

推荐阅读