电商多模态数据是什么?数据匹配方法主要有两种( 二 )


图像补丁包含所有图像的详细信息 。
图像补片中不会出现重复ROI或过多无用ROI 。
图像补片是自然序列,所以解决BERT的序列问题 。
FashionBert的整体结构如图2所示,主要包括文本嵌入、补丁嵌入、跨模态FashionBert、预训练任务 。
文本嵌入
和原来的BERT一样,先把句子分成记号,然后我们用全词屏蔽技术屏蔽整个记号 。掩蔽的策略与最初的BERT一致 。
补丁嵌入
类似于文字嵌入,这里我们把图片平均分成8*8的面片 。利用ResNet提取每个斑块的图像特征,我们提取了2048维的图像特征 。补丁策略,我们随机屏蔽了10%的补丁,屏蔽的补丁被替换为0 。同时,在段字段中,我们用“t”和“I”来区分文本token的输入和图像patch的输入 。
【电商多模态数据是什么?数据匹配方法主要有两种】跨通道FashionBERT
使用预先训练好的BERT作为网络,这样语言模型自然包含在FashionBERT中 。该模型可以更加注重图文匹配和融合 。
图FashionBert的主框架
FashionBERT模型处于预训练阶段,包括三项任务:
1蒙面语言建模(MLM)
预测屏蔽的文本标记 。我们保持这个任务的训练和参数与最初的BERT一致 。
2蒙版贴片建模(MPM)
预测蒙版补丁,这个任务类似于MLM 。而是因为图像中没有id令牌 。我们在这里使用面片作为目标,希望BERT可以重建面片信息,这里我们选择KLD作为损失函数 。
3文本和图像对齐
类似于下一句预测任务,预测图文是否匹配 。正样是产品名称和图片,负样我们随机抽取同品类下其他产品的图片作为负样 。
这是一个多任务学习问题 。如何平衡这些任务的学习权重?另外,还有一个问题 。目前很多实验指出NSP在BERT中的作用不一定很有效,对最终结果的影响也不是特别清楚 。但是对于图像匹配来说,文本的丢失和图像的对齐是至关重要的 。那么如何平衡这些任务的学习呢?这里我们提出自适应损失算法,我们把学习任务的权重看成一个新的优化问题,如图3所示 。FashionBERT的损失是整个损失的总和 。由于只有三个任务,实际上我们可以直接得到任务权重W的解析解(具体求解过程请参考我们的论文,此处不再赘述) 。

图3:自适应损失
W的整个学习过程可以看做一个学生想学三门课 。w的作用是控制学习的注意力,一方面控制其他科目,另一方面取得最高总分 。具体的自适应损失算法,请参考论文 。从实际效果来看,W随着训练的迭代关注不同的任务,达到平衡任务的目的 。
业务应用
目前,FashionBERT已经开始在阿里巴巴申请搜索多模态向量检索 。对于搜索多模态向量检索,匹配任务可以看作是文本-图形匹配任务,即用户查询(文本)-产品标题(文本)-产品图片(图像)的三元匹配关系 。FashionBERT从上面的模型可以看出,它是一个基本的图文匹配模型,所以我们做了ContinuePretrain的工作,加入了查询、标题和图片段的区分,如图4所示 。FashionBERT和FashionBert最大的区别在于,我们引入了三种段类型,“Q”、“T”和“I”分别代表查询、标题和图片 。
图4:时尚伯特继续预训练
继续预训练后的模型可以在非常小的微调数据上快速获得非常好的结果 。我们当前的矢量检索模型如图5所示:
图5:向量检索3.0多模态强交互匹配模型
上图中我们采用双塔模型(塔间参数共享),可以方便在线查询向量生成和离线产品向量生成 。此外,在查询端,我们使用共现查询来辅助查询的特征表达,在产品端,我们使用扩展信息来扩展产品的语义表达 。
实验结果
打开数据集
我们使用FashionGen数据集,将主流的图文匹配技术与最新的ViLBERT和VLBERT进行对比 。图文匹配和跨模态检索的结果如下,FashionBERT取得了非常明显的提升 。
关于ICBU数据
与BERT模型相比,效果提升也非常明显 。同时,由于在线预测性能的问题,对finetune模型进行了缩减 。我们只使用了FashionBERT的前两层,同时引入了缓存和动态可变序列长度(VSL)策略,大大提高了FashionBERT的在线服务性能 。如下表所示 。
公制



准确度



AUC



6L-BERT



71.21%



0.8121



6L-伯特+IMG



74.42%



0.8283



6L-fashionBert



75.21%



0.8387



2L-伯特



67.81%



0.7746

推荐阅读