目录
- Motivation:论文想要解决的问题
- Methodology:本文提出的方法
- experiment:实验结果
Motivation
- 提升Transformer-based models(BERT)在Product Matching上的性能
Datasets
- WDC Product Corpus:有4类商品,此处仅使用computers
- 数据链接:http://webdatacommons.org/largescaleproductcorpus/v2/
- 本实验数据集如下图:
products:商品类别(Test set 共包含150种类别,该computers共有745种类别)
pos pairs:数据集中label==1的pair的数目
注:此处数据为weak数据,products是按照商品ID区分的(like GTINs or MPNs),只要ID相同,就归为同一数据类别,记为同一cluster。(pos pair 是同一cluster里面tuple的任意组合;neg pair 是不同cluster里面tuple的任意组合。也可以规定其他组合方式)因此,后文的训练其实都是weak supervised。

Methodology
architecture:
- Bert【CLS】+logistic regression classifier做分类(此时需要训练集Train set来finetune Bert,将该步骤记为①)
- 缺点:如果想达到好的效果,需要较多Train set
改进方式:INTERMEDIATE TRAINING ON DOMAIN-SPECIFIC DATA
1)在①之前,先用DOMAIN-SPECIFIC DATA finetune Bert
- A:使用Train和Test中没有的computers类型来weak supervision finetune Bert
- B:使用Train和Test中没有的computers类型以及其他产品类型(例如camera,shoes)来weak supervision finetune Bert
- 目的:实现让bert学习到和products相关的信息
2)在①之前,使用DOMAIN-SPECIFIC DATA做MLM
- 利用Bert最原始的训练框架,Mask一些token,然后predict token,从而学习该语料的语义
experiment
- A的效果要比B好一些,比起无INTERMEDIATE TRAINING,A,B都有提升

- 加入MLM,效果更好
