阅读笔记3:(IPM)Intermediate Training of BERT for Product Matching

目录

    - Motivation:论文想要解决的问题

    - Methodology:本文提出的方法

    - experiment:实验结果

Motivation

- 提升Transformer-based models(BERT)在Product Matching上的性能

Datasets

- WDC Product Corpus:有4类商品,此处仅使用computers

- 数据链接:http://webdatacommons.org/largescaleproductcorpus/v2/

- 本实验数据集如下图:

products:商品类别(Test set 共包含150种类别,该computers共有745种类别)

pos pairs:数据集中label==1的pair的数目

注:此处数据为weak数据,products是按照商品ID区分的(like GTINs or MPNs),只要ID相同,就归为同一数据类别,记为同一cluster。(pos pair 是同一cluster里面tuple的任意组合;neg pair 是不同cluster里面tuple的任意组合。也可以规定其他组合方式)因此,后文的训练其实都是weak supervised。



Methodology

architecture:

- Bert【CLS】+logistic regression classifier做分类(此时需要训练集Train set来finetune Bert,将该步骤记为①)

- 缺点:如果想达到好的效果,需要较多Train set

改进方式:INTERMEDIATE TRAINING ON DOMAIN-SPECIFIC DATA 

1)在①之前,先用DOMAIN-SPECIFIC DATA finetune Bert

- A:使用Train和Test中没有的computers类型来weak supervision finetune Bert

- B:使用Train和Test中没有的computers类型以及其他产品类型(例如camera,shoes)来weak supervision finetune Bert

- 目的:实现让bert学习到和products相关的信息

2)在①之前,使用DOMAIN-SPECIFIC DATA做MLM

- 利用Bert最原始的训练框架,Mask一些token,然后predict token,从而学习该语料的语义

experiment

- A的效果要比B好一些,比起无INTERMEDIATE TRAINING,A,B都有提升


- 加入MLM,效果更好


©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容