阅读笔记3：（IPM）Intermediate Training of BERT for Product Matching

Motivation

- 提升Transformer-based models（BERT）在Product Matching上的性能

Datasets

- WDC Product Corpus：有4类商品，此处仅使用computers

- 数据链接：http://webdatacommons.org/largescaleproductcorpus/v2/

- 本实验数据集如下图：

products：商品类别（Test set 共包含150种类别，该computers共有745种类别）

pos pairs：数据集中label==1的pair的数目

注：此处数据为weak数据，products是按照商品ID区分的（like GTINs or MPNs），只要ID相同，就归为同一数据类别，记为同一cluster。（pos pair 是同一cluster里面tuple的任意组合；neg pair 是不同cluster里面tuple的任意组合。也可以规定其他组合方式）因此，后文的训练其实都是weak supervised。

Methodology

architecture：

- Bert【CLS】+logistic regression classifier做分类（此时需要训练集Train set来finetune Bert，将该步骤记为①）

- 缺点：如果想达到好的效果，需要较多Train set

改进方式：INTERMEDIATE TRAINING ON DOMAIN-SPECIFIC DATA

1）在①之前，先用DOMAIN-SPECIFIC DATA finetune Bert

- A：使用Train和Test中没有的computers类型来weak supervision finetune Bert

- B：使用Train和Test中没有的computers类型以及其他产品类型(例如camera，shoes)来weak supervision finetune Bert

- 目的：实现让bert学习到和products相关的信息

2）在①之前，使用DOMAIN-SPECIFIC DATA做MLM

- 利用Bert最原始的训练框架，Mask一些token，然后predict token，从而学习该语料的语义

experiment

- A的效果要比B好一些，比起无INTERMEDIATE TRAINING，A，B都有提升

- 加入MLM，效果更好

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

阅读笔记3：（IPM）Intermediate Training of BERT for Product Matching

阅读笔记3：（IPM）Intermediate Training of BERT for Product Matching

目录

Motivation

Datasets

Methodology

experiment

友情链接更多精彩内容