烛之文 - 简书

烛之文

IP属地：浙江

关于实体识别中数据增强的实践
对命名实体识别任务(NER)进行数据增强，不像对分类任务容易，其主要原因它是序列标注任务，识别是token级别。一些常见的方法，如随机删除或替换...

0.6 1347 1 1 1
使用框嵌入(box embedding)进行细粒度实体类型识别
1、研究出发点本次分享一篇有关embedding的文章，来自2021年ACL的paper《Modeling Fine-Grained Enti...

0.1 1102 0 1

利用对比学习来提升采样质量
Introduction 今天分享一篇来自2021年NIPS会议的paper：Improving Contrastive Learning on...

0.1 1692 0 3
一种基于表格填充的关系抽取方法
1 前言关于关系抽取(三元组抽取)的方法有很多，传统的方法采用pipeline方法——先识别文本中所有实体，然后在对识别的实体对遍历判断关系类...

1736 0 0
基于语义负样本的对比学习来提升自然语言理解
前言这两年对比学习是一个研究热点，今年的ACL会议有16篇关于对比学习的paper，今天分享其中的一篇——基于语义负样本的对比学习来提升自然语...

0.1 1548 0 1
关于数据增强中如何合成高质量样本
1 前言在NLP领域中，数据增强(data augmentation)已成为解决样本不平衡( data imbalance)或训练数据不足等问...

3243 0 1
2021年ACL会议关于命名实体识别的论文汇总
前言命名实体识别(Named Entity Recognition，NER)一直是NLP中最主流，也是最基础的任务之一。尽管传统的机器学习方法...

0.3 7185 0 5

一种挖掘文本中语义相似词的方法
1 前言在自然语言处理工作(NLP)中，会遇到这样的一个应用问题：如何挖掘文本中某一关键词的语义相似词或近义词？解决该问题的办法很多，比如使用...

1128 0 0
如何利用Bert处理长文本
1 前言预训练模型Bert能处理最大序列长度为512，当面对长文本(文档级别)时候，通常是采用text truncation或者sliding...

1.7 6356 6 9