NER----有关推文的数据集

社交信息的缺点:固有的噪声信息;不当的语法结构;拼写不连续以及大量的缩写词
字词序列、语法信息和地名词典信息中学习到更高阶的特征。
选择与任务最相关的特征,本文主要是指字、词、词典三个方面。

1、《Raw-to-End Name Entity Recognition in Social Media》2017年发表

数据集:TNT(4290条)、BTC(6261条)
数据集特点:一条推文中,一个字符对应一个label,空格也算一个字符

["Raptors set to face 'probably' one of NBA's best",
 ['B-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]
TNT、BTC

2、《Named Entity Recognition for Social Media Texts with Semantic Augmentation》2020年发表于EMNLP

数据集:WNUT16(W16)、WNUT17(W17)、WB(微博)
W16 and W17 are English datasets constructed from Twitter
数据集特点:一个token对应一个label。


W16数据集中10个类别

3、总结

两篇文章所提到的推文数据集都是没有倾向性的,随机在推特中爬取。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容