内容来自哈工大车万翔老师团队的作品《自然语言处理:基于预训练模型的方法》。
本章主要介绍了中英文常用的工具和数据集。
- 1 NLTK 英文工具集
- 1.1 常用语料库和词典资源
停用词
常用语料库(标注/未标注)
常用词典(WordNet,SentiWordNet)
- 1.1 常用语料库和词典资源
- 1.2 常用自然语言处理工具集
分句
标记解析
词性标注
命名实体识别等 - 2 LTP 中文工具集(哈工大出品中文NLP工具)
- 中文分词,分句、词性标注、命名实体识别、依存句法分析和语义角色标注等功能。与NLTK类似
- 3 pytorch基础
简略介绍常用的张量运算函数,系统学习可以学习李沐《动手学深度学习》 - 4 大规模预训练数据
- 4.1 维基百科数据的获取
处理:WikiExtractor是一款基于Python的工具包,专门用于处理维基百科的快照
中文繁简体转换工具——OpenCC
数据清洗 - 4.2 Common Crawl数据
Common Crawl包含了超过7年的网络爬虫数据集,包含原始网页数据、元数据提取和文本提取。
Facebook提出的CC-Net工具[3]可用于获取Common Crawl数据,并且提供了一套相对完整的数据处理流程。
- 4.1 维基百科数据的获取