登录注册写文章

1. 中文NLP笔记：中文自然语言处理的一般流程

不会停的蜗牛

1. 中文NLP笔记：中文自然语言处理的一般流程

图片发自简书App

今天开始一起学习中文自然语言处理

中文NLP一般流程

1. 获取语料

语料，是NLP任务所研究的内容

通常用一个文本集合作为语料库（Corpus）

来源：

已有语料

积累的文档

下载语料

搜狗语料、人民日报语料

抓取语料

2. 语料预处理

1.语料清洗

留下有用的，删掉噪音数据

常见的数据清洗方式

人工去重、对齐、删除和标注等，或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

2.分词

将文本分成词语

常见的分词算法

基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法

3.词性标注

给词语打词类标签，如形容词、动词、名词等

在情感分析、知识推理等任务中需要

常见的词性标注方法

基于规则

基于统计

如基于最大熵的词性标注、基于统计最大概率输出词性和基于 HMM 的词性标注。

4.去停用词

去掉对文本特征没有任何贡献作用的字词，比如标点符号、语气、人称等

3. 特征工程

把分词表示成计算机能够计算的类型，一般为向量

常用的表示模型

词袋模型（Bag of Word, BOW)

TF-IDF

词向量

One-hot

Word2Vec

4. 特征选择

选择合适的、表达能力强的特征

常见的特征选择方法

有 DF、 MI、 IG、 CHI、WLLR、WFO

5. 模型训练

机器学习模型

KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等

深度学习模型

CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN

注意过拟合、欠拟合问题

过拟合：在训练集上表现很好，但是在测试集上表现很差。

常见的解决方法有：

增大数据的训练量；

增加正则化项，如 L1 正则和 L2 正则；

特征选取不合理，人工筛选特征和使用特征选择算法；

采用 Dropout 方法等。

欠拟合：就是模型不能够很好地拟合数据

常见的解决方法有：

添加其他特征项；

增加模型复杂度，比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强；

减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。

注意梯度消失和梯度爆炸问题

6. 评价指标

错误率、精度、准确率、精确度、召回率、F1 衡量。

ROC 曲线、AUC 曲线

7. 模型上线应用

第一就是线下训练模型，然后将模型做线上部署

第二种就是在线训练，在线训练完成之后把模型 pickle 持久化

学习资料：

《中文自然语言处理入门实战》

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

NLP第1课：中文自然语言处理的完整机器处理流程
2016年全球瞩目的围棋大战中，人类以失败告终，更是激起了各种“机器超越、控制人类”的讨论，然而机器真的懂人类吗？...
米饭超人阅读 21,340评论 3赞 57
浅谈自然语言处理基础（下）
命名实体识别命名实体的提出源自信息抽取问题，即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息，...
我偏笑_NSNirvana阅读 10,432评论 1赞 35
《自然语言处理》整理
References：《speech and language processing 》2nd & 3rd 《统...
艺术叔阅读 7,706评论 1赞 8
潘粤明关晓彤正式加盟北京卫视跨年晚会
距离2018年的到来曾贫乏半个月，各大年夜大年夜卫视的跨大年夜大年夜竞争逐步狠恶，每日都有新的佳宾声望发布。17号...
汇聚天下儒将阅读 349评论 0赞 0

58赞59赞

赞赏

手机看全文