2022-02-21：NlP处理基本思路

1.获取预料

预料是nlp研究的内容，通常使用文本集合作为语料库，预料的来源分为3种：(1)已有的预料----积累的文档。(2)下载现有的语料---搜狗语料，人民日报语料等。(3)使用爬虫抓取。

2.语料的预处理

2.1 语料清洗：人工去重，对齐，标注或者规则提取内容，根据词性和命名实体提取
2.2 分词：将文本分成词语。(基于字符串匹配的分词方法，基于理解的分词方法，基于统计的分词方法，基于规则的分词方法)
2.3 词性标注：在情感分析或者知识推理中需要。(最大熵词性标注，基于统计最大概率输出词性，基于HMM的词性标注，基于规则)
2.4 去停用词：去掉对文本特征没有任何贡献作用的字词，比如标点符号，语气，人称等)

3.特征工程

将分词表示成计算机能够计算的类型(词向量)，常用的模型(词袋模型,tf-idf,one-hot,word2Vec)

4.特征选择

常见的特征选择方法(DF，MI,IG，CHI,WLLR,WFO)

5.模型训练

机器学习模型：KNN,SVM，Naive Bayes,K-Means,D-tree，GBDT等
深度学习模型：CNN,RNN，LSTM，seq2seq,fastText,TextCNN等

评价指标

Roc曲线，混淆矩阵，AUC曲线

模型部署

离线训练，线上部署。
在线训练，并持久化

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2022-02-21：NlP处理基本思路