1.获取预料
预料是nlp研究的内容,通常使用文本集合作为语料库,预料的来源分为3种:(1)已有的预料----积累的文档。(2)下载现有的语料---搜狗语料,人民日报语料等。(3)使用爬虫抓取。
2.语料的预处理
2.1 语料清洗:人工去重,对齐,标注或者规则提取内容,根据词性和命名实体提取
2.2 分词:将文本分成词语。(基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法,基于规则的分词方法)
2.3 词性标注:在情感分析或者知识推理中需要。(最大熵词性标注,基于统计最大概率输出词性,基于HMM的词性标注,基于规则)
2.4 去停用词:去掉对文本特征没有任何贡献作用的字词,比如标点符号,语气,人称等)
3.特征工程
将分词表示成计算机能够计算的类型(词向量),常用的模型(词袋模型,tf-idf,one-hot,word2Vec)
4.特征选择
常见的特征选择方法(DF,MI,IG,CHI,WLLR,WFO)
5.模型训练
机器学习模型:KNN,SVM,Naive Bayes,K-Means,D-tree,GBDT等
深度学习模型:CNN,RNN,LSTM,seq2seq,fastText,TextCNN等
评价指标
Roc曲线,混淆矩阵,AUC曲线
模型部署
离线训练,线上部署。
在线训练,并持久化