自然语言处理(NLP)

数学基础

概率论
- 条件概率、联合概率与独立
- 全概率公式与贝叶斯公式
- 信息熵
- 马尔科夫过程
图论
- 贝叶斯网络
- 马尔科夫链
- 条件随机场
统计学
- tf-idf
- 常用分布
  正态分布、均匀分布、二项分布、指数分布、泊松分布等
- 常用统计量
  期望，方差，协方差，置信度等
- 最大似然估计
- 最小二乘估计
- ROC曲线
- 假设检验
- 统计抽样
函数
- 狄利克雷函数
- 常用激活函数
  ReLU、Sigmoid、Softmax、Tanh、Maxout、sgn等
微积分
- 泰勒公式
- 导数
- 全微分
- 偏导数
- 链式法则
- 梯度
线性代数
- 矩阵相乘
  代数意义及几何意义
- 矩阵分解
- 奇异值分解(SVD)
- 特征分解
- 凸优化
算法
- EM算法
- 遗传算法
- 费波那契数列算法
- Viterbi算法
- N-gram
- 决策树
- 随机森林算法
- 逻辑回归
- SVM
- Adaboost
- KNN
- K-means
- 朴素贝叶斯
- Apriori
- Attention机制

常用python第三方库

jieba(分词常用工具)
gensim(语料预处理，LDA、Word2vec、Doc2vec等模型)
re(正则)
TensorFlow(神经网络)
matplotlib(可视化)
pyecharts(可视化)

分词

常见问题

分词标准
序列标注
命名实体识别(NER)
- 推荐阅读
新词发现
语义消歧
- 推荐阅读

常用方法

基于词典与规则
- 正向最大匹配
- 反向最大匹配
- 最少切分
基于统计与概率
- 隐马尔科夫模型(HMM)
  例如：jieba分词、中科院NLPIR(原ICTCLAS)
  推荐阅读
- 条件随机场(CRF)
  例如：StanfordNLP、CRF++
基于深度学习
- Bi-LSTM+CRF
  推荐项目

词性标注

常见问题

词性消歧
词性分类
词性标注

常用方法

基于词典与规则
基于统计与概率
- 最大熵
- HMM
- CRF
基于深度学习
- Bi-LSTM+CRF

特征工程

常用方法

特征提取
- 布尔模型
- 向量空间模型(VSM)
  - TF-IDF
  - 词袋
- 概率模型
- 图空间模型
- 推荐项目
特征处理
- 特征清洗
- 预处理
  - 单特征
    - 归一化
    - 离散化
    - 缺失值
      - 直接使用
      - 删除特征
      - 补全
        
        均值插补
        
        同类均值插补
        
        建模预测
        
        高维映射
        
        极大似然估计
        
        近邻值
    - 数据变换
  - 多特征
    - 降维
      - 主成分分析法(PCA)
        使用decomposition库的PCA类选择特征。
      - 线性判别分析法(LDA)
        使用lda库的LDA类选择特征。
    - 特征选择
      - Filter
        
        思路：通过自变量与目标变量之间的关联
        
        方差选择法
        
        相关系数
        
        卡方检验
        
        信息增益、互信息
      - Wrapper
        
        思路：通过目标函数决定是否加入变量
        
        迭代：产生特征子集，评价：
        
        完全搜索
        
        启发式搜索
        
        随机搜索
        
        GA
        
        SA
      - Embedded
        
        思路：学习器自身自动选择
        
        正则化
        
        L1
        
        L2
        
        决策树——熵、信息增益
        
        深度学习
        Word Embedding(词嵌入论文)
  - 衍生变量
    加工原始数据，生成有意义的变量
特征监控
- 特征有效性分析
- 重要特征监控

文本表示

常见问题

降维
语义表示
特征选取
文本除噪

常用方法

布尔模型
向量空间模型(VSM)
- 独热编码(one-hot)
- TF-IDF
- 词袋
- n-gram
概率模型
- Mixture of unigram
- LSA/LSI
- PLSA
- LDA
图空间模型
推荐项目
基于深度学习
- Word2vec——(推荐阅读)
- Doc2vec——(推荐阅读)

文本分类

常见问题

常用方法

基于知识规则
- 专家制定规则
基于统计学习
- SVM
- KNN
- 最大熵
- 朴素贝叶斯
- 遗传算法
基于深度学习
- fastText——相关论文
- TextCNN——相关论文
- TextRNN + Attention——相关论文
- TextRCNN——相关论文
- 推荐项目(基于keras的LSTM解决情感分类问题)

文档自动摘要

基本步骤
- 文本分析
- 文本内容的选取和泛化
- 文摘的转化和生成
类型
- 基于抽取
  - 打分排序
  - 压缩式摘要
- 基于抽象
应用范围
- 学术文献
- 会议记录
- 电影剧本
- 学生反馈
- 软件代码
- 直播文字
推荐项目1
推荐项目2

知识图谱

常用方法

知识抽取
- 实体抽取
  - 基于百科或垂直站点提取
  - 基于规则与词典
    - 启发式算法
    - 规则模板
  - 基于统计学习
    - KNN+CRF
    - 最大熵
  - 基于深度学习
    - Bi-LSTM+CRF
  - 面向开放域的实体抽取
    - 迭代拓展
    - 搜索聚类
- 关系抽取
  - 模式匹配
  - 开放式实体关系抽取
    - 二元
    - n元
  - 基于联合推理的实体关系抽取
    - 基于马尔可夫逻辑网
    - 基于本体推理的深层隐含关系抽取方法
- 属性抽取
知识融合
- 实体对齐
  - 成对实体对齐
    - 基于传统概率模型
    - 基于聚类
    - 基于机器学习
  - 局部集体实体对齐
  - 全局集体实体对齐
    - 基于相似性传播
    - 基于概率模型
      LDA模型、CRF模型、Markov逻辑网等
- 知识合并
知识加工
- 本体构建
  - 实体并列关系相似度计算
  - 实体上下位关系抽取
  - 本体的生成
- 知识推理(推荐阅读)
  - 基于逻辑
  - 基于图
  - 基于深度学习
- 质量评估
知识更新
- 逻辑层面
  包括概念层的更新和数据层的更新
- 内容层面
  包括全量与增量

应用

智能搜索
构建人物关系图
反欺诈(推荐阅读)
不一致性验证
异常分析
- 静态分析
- 动态分析
失联客户管理

其他应用

翻译
问答系统
语音识别
语义分析

NLP体系导览

NLP体系导览

自然语言处理(NLP)

数学基础

常用python第三方库

分词

常见问题

常用方法

词性标注

常见问题

常用方法

特征工程

常用方法

文本表示

常见问题

常用方法

文本分类

常见问题

常用方法

文档自动摘要

知识图谱

常用方法

应用

其他应用

相关阅读更多精彩内容

友情链接更多精彩内容