自然语言处理(NLP)
数学基础
- 概率论
- 条件概率、联合概率与独立
- 全概率公式与贝叶斯公式
- 信息熵
- 马尔科夫过程
- 图论
- 贝叶斯网络
- 马尔科夫链
- 条件随机场
- 统计学
- tf-idf
- 常用分布
正态分布、均匀分布、二项分布、指数分布、泊松分布等 - 常用统计量
期望,方差,协方差,置信度等 - 最大似然估计
- 最小二乘估计
- ROC曲线
- 假设检验
- 统计抽样
- 函数
- 狄利克雷函数
- 常用激活函数
ReLU、Sigmoid、Softmax、Tanh、Maxout、sgn等
- 微积分
- 泰勒公式
- 导数
- 全微分
- 偏导数
- 链式法则
- 梯度
- 线性代数
- 矩阵相乘
代数意义及几何意义 - 矩阵分解
- 奇异值分解(SVD)
- 特征分解
- 凸优化
- 矩阵相乘
- 算法
- EM算法
- 遗传算法
- 费波那契数列算法
- Viterbi算法
- N-gram
- 决策树
- 随机森林算法
- 逻辑回归
- SVM
- Adaboost
- KNN
- K-means
- 朴素贝叶斯
- Apriori
- Attention机制
常用python第三方库
- jieba(分词常用工具)
- gensim(语料预处理,LDA、Word2vec、Doc2vec等模型)
- re(正则)
- TensorFlow(神经网络)
- matplotlib(可视化)
- pyecharts(可视化)
分词
常见问题
常用方法
- 基于词典与规则
- 正向最大匹配
- 反向最大匹配
- 最少切分
- 基于统计与概率
- 隐马尔科夫模型(HMM)
例如:jieba分词、中科院NLPIR(原ICTCLAS)
推荐阅读 - 条件随机场(CRF)
例如:StanfordNLP、CRF++
- 隐马尔科夫模型(HMM)
- 基于深度学习
- Bi-LSTM+CRF
推荐项目
- Bi-LSTM+CRF
词性标注
常见问题
- 词性消歧
- 词性分类
- 词性标注
常用方法
- 基于词典与规则
- 基于统计与概率
- 最大熵
- HMM
- CRF
- 基于深度学习
- Bi-LSTM+CRF
特征工程
常用方法
- 特征提取
- 布尔模型
- 向量空间模型(VSM)
- TF-IDF
- 词袋
- 概率模型
- 图空间模型
- 推荐项目
- 特征处理
- 特征清洗
- 预处理
- 单特征
- 归一化
- 离散化
- 缺失值
- 直接使用
- 删除特征
- 补全
- 均值插补
- 同类均值插补
- 建模预测
- 高维映射
- 极大似然估计
- 近邻值
- 数据变换
- 多特征
- 降维
- 主成分分析法(PCA)
使用decomposition库的PCA类选择特征。 - 线性判别分析法(LDA)
使用lda库的LDA类选择特征。
- 主成分分析法(PCA)
- 特征选择
- Filter
- 思路:通过自变量与目标变量之间的关联
- 方差选择法
- 相关系数
- 卡方检验
- 信息增益、互信息
- Wrapper
- 思路:通过目标函数决定是否加入变量
- 迭代:产生特征子集,评价:
- 完全搜索
- 启发式搜索
- 随机搜索
- GA
- SA
- Embedded
- 思路:学习器自身自动选择
- 正则化
- L1
- L2
- 决策树——熵、信息增益
- 深度学习
Word Embedding(词嵌入论文)
- Filter
- 降维
- 衍生变量
加工原始数据,生成有意义的变量
- 单特征
- 特征监控
- 特征有效性分析
- 重要特征监控
文本表示
常见问题
- 降维
- 语义表示
- 特征选取
- 文本除噪
常用方法
- 布尔模型
- 向量空间模型(VSM)
- 独热编码(one-hot)
- TF-IDF
- 词袋
- n-gram
- 概率模型
- Mixture of unigram
- LSA/LSI
- PLSA
- LDA
- 图空间模型
- 推荐项目
- 基于深度学习
文本分类
常见问题
- 情感分析
- 短文本分类
- 新闻分类
常用方法
- 基于知识规则
- 专家制定规则
- 基于统计学习
- SVM
- KNN
- 最大熵
- 朴素贝叶斯
- 遗传算法
- 基于深度学习
文档自动摘要
- 基本步骤
- 文本分析
- 文本内容的选取和泛化
- 文摘的转化和生成
- 类型
- 基于抽取
- 打分排序
- 压缩式摘要
- 基于抽象
- 基于抽取
- 应用范围
- 学术文献
- 会议记录
- 电影剧本
- 学生反馈
- 软件代码
- 直播文字
- 推荐项目1
- 推荐项目2
知识图谱
常用方法
- 知识抽取
- 实体抽取
- 基于百科或垂直站点提取
- 基于规则与词典
- 启发式算法
- 规则模板
- 基于统计学习
- KNN+CRF
- 最大熵
- 基于深度学习
- Bi-LSTM+CRF
- 面向开放域的实体抽取
- 迭代拓展
- 搜索聚类
- 关系抽取
- 模式匹配
- 开放式实体关系抽取
- 二元
- n元
- 基于联合推理的实体关系抽取
- 基于马尔可夫逻辑网
- 基于本体推理的深层隐含关系抽取方法
- 属性抽取
- 实体抽取
- 知识融合
- 实体对齐
- 成对实体对齐
- 基于传统概率模型
- 基于聚类
- 基于机器学习
- 局部集体实体对齐
- 全局集体实体对齐
- 基于相似性传播
- 基于概率模型
LDA模型、CRF模型、Markov逻辑网等
- 成对实体对齐
- 知识合并
- 实体对齐
- 知识加工
- 本体构建
- 实体并列关系相似度计算
- 实体上下位关系抽取
- 本体的生成
- 知识推理(推荐阅读)
- 基于逻辑
- 基于图
- 基于深度学习
- 质量评估
- 本体构建
- 知识更新
- 逻辑层面
包括概念层的更新和数据层的更新 - 内容层面
包括全量与增量
- 逻辑层面
应用
- 智能搜索
- 构建人物关系图
- 反欺诈(推荐阅读)
- 不一致性验证
- 异常分析
- 静态分析
- 动态分析
- 失联客户管理
其他应用
- 翻译
- 问答系统
- 语音识别
- 语义分析