本文内容出自此书内容
NLP: A Primer
🔖 Outline
Section outline as covered in the book.
- NLP in the Real World
- NLP Tasks
- What Is Language?
- How Does Language Make NLP Challenging?
- Machine Learning, Deep Learning, and NLP: An Overview
- Approaches to NLP
- Heuristics-Based NLP
- Machine Learning for NLP
- Deep Learning for NLP
- Why Deep Learning Is Not Yet the Silver Bullet for NLP
- An NLP Walkthrough: Conversational Agents
- Wrapping Up
NLP 即自然语言处理,这部分主要介绍了NLP领域的主要任务和其在生活工业中的应用。
此图介绍了NLP的核心任务,及其应用,通常在生活中和手机App上能找到NLP用到的地方。
根据NLP任务的难易程度对它们进行排序,越往下越有挑战性。
将一个语言按照不同的部分进行划分,不同的部分可以结合NLP做不同的应用。
出现歧义问题的句子,消除歧义也是NLP任务中的挑战。
NLP 和机器学习(ML)、深度学习(DL)之间的关系,它们都属于AI领域的子模块。
处理NLP任务的方式主要分为三类:
- Heuristics-Based NLP 启发式的NLP,传统NLP处理方式(形式语言处理、自动机)
- Machine Learning for NLP 基于机器学习的NLP处理方式(统计学的方法处理:贝叶斯分类器、支持向量机、隐马尔科夫链、条件随机场)
- Deep Learning for NLP 基于深度学习的NLP处理方式(CNN、RNN、LSTM、Transformer、Bert)
近几年,深度学习方式对NLP的发展产生了巨大的影响,例如:文本分类、机器翻译上基于CNN、LSTM的方式已经远由于贝叶斯和支持向量机的方式;在信息抽取上,基于LSTM的方式优于条件随机场。。
但DL并不是处理NLP任务的万能钥匙:
- 在小数据集上会过拟合,相较于ML方法,DL的适用于数据量大的场景。
- 广泛适用于视觉领域,训练次数比较少(Few-shot learning)。
- 对一个领域适用的DL模型,很难同样适用于另外一个领域。
- 难以解释DL模型的预测结果,ML模型的预测结果有公式可以分析,DL更像是个黑匣子。
- 训练DL模型需要耗费大量的时间金钱,收集大量的数据集。
- 在终端设备上的部署困难(也有一些方案: TensorFlow Lite),一般部署在云端。