以自注意力机制为核心的新一代AI技术已经对世界产生了巨大影响,人们看到了其背后能够释放出来的巨大能量。AI将如互联网一样深刻改变人类社会的方方面面,自然改变的进程中充满了机遇。
对于大部分人而言,AI是一个陌生的事物,需要通过学习来了解和掌握。在焦虑情绪的影响下,购买市面上关于各种AI的教程而一头扎入不是明智之举。错误的学习方法与学习资料只能带来无效的学习结果。
本文不讨论具体的AI技术、教程,而是从学习的目的、过程出发讨论如何学习AI。
总的来说,AI的学习可以分为三个部分:理论、工程和应用。
理论指的是如多层感知机、梯度下降算法、卷积神经网络、循环神经网络、transformer等算法,它们是AI的理论基础。现阶段AI的爆发从理论角度看是自注意力机制的胜利,也是这几十年来深度学习网络方向的大成。
几十年的积累让深度学习已经变得很繁杂,不过如果从功利的角度来评价,自注意力机制是核心。在其上构建的transformer模型是现在所有大语言模型的基础,大语言模型本质上是将自注意力机制运用在人类的文字数据上。许多研究尝试将其运用在其他数据上。
在当前的时间节点,与其按部就班从线性回归到感知机,再到卷积和循环,最后才到transformer和大语言模型,不如直接以自注意力机制为核心开始学习。
对于希望在理论上深入的人,心中有了自注意力机制这个目标,学习其他部分时才会有主心骨。以一种站在巨人肩膀上的心态学习,不容易失去方向。
对于兴趣在工程和应用上的人来说,理解了自注意力机制就抓住了这一波AI技术的核心。从其中可以知道AI能力的边界,不会被外界的过热的情绪所裹挟。特别是对于兴趣在应用上的人而言,认识到这波AI技术的能力边界就足够了。
工程指的是工程实现,可以分为模型和外围两部分。模型指的是在工程上如何将理论转换为模型的构建、训练和微调。外围指的是基于模型搭建服务。这部分和传统互联网的技术密切相关。
在模型的构建、训练和微调上,现在应用最广泛的工具是Pytorch。它是Meta公司研发的开源深度学习框架,在学界和工业界都被广泛使用。所以如果希望在工程实现上学习AI,那么很大一部分内容是学习Pytorch的使用。
Pytorch的使用是通过Python语言,所以也需要Python语言的基础。如果希望在工程领域深耕,那么还需要学习CUDA的编程。
应用指的是将AI技术和现实场景结合起来,解决实际问题。这方面的学习一方面是观察市场上创业的方向,理解这些方向是如何使用AI技术的。另一方面是从简单的逻辑出发,推演AI能在什么地方发挥用处。
将AI的学习划分为三个部分之后,具体学习时就可以将学到的东西打包放入对应的位置。从不同层面和角度来审视所学知识,将其融入自己已有的知识体系中。不至于越学越迷茫。
AI的学习还需要有顺序和重点。一开始应该从理论出发,理论的核心是确定和有限的,它也是工程和应用的基础。如果没有相关的知识积累,那么学习起来会比较困难。这时可以去寻找以通俗语言解释理论的资料、视频,建立初步的印象。
工程实现上,如果不是程序员,那么了解一下使用的框架、工具和解决方案就足够了。
应用上,在有了理论和工程的了解后,再谈论AI会更有把握。
总体而言,学习AI之前思考清楚自己学习的目的,全面认识这个领域的构成,才能有的放矢而得偿所愿。