分清一堆 AI 技术词

说起近期的热门科技词汇，AIGC 当之无愧位列其中，但你真的了解 AIGC 吗？

最近我们的生活突然被改变了，发现 AI 可以帮忙生成文字、图片、音频视频等等内容了，而且让人难以分清，背后的创作者到底是人还是 AI。这些 AI 生成的内容被叫做 AIGC，它是 AI Generated Conten，即「AI生成内容」的简写。

aigc

像 ChatGPT 生成的文章，Github Copilot 生成的代码等等，都属于AIGC。

而海外更流行的是另外一个词：Generative AI 即「生成式 AI」。

从字面上来看，生成式 AI 和 AIGC 之间的关系很好理解：生成式 AI 所生成的内容就是 AIGC，所以 ChatGPT、Github Copilot 都属于生成式 A。

那么生成式 AI 和机器学习、监督学习、无监督学习、强化学习、深度学习、大语言模型等等词汇之间又是什么关系呢？

这个很难一言以蔽之，但通过一张图，就可以直观理解它们之间的关系了。

1、AI

AI 也叫人工智能，是计算机科学下的一个学科，旨在让计算机系统去模拟人类的智能，从而解决问题和完成任务。

早在二十世纪中期，AI 就被确定为了一个学科领域，在此后数 10 年间经历过多轮低谷与繁荣。

2、机器学习

机器学习是 AI 的一个子集，它的核心在于不需要人类做显示编程，而是让计算机通过算法自行学习和改进，去识别模式，做出预测和决策。

比如我们给电脑大量玫瑰和向日葵的图片，让电脑自行识别模式，总结规律，从而能对没见过的图片进行预测和判断，这种就是机器学习。

机器学习领域下有多个分支，包括监督学习、无监督学习、强化学习。

2.1、监督学习

在监督学习里，机器学习算法会接受有标签的训练，数据标签就是期望的输出值，所以每个训练数据点都既包括输入特征，也包括期望的输出值。

算法的目标是学习输入和输出之间的映射关系，从而在给定新的输入特征后，能够准确预测出相应的输出值

经典的监督学习任务包括分类——也就是把数据划分为不同的类别，以及回归——也就是对数值进行预测。

比如拿一堆猫猫狗狗的照片和照片，对应的猫狗标签进行训练，然后让模型根据没见过的照片预测是猫还是狗，这就属于分类。

拿一些房子特征的数据，比如面积卧室树是否带阳台等，和相应的房价作为标签进行训练，然后让模型根据没见过的房子的特征预测房价，这就属于回归。

2.2、无监督学习

和监督学习不同的是，他学习的数据是没有标签的，所以算法的任务是自主发现数据里的模式和规律。

经典的无监督学习任务包括聚类，也就是把数据进行分组。比如拿一堆新闻文章，让模型根据主题或内容的特征，自动把相似文章进行组织。

2.3、强化学习

而强化学习则是让模型在环境里采取行动，获得结果反馈，从反馈里学习，从而能在给定情况下采取最佳行动，来最大化奖励或是最小化损失。

所以就跟训小狗似的，刚开始的时候小狗会随心所欲做出很多动作，但随着和训犬师的互动，小狗会发现某些动作能够获得零食，某些动作没有临时，某些动作甚至会遭受惩罚，通过观察动作和奖惩之间的联系，小狗的行为会逐渐接近训犬师的期望。

强化学习可以应用在很多任务上，比如说让模型下围棋，获得不同行动导致的奖励或损失反馈，从而在一局局游戏里优化策略，学习如何采取行动达到高分。

那问题来了，深度学习属于这三类里的哪一类呢？

3、深度学习

深度学习不属于里面的任何一类，深度学习是机器学习的一个方法，核心在于使用人工神经网络，模仿人脑处理信息的方式，通过层次化的方法提取和表示数据的特征。

神经网络是由许多基本的计算和储存单元组成，这些单元被称为神经元，这些神经元通过层层连接来处理数据，并且深度学习模型通常有很多层，因此称为深度。

比如要让计算机识别小猫的照片，在深度学习中，数据首先被传递到一个输入层，就像人类的眼睛看到图片一样，然后数据通过多个隐藏层，每一层都会对数据进行一些复杂的数学运算，来帮助计算机理解图片中的特征。

例如小猫的耳朵眼睛等等，最后计算机会输出一个答案，表明这是否是一张小猫的图片。

神经网络可以用于监督学习，无监督学习，强化学习，所以深度学习不属于他们的子集。

生成式 AI 是深度学习的一种应用，它利用神经网络来识别现有内容的模式和结构，学习生成新的内容，内容形式可以是文本、图片、音频等等。

而大语言模型也叫 LLM（Large Language Model），也是深度学习的一种应用，专门用于进行自然语言处理任务。

大语言模型里面的大字，说明模型的参数量非常大，可能有数百亿甚至到万亿个，而且训练过程中也需要海量文本数据集，所以能更好的理解自然语言，以及生成高质量的文本

大语言模型的例子有非常多，比如 GPT 可以进行文本的理解和生成。以 GPT3 为例，它会根据输入提示以及前面生成过的，通过概率计算，逐步生成下一个词或 token 来输出文本序列。

但不是所有的生成式 AI 都是大语言模型，也不是所有的大语言模型是为生成式 AI。

前半句很好理解，生成图像的扩散模型就不是大语言模型，它并不输出文本。

不是所有大语言模型都是生成式 AI。这是因为有些大语言模型由于其架构特点，不适合进行文本生成。

谷歌的 BERT 模型就是一个例子，它的参数量和训练数据很大，属于大语言模型。应用方面，BERT 理解上下文的能力很强，因此被谷歌用在搜索上，用来提高搜索排名和信息摘录的准确性，它也被用于情感分析、文本分类等任务。但 BERT 不擅长文本生成，特别是连贯的长文本生成，此类模型不属于生成式 AI 的范畴。

4、总结

到这里，我们可以很好的区分，AIGC 和 AI、机器学习、监督学习、无监督学习、强化学习、深度学习、神经网络、大语言模型这些概念了。这些概念共同构成了生成式AI的核心要素。

最后编辑于：2025.01.16 18:31:31

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,753评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,668评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,090评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,010评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,054评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,806评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,484评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,380评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,873评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,021评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,158评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,838评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,499评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,044评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,159评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,449评论 3赞 374
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,136评论 2赞 356