中国智能Ai未来发展方向 ——讲座摘录

      #模型时代# 杨红霞AI发展史讲座:OpenAI为何成功,DeepSeek的关键突破,大模型的未来在于“模型融合”

    杨红霞的知名度似乎就不用多做介绍了,她之前曾在阿里、字节任职,后来离开工业界到香港理工大学任教职。刚注意到前两天她的AI讲座,整理了一个文字版,她讲的信息量还是相当丰富。视频前边是些宣传内容,讲座从20分钟左右开始。

***

一、讲座概要

香港理工大学高等研究院近日举办了首届研究与创新公共论坛,邀请了杰出人工智能科学家杨红霞教授进行主题演讲。杨教授在讲座中分享了关于中国AI新势力崛起,特别是DeepSeek大模型的技术突破以及生成式人工智能的未来发展方向。

杨红霞教授目前是香港理工大学计算机及数学科学学院副院长及电子计算学系教授。作为国内最早一批从事大模型研究的专家,她拥有超过15年的经验,专注于大规模机器学习、数据挖掘和深度学习领域。她曾担任阿里达摩院大模型带头人,是超大规模多模态预训练模型M6的技术负责人。

二、人工智能发展历史与生成式AI的兴起

人工智能这个概念最早出现在1950年代的达特茅斯会议上,但在相当长的一段时间内并未取得显著进展。杨教授指出,历史上任何技术的大规模兴起都需要一个重要产业的推动:"任何的一个技术大规模的兴起,这么广泛地有非常大的影响力,背后一定是要有一个非常重要的产业进行一个推动的。"

人工智能发展的第一个小高潮出现在1990年代,IBM的Deep Blue战胜了人类棋手,Watson系统能够回答百科全书问题。然而,真正的突破是在互联网兴起之后。2014年至2016年间,深度学习技术迅速发展,以CNN(卷积神经网络)为核心的技术架构在搜索、推荐和广告领域得到广泛应用。

2017年,Google发布了Transformer架构的论文《Attention is all you need》,这成为生成式人工智能的基础。虽然一开始没有引起广泛关注,但这一技术最终催生了全新的AI范式。生成式AI与传统深度学习的关键区别在于,前者不仅具备表征和检索能力,还拥有强大的生成能力,能够创造全新的内容。

三、大模型研发的两大流派:谷歌vs OpenAI

大模型研发主要形成了两个截然不同的技术路线,分别以谷歌和OpenAI为代表。杨教授形象地描述:"今天谁会去写一本生成式人工智能的历史?如果写了会非常有意思。你会发现当时OpenAI不管它采用的技术路线还是业务路线,你会发现它跟Google都是完全不一样的。"

谷歌采用的是以BERT为代表的双向(Bidirectional)模型路线。BERT模型虽然参数量较小(最大只有3400万参数),但在表征和检索任务上表现出色,为谷歌搜索引擎带来了巨大提升。谷歌CEO曾宣布将搜索引擎全部替换成基于BERT的模型,这种全面升级在搜索领域是前所未有的。

相比之下,OpenAI选择了单向的生成式模型路线,发展出了GPT系列模型。GPT-3拥有1760亿参数,引入了零样本学习(Zero-Shot)能力,不需要针对特定任务进行微调就能表现良好。杨教授强调OpenAI的成功在于其坚定的方向选择和对Scaling Law(缩放定律)的信仰:"OpenAI特别敢笃定的走一个方向,然后把这个方向做到极致大。"

四、Scaling Law:大模型背后的哲学理念

Scaling Law(缩放定律)是大模型研发的核心理念,也是OpenAI等公司的"信仰"。杨教授指出:"暴力算法,暴力可以出奇迹。他们的思想贯穿了模型,以至他们芯片的研发。"

缩放定律揭示了模型规模、数据规模与性能之间的关系。它的美妙之处在于其数学表达的简洁性,只关注三个参数:数据规模、模型规模和训练推理时间。杨教授分享了一个令人惊讶的发现:"OpenAI那边因为它签了非常严格的保密协议,它很多东西是不能跟你讲的。但是我在23年初的时候跟他们聊,当时有一个结论,我的朋友和我讲的让我非常的惊讶,他当时跟我讲说,它的Scaling Law可以做到什么程度呢?它只用6亿参数的模型,可以稳定的预测,甚至是100倍以上,比方说60个billion的model,它的performance会有什么变化。"

这种精确预测能力使得OpenAI能够规划和设计更大规模的模型,并确信这些投资会带来相应的性能提升。缩放定律的成功也证明了"算力暴力出奇迹"的理念,推动了英伟达等芯片公司朝着提供更强大算力的方向发展。

五、大模型训练的两个关键阶段

大模型训练分为两个关键阶段:预训练(Pre-training)和对齐(Alignment)。杨教授详细解释了这两个阶段的不同作用和特点。

预训练阶段是大模型训练中最耗费资源的部分,需要消耗海量数据和计算资源。例如,训练一个1000亿参数的模型可能需要两三千张GPU卡运行两到三个月。预训练的核心目标是让模型记住世界知识:"预训练阶段,基本上它是要把world knowledge,世界的知识全部记下来的。"

随着大模型的发展,互联网上的高质量数据已被大量消耗。最新的DeepSeek模型已经使用了20TB的数据,这已经接近互联网上可获取的高质量数据的极限。

第二个阶段是对齐(Alignment),包括监督微调(Supervised Fine-tuning)和强化学习(Reinforcement Learning)。对齐阶段不是注入知识,而是教导模型如何使用这些知识:"这个阶段到底是在干什么呢?这个阶段说白了,是你要告诉大模型该怎么干、该干什么,不该怎么干。"

杨教授强调,对齐阶段无法注入新知识,只能告诉模型规则。例如,DeepSeek的监督微调使用了80万条数据,其中60万与代码和数学相关,20万是通用内容。而强化学习阶段使用了10万条数据,总共90万条规则告诉模型如何正确行动。

六、DeepSeek的关键技术突破

DeepSeek作为中国AI新势力的代表,在多个技术方面取得了突破。杨教授认为,DeepSeek的两项最重要的技术创新是低比特训练和混合专家模型。

低比特训练(Low bit per train)是算子精度方面的突破。杨教授解释道:"任何的一个技术大规模的兴起,这么广泛地有非常大的影响力,背后一定是要有一个非常重要的产业进行一个推动的。"大模型本质上是一个参数量巨大的函数,每个参数都有一个算子精度。传统的方法使用FP16(16位浮点数)表示参数,而DeepSeek实现了FP8(8位浮点数),这意味着可以用更少的存储空间获得相似的性能。

混合专家模型(Mixture of Experts, MOE)是另一项重要突破。与传统的Dense Model不同,MOE是一种稀疏模型,每个输入只会激活部分专家模型而非所有参数:"每一个Token,每一个样本进来之后,它有一个routing的机制,你会去选择你走哪个expert。"DeepSeek实现了320多个专家模型,而GPT-4据信只有64个专家,这是一个显著的进步。

此外,DeepSeek在对齐阶段也有创新,提出了GRPO(一种近似版本的在线强化学习)和R1两阶段对齐策略。R1策略的独特之处在于分两阶段进行对齐:第一阶段让模型成为强大的推理者(strong reasoner),第二阶段让它成为通用模型(strong generalist)。

七、小模型与持续预训练的潜力

一个引人注目的发现是,在特定领域中,小模型(7B-13B参数)经过适当训练可以超越GPT-4等大模型。杨教授基于实践经验得出结论:"我们发现7B的就是70亿参数,包括13B,130亿参数的模型,对于large language model和multi-model large language model来讲,我们发现在这个specific domain上面,beat掉GPT-4不是一件难的事情。"

这一结论有两个重要前提条件:首先,必须拥有该领域核心的高质量数据;其次,必须进行持续预训练(Continual Pre-training)。持续预训练是关键,因为只有在预训练阶段才能将领域知识注入模型中,而微调阶段只能告诉模型规则。

理论研究也支持这一发现。MIT和Meta的研究表明,每个参数可以存储约2比特的信息,70亿参数理论上足以存储所有英文书籍和知识点。对于大多数专业领域来说,知识量远小于整个英语语言的知识量,因此小模型完全有能力在特定领域表现出色。

八、当前大模型应用的两种方式及其局限

当前企业和研究机构使用大模型主要有两种方式:直接调用API和使用开源模型加RAG(检索增强生成)。然而,这两种方式都存在明显局限。

调用API的主要问题是数据分布差异和隐私问题。杨教授解释:"如果今天你的企业或者你这个领域的数据的分布,跟互联网上的数据分布非常不一样,或者是说你的数据完全从互联网上无法获得的话,其实你的performance,我相信其实你们的结果是不好的。"此外,调用API必然要分享数据,这对许多领域(如医疗、金融)来说存在隐私问题。

使用开源模型加RAG的方式同样存在问题。杨教授指出现有的开源模型都是"伪开源":"你只能去做微调,监督微调。DeepSeek这波,你可以做一定的强化算法,但它理论上还是一个伪开源,你没有办法把你的知识灌入到大模型里,得到你这个领域的大模型。"

RAG虽然流行,但存在延迟高和非端到端优化的问题,尤其是当领域数据分布与原始训练数据差异大时,效果往往不佳。这些局限促使研究人员探索新的解决方案。

九、模型融合:分布式人工智能的新范式

为解决当前大模型应用的局限,杨教授提出了模型融合(Model Fusion)的新范式,将人工智能从数据中心(Data-centric)转向模型中心(Model-centric)的范式。

传统机器学习是在数据上建立模型(model over data),需要将所有数据和计算资源集中起来。而模型融合是在模型上建立模型(model over models):"如果今天我可以把世界知识分成几千个领域,上千个领域,每个领域就像我刚才讲的,其实一个小模型就可以非常好的在领域上面形成一个目前业界最强的模型,我们要预估的,我们得到我们的foundation model的方式是什么?我直接就是从把这些model进行一个fuse,就直接得到我的foundation model,而不是turning data from scratch。"

杨教授团队的实验证明这一方法的可行性。他们将多个开源模型(如FIFOR、千问、MISTRO)进行融合,不仅保留了原始模型的能力,甚至在某些任务上表现更好。最重要的是,模型融合所需的计算资源远低于从头训练:传统方法需要10-16万GPU小时,而模型融合只需要160个GPU小时。

模型融合还带来其他优势:允许全球研究人员更好地协作;降低硬件要求,小模型训练不需要大规模GPU集群;支持异构计算,不同模型可以在不同硬件上训练后融合。这为AI民主化提供了可能。

十、生成式AI的领域应用前景

杨教授指出,生成式AI的最大机会可能不在互联网或Web2中心化产品形态,而在垂直领域的专业应用。她的团队正在探索多个高精尖领域的应用。

医疗健康是一个有潜力的方向,特别是癌症基础模型(Cancer Foundation Model)。杨教授的团队正与北京协和医院和浙江省肿瘤医院合作:"我们跟协和医院去做一个特别厉害的肝胆cancer的小模型,然后跟浙江省肿瘤医院去做一个肺部的特别牛的Cancer Foundation Model,我们是直接可以从模型层面进行一个融合,慢慢随着癌症的种类越来越多,我们可能会得到一个Cancer Foundation Model。"

能源领域也有广阔前景。他们正与南方电网合作开发Energy Foundation Model,关注多模态大语言模型推理。此外,制造业和智能座舱也是重要应用方向。杨教授指出,智能座舱虽然目前主要以语言交互为主,但实际上80%以上的信息是多模态的,这与OpenAI未来关注的多模态大语言模型推理方向一致。

从能力层次看,杨教授将大模型能力分为三级:最基础的聊天和记忆化(Chatting和Memorization,对应GPT-3.5);推理和规划(Reasoning和Planning,对应O1和DeepSeek);以及多模态大语言模型推理(Multi-Model Large Language Modeling Reasoning,对应未来的GPT-5)。 http://t.cn/A6rZVToC

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容