百度千帆大模型——基础篇

百度智能云千帆大模型平台(以下简称千帆或千帆大模型平台)是面向企业开发者的一站式大模型开发及服务运行平台。千帆不仅提供了包括文心一言底层模型(ERNIE-Bot)和第三方开源大模型,还提供了各种AI开发工具和整套开发环境,方便客户轻松使用和开发大模型应用。

支持数据管理、自动化模型SFT以及推理服务云端部署的一站式大模型定制服务,助力各行业的生成式AI应用需求落地。
另外一种表述:
提供一站式服务,涵盖数据集管理、模型训练、服务发布与监管。通过可视化界面实现模型全生命周期管理,简化从数据到服务的大模型实施过程

应用场景

面向不同的企业需求,千帆提供不同的功能服务。

例如,智能对话、智能输入法等通用应用场景,可在千帆直接体验文心一言企业级推理云服务,并进行业务集成;

概念

常见概念:点击链接

快速开始

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/sliu72738

流程说明

千帆大模型平台覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。
平台支持SFT,准备内容可参考SFT快速调优

实现步骤

在您完成注册后,可以登录到千帆大模型操作台,只要以下6个步骤即可快速完成大模型定制及测试效果的全过程。

数据导入-> 数据标注-> 训练配置-> 模型纳管-> 发布服务-> 体验测试

Step1:数据导入

  1. 需要您在左侧功能栏选择“数据管理 > 数据集管理”,进入数据总览界面,选择创建数据集。
数据集管理
  1. 进入“创建数据集”界面,填写数据集名称后,标注类型选择文本对话-非排序类型,选择平台存储,“创建并导入”。


3.在导入配置中,按实际需求填写导入方式以及对应的格式或路径,上传无标注文件或者链接内容等,确认即可。
文件要求:
1). 文件内单条数据格式要求为[{"prompt" :“prompt内容”}]。
2). 每一行表示一组数据,每组数据中的prompt字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。
3).支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
文件名:prompt-unannotated-byguoxiuzhi.jsonl
文件内容:

[{"prompt": "请根据下面的新闻生成摘要, 内容如下:习近平在亚太经合组织工商领导人峰会上的书面演讲。很高兴应邀出席亚太经合组织工商领导人峰会。多年前我曾到访旧金山,这座美丽城市的开放、包容、创新给我留下深刻印象。
30年前,面对冷战结束后“人类向何处去”的世界之问、历史之问、时代之问,亚太地区领导人顺应和平和发展的时代潮流,召开了首次亚太经合组织领导人非正式会议,一致同意超越集团对抗、零和博弈的旧思维,深化区域经济合作和一体化,致力于共建一个活力、和谐、繁荣的亚太大家庭。这一重大决定推动亚太发展和经济全球化进入快车道,助力亚太成为世界经济增长中心、全球发展稳定之锚和合作高地。亚太合作的非凡历程带给我们许多深刻启示。——开放包容是亚太合作的主旋律。亚太发展靠的是开放包容、取长补短、互通有无,而不是对立对抗、以邻为壑、“小院高墙”。我们秉持开放的区域主义,共同制定了茂物目标和布特拉加亚愿景,推进贸易和投资自由化便利化,提升区域经济一体化水平。过去30年,亚太地区平均关税水平从17%下降至5%,对世界经济增长的贡献达到七成。共同发展是亚太合作的总目标。发展是亚太地区永恒的主题。我们始终聚焦发展,不断深化经济技术合作,增强发展中成员自主发展能力。我们共同开创了自主自愿、协商一致、循序渐进的“亚太经合组织方式”,尊重各成员发展权。过去30年,亚太地区人均收入翻了两番还要多,十亿人口成功脱贫,为人类进步和全球可持续发展作出重要贡献。求同存异是亚太合作的好做法。亚太地区经济体历史文化和发展阶段不同,在亚太地区推进合作不能要求整齐划一,只能走求同存异的路子。过去30年,我们妥善应对亚洲金融危机、国际金融危机等重大挑战,维护了亚太经济发展的良好势头,靠的就是谋大势、顾大局,弘扬和而不同、和衷共济的伙伴精神,不断将成员多样性转化为合作动力,优势互补,携手共进。\n生成摘要如下:"}]
[{"prompt": "请根据下面的新闻生成摘要, 内容如下:习近平会见日本首相岸田文雄。习近平指出,今年,中日双方共同纪念了邦交正常化50周年。50年来,双方先后达成4个政治文件和一系列重要共识,各领域交流合作成果丰硕,给两国人民带来重要福祉,也促进了地区和平、发展、繁荣。中日互为近邻,同为亚洲和世界重要国家,拥有很多共同利益和合作空间。中日关系的重要性没有变,也不会变。中方愿同日方一道,从战略高度把握好两国关系大方向,构建契合新时代要求的中日关系。习近平强调,双方应该以诚相待、以信相交,恪守中日四个政治文件原则,总结汲取历史经验,客观理性看待彼此发展,将“互为合作伙伴、互不构成威胁”的政治共识体现到政策中去。历史、台湾等重大原则问题涉及两国关系政治基础和基本信义,必须重信守诺、妥善处之。中国不干涉别国内政,也不接受任何人以任何借口干涉中国内政。习近平强调,中日两国社会制度和国情不同,双方应该相互尊重,增信释疑。在海洋和领土争端问题上,要恪守已经达成的原则共识,拿出政治智慧和担当妥善管控分歧。双方要继续发挥地理相近、人文相通的独特优势,开展政府、政党、议会、地方等各渠道交往交流,尤其要着眼长远,积极开展青少年交流,塑造相互客观积极认知,促进民心相通。习近平指出,两国经济相互依存度很高,要在数字经济、绿色发展、财政金融、医疗养老、维护产业链供应链稳定畅通等方面加强对话合作,实现更高水平优势互补和互利共赢。两国应该着眼各自长远利益和地区共同利益,坚持战略自主、睦邻善邻,抵制冲突对抗,践行真正的多边主义,推进区域一体化进程,共同把亚洲发展好、建设好,应对全球性挑战。\n生成摘要如下:"}]

上传时一定要注意是否有因格式不对失败的情况。成功上传全部prompt后再详情页看到数据集的内容列表。



数据集新增版本。


新版本

更多操作,可见数据服务使用说明

Step2:数据标注

在数据集列表中,找到以上创建的数据集,点击操作列的“标注”按钮。当光标移动至回答框,会有“自动生成”按钮,回答支持调用平台的LLM模型为问题生成对应回答,可在左上角切换模型。

自动生成回答需先开通服务

找到服务名去开通收费。


查找服务名称

开通服务。

  • 您可以选择自动生成回答或手动生成回答,回答生成后“保存标注”即可。
  • 标注好的文本数据,将会在“有标注信息”页签下展示。

发布数据集:


图片数据集
新建数据集选择“文生图”。

文生图

上传素材图片。

进行标注,写prompt信息。
填写prompt信息

数据处理,异常清洗配置如下所示:
1)移除不可见字符:移除ASCII中的一些不可见字符, 如0-32 和127-160这两个范围。
2)规范化空格:将不同的unicode空格比如  u2008,转成正常的空格。
3)去除乱码:去除乱码和无意义的unicode。
4)繁体转简体:将文档中的繁体字转换成简体。
5)去除网页标识符:移除文档中的html标签,如<html>,<dev>,<p>等。
6)去除表情符:去除表情符如emoji

更多操作,可见在线标注使用说明

Step3:训练配置

SFT最佳实践:https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Xlkb0e6eu

  1. 需要您在左侧功能栏中选择“模型精调 > SFT”中创建调优任务,进入模型准备界面,按实际情况进行模型选择、模型名称、所属行业、应用场景和业务描述的选择或填写。
    ## 选择SFT的超参数
  • EPOCH 影响比 LR 大,可以根据数据规模适当调整EPOCH大小,例如小数据量可以适当增大epoch,让模型充分收敛。

    • 例如:EPOCH:100条数据时, Epoch为15,1000条数据时, Epoch为10,10000条数据时, Epoch为2
    • 过高的epoch可能会带来通用NLP能力的遗忘,这里需要您根据实际需求核定,若您只需要下游能力提升,则通用NLP能力的略微下降影响不大。若您非常在乎通用NLP能力,平台侧也提供过来种子数据来尽可能保证通用NLP能力不降低太多。
  • 适当增加global batch_size :如增加accumulate step 32 64,当分布式节点增多时可以进一步增加batch_size,提高吞吐。

  • 学习率(LR, learning Rate): 对于ptuing/lora等peft训练方式,同时可以适当增大LR。


  1. 点击“创建并训练”,继续完善调优任务,调整训练配置及参数(BLOOMZ-7B为例),不开启增量训练。
    注意:训练的数据需要32条及以上。
  1. 选择Step1中创建的数据集进行导入,并填入数据拆分比例。

4.以上步骤都完成后,点击“确定”按钮,即可进入自定义模型的训练,当任务详情中的模型运行显示“运行完成”,则表示模型训练成功。


开始进行SFT训练

训练日志:


模型评估
在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。
评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。
登录到千帆大模型操作台,在左侧功能列选择模型评估,进入模型评估主任务界面。
点击“创建评估任务”按钮,进入新建评估任务页面。

新建评估任务

基于裁判员(默认裁判员为ERNIE-Bot)进行打分。

点击确定后,开始评估。
评估中

评估报告:


更多操作,可见SFT任务使用说明

Step4:模型纳管

选择Step3运行中的“发布”,填写新模型发布相关内容,将模型纳入模型管理模块。
进入“我的模型”查看刚刚训练的模型。

我的模型

压缩模型,通过量化、稀疏化等方法在尽量减少精度损失的前提下,降低AI加速卡资源占用,提高推理速度。

压缩详情

压缩过程很费时间,Preparing model files和Start compressing task最耗时。

更多操作,可见本章模型管理内容

Step5:发布服务

  1. 需要您在左侧功能栏中选择“模型服务 > 在线服务”,选择“创建服务”按钮,或者直接在Step4模型详情中的版本列表页,选择指定模型“部署”。

  2. 按照实际需要,进行服务配置和资源配置

  3. 发布成功后,“模型服务 > 在线服务”中即可列表展示服务内容。

发布服务到私有资源池,通过API接口调用模型。更多操作,可见本章服务管理使用说明内容。

Step6:体验测试

在左侧功能列的体验中心,选择自训练模型和参数配置,进行在线测试。详细可见体验测试使用说明,参数配置列选择本服务。

选择自己部署的模型。


如果需进行“应用创建”,可移步至应用接入

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容