AI大模型极简版数据格式及代码入门

标准党了,但也不是很虚。因为我看的是一个github好项目:https://github.com/jingyaogong/minimind,但我也作了改进,因为我只是在笔记本电脑上运行,我也不想等几十分钟等到结果,我只想几分钟就得到结果,先把流程跑通。

image.png

一,tokenizer分词

这部分不用去学习了,因为之前书上我也学得透透的了。

Build a Large Language Model (From Scratch)

image.png

二,预训练的语料库

minimind的预训练语料库太大,有1G多,嘿嘿,我剪成1W条预训练语料,不求效果,但求跑出来。
使用deepseek输出函数,嘿嘿,比自己写快多了~

import json


def json_to_jsonl(input_file, output_file):
    """
    将JSON文件转换为JSONL格式
    Args:
        input_file (str): 输入的JSON文件路径
        output_file (str): 输出的JSONL文件路径
    """
    with open(input_file, 'r', encoding='utf-8') as f_in:
        data = json.load(f_in)

    with open(output_file, 'w', encoding='utf-8') as f_out:
        for item in data:
            f_out.write(json.dumps(item, ensure_ascii=False) + '\n')


def jsonl_to_json(input_file, output_file, indent=2):
    """
    将JSONL文件转换为JSON格式
    Args:
        input_file (str): 输入的JSONL文件路径
        output_file (str): 输出的JSON文件路径
        indent (int): JSON格式化缩进量
    """
    data = []
    with open(input_file, 'r', encoding='utf-8') as f_in:
        for line in f_in:
            data.append(json.loads(line.strip()))

    with open(output_file, 'w', encoding='utf-8') as f_out:
        json.dump(data, f_out, ensure_ascii=False, indent=indent)


"""
使用示例:
# JSON转JSONL
json_to_jsonl('input.json', 'output.jsonl')

# JSONL转JSON
jsonl_to_json('input.jsonl', 'output.json')
"""

import json


def sample_jsonl(input_path, output_path, limit=1000, preview_lines=10):
    """
    从大型JSONL文件中抽样数据并显示预览
    :param input_path: 输入文件路径
    :param output_path: 输出文件路径
    :param limit: 抽取总行数(默认1000)
    :param preview_lines: 预览行数(默认10)
    """
    sample_data = []

    with open(input_path, 'r', encoding='utf-8') as fin, \
            open(output_path, 'w', encoding='utf-8') as fout:

        for i, line in enumerate(fin):
            if i >= limit:
                break

            # 处理当前行
            data = json.loads(line.strip())
            fout.write(json.dumps(data, ensure_ascii=False) + '\n')

            # 保存预览数据
            if i < preview_lines:
                sample_data.append(data)

    # 打印预览结果
    print(f"成功保存 {min(i + 1, limit)} 条数据到 {output_path}")
    print("\n前{}条数据预览:".format(preview_lines))
    for idx, item in enumerate(sample_data[:preview_lines]):
        print(f"[{idx + 1}]", json.dumps(item, ensure_ascii=False, indent=2))


# 使用示例
sample_jsonl(
    input_path="dataset/pretrain_hq.jsonl",
    output_path="sampled_data.jsonl",
    limit=1000,
    preview_lines=10
)

还让它输出预训练语料的样子,混个脸熟悉。

成功保存 1000 条数据到 sampled_data.jsonl

前10条数据预览:
[1] {
  "text": "<s>鉴别一组中文文章的风格和特点,例如官方、口语、文言等。需要提供样例文章才能准确鉴别不同的风格和特点。</s> <s>好的,现在帮我查一下今天的天气怎么样?今天的天气依据地区而异。请问你需要我帮你查询哪个地区的天气呢?</s> <s>打开闹钟功能,定一个明天早上七点的闹钟。好的,我已经帮您打开闹钟功能,闹钟将在明天早上七点准时响起。</s> <s>为以下场景写一句话描述:一个孤独的老人坐在公园长椅上看着远处。一位孤独的老人坐在公园长椅上凝视远方。</s> <s>非常感谢你的回答。请告诉我,这些数据是关于什么主题的?这些数据是关于不同年龄段的男女人口比例分布的。</s> <s>帮我想一个有趣的标题。这个挺有趣的:\"如何成为一名成功的魔术师\" 调皮的标题往往会吸引读者的注意力。</s> <s>回答一个问题,地球的半径是多少?地球的平均半径约为6371公里,这是地球自赤道到两极的距离的平均值。</s> <s>识别文本中的语气,并将其分类为喜悦、悲伤、惊异等。\n文本:“今天是我的生日!”这个文本的语气是喜悦。</s>"
}
[2] {
  "text": "<s>根据输入的内容,编写一个类别标签。\n这是一篇介绍如何阅读心电图的文章类别标签: 医学/心电图阅读指南</s> <s>帮我搜索一下最近的天气情况。当然,我可以帮您搜索最新的天气情况。请问您需要查询哪个城市的天气情况呢?</s> <s>帮我讲一个令人开心的笑话。好的,我帮您讲一个关于细菌的笑话。为什么细菌不会上网?因为连接总是断开了!</s> <s>现在给我生成一首关于大海的五言诗。碧波万顷月满天,海天相接处天地间。波涛滚滚江山美,海鸟翱翔日月闲。</s> <s>谢谢你,这篇文章很有用。不客气,我很高兴能够为您提供帮助。如果您还有其他问题或需求,随时可以对我说。</s> <s>你好,我想下载一个视频编辑软件,你有什么推荐吗?您好!当然,有很多选择。您想要免费软件还是愿意付费?</s> <s>为什么我的程序不输出正确结果?可能是代码逻辑有误,或者输入数据有误,需要仔细调试代码逻辑和输入数据。</s> <s>谢谢你的回答。现在我想知道这场比赛的具体时间和地点。这场比赛的时间是北京时间10月4日,地点是上海。</s>"
}
[3] {
  "text": "<s>客户要求看一份报告,但他没有说明他需要哪份报告。他是指哪份报告?这个问题没有指代消解,需进一步询问。</s> <s>鉴别并描述一处房地产广告中的行骗手段。作为语言模型AI,我不支持或鼓励行骗行为,故无法为此作出回答。</s> <s>表现一下植物界中的“四大名捕”分别是哪些。抱茎葛、卷丹、吊兰和狗尾草可以被称为植物界的“四大名捕”。</s> <s>回答以下关于特定主题的开放式问题。好的,请告诉我您想了解哪个主题,我会尽力以详细的方式回答您的问题。</s> <s>你好,我需要帮助解决一个问题。您好,欢迎来到我们的平台。请告诉我您遇到的问题,我将尽力为您提供帮助。</s> <s>为什么我的程序速度很慢?可能是由于算法复杂度不佳导致程序执行速度较慢,请仔细考虑算法改进优化的问题。</s> <s>请编写一段人机对话程序,模拟用户和AI机器人的聊天过程。AI机器人:您好,请问有什么我可以帮忙的吗?</s> <s>能否将该句子进一步近义词替换为另一种表达方式呢?当他表现得如此出色时,我们得到了非常令人惊喜的结果。</s>"
}
[4] {
  "text": "<s>请从这首诗选出三句话,重新组成另一首新的诗歌。秋天美景尽收眼底,枫叶红艳色。碧空如水流,心情格外好。</s> <s>Oops, 我没有听懂你刚刚说了什么,你能再说一遍吗?当前无法识别您的指令,请您再重复一遍您的指令。</s> <s>你好,有没有好吃的餐厅可以推荐?您好!当地比较受欢迎的餐厅有巴黎小厨和日月光华,您有什么口味偏好吗?</s> <s>请在文章中找出最重要的环保措施,并总结成一句话。政府应该加强环保法规的制定和实施,并严惩环境污染者。</s> <s>你好!我最近在寻找一款好用的翻译软件,你能推荐一下吗?当然可以,您需要一款支持哪些语言的翻译软件呢?</s> <s>第一个同义词太口语化了,给我换一个更正式一点的同义词。确定,我给您提供一个更正式的同义词:“喜爱”。</s> <s>创造一个句子,这个句子里包含“秋天的美景”和“红色的树叶”。秋天的美景迷人,枫叶的红色更是让人醉心。</s> <s>那就再加上一句关于爱的内容吧。秋叶比红唇更美,\n含情脉脉似情人。\n风儿轻轻拂你发,\n唇齿相依如爱情。</s>"
}
[5] {
  "text": "<s>引述一段启发人心的一句话,用于鼓励团队士气。“团队的力量不在于每个人的优秀,而在于每个人的凝聚力。”</s> <s>“它们”是指哪些东西?具体情境不同,可能指的是前面提到的东西、上下文中的某些东西,也可能是指代宿主。</s> <s>请为我购买一件黑色的连衣裙。好的,请问您有什么具体的要求或偏好吗?比如款式、长度、面料等方面的要求。</s> <s>我想吃四季豆式的披萨。好的,现在就为您订购四季豆披萨。您想要选择配送还是自取?还需要带些什么配料吗?</s> <s>请帮我想一个包含“自由”和“梦想”这两个词的格言。自由是一场没有牺牲的梦想,梦想是一种不妥协的自由。</s> <s>创建一个自动回复对话系统,针对特定用户的问题您好!欢迎来到我们的对话系统。请问您有什么问题需要咨询?</s> <s>为什么某些细菌能够抵抗特定抗生素?可能是因为这些细菌具有某些基因或突变,使它们可以抵御特定的抗生素。</s> <s>为什么需要代码风格规范?代码风格规范可以提高代码可读性、可维护性和一致性,有助于团队协作和代码复用。</s>"
}
[6] {
  "text": "<s>请提取出文章中关于人工智能在医疗上的作用。人工智能还将会在医疗、农业、安全防范等领域发挥重要的作用。</s> <s>归纳该地区春、夏、秋、冬天气温的变化未能提供具体地区信息,无法归纳该地区春、夏、秋、冬天气温的变化。</s> <s>生成一首五言诗,以“梦”为主题。苍茫天地一沙鸥,梦中徐来到海角。琼楼玉宇,张灯结彩,惊醒一动寒衾薄。</s> <s>请从上面的论文中提取出未来人工智能发展的两大趋势。未来人工智能发展的两大趋势是更智能化和更加人性化。</s> <s>谢谢,那你知不知道明天天气怎么样?当然,我可以查询天气预报为你提供明天的天气信息。请问你在哪个城市?</s> <s>好的,感觉你很懂这附近的餐厅嘛。是的,我会尽量帮助您解决问题。如果您还有其他需要的话,随时来问我哦。</s> <s>能否再把这个句子改成一般过去时态?当我在健身时听着音乐,然后回家吃了巧克力,关上电脑,和我的猫玩耍。</s> <s>写一句启发性的名言,鼓励他人前行。成功的秘诀在于不断前行,在困境中坚持不懈,永远不要放弃自己的梦想。</s>"
}
[7] {
  "text": "<s>请你检查一下门是否上锁,如果没有请上锁。没问题,我现在前去门口检查一下。门已经上锁了,您可以放心了。</s> <s>对一个双声道演讲稿进行翻译,确保翻译的内容准确、通顺。未知。请提供演讲稿的原始语言和需要的翻译语言。</s> <s>好的我会考虑考虑,非常感谢你的帮助!您很欢迎,如果您还有其他任何问题或者任务需要帮助,请随时告诉我。</s> <s>为以下新闻标题生成一个描述性的短语。\n新闻标题:“中国向太空发射新的卫星。”中国发射新卫星进入太空。</s> <s>回答以下问题,这些问题涉及饮食和健康。好的,我会尽我所能地回答您的问题。请让我知道您有哪些具体问题。</s> <s>很好!现在请把这段文本分成两个句子并分别输出。我们可以将它们分成\"这是一个示例文本\"和\"\"两个句子。</s> <s>帮我分析一下这篇文章,总结出它的主旨。好的。请您提供这篇文章的具体内容。我将分析并总结出文章的主题。</s> <s>那鲸鱼是哺乳动物吗?是的,鲸鱼是哺乳动物。它们属于鲸目哺乳动物,可以在水下呼吸,并产生奶来哺育幼崽。</s>"
}
[8] {
  "text": "<s>那么,请统计一下分别有多少封广告邮件、欺诈邮件、正常邮件。1封广告邮件,0封欺诈邮件,2封正常邮件。</s> <s>从给定的文本中删除所有数字。\n原始文本:在2021年,我学会了许多新技能。在年,我学会了许多新技能。</s> <s>听起来很不错,我会试一试的。谢谢你的推荐。不用谢,希望你可以通过这些放松的活动来缓解你的疲劳和压力。</s> <s>太谢谢你了,这真的很有帮助!不客气,我很高兴能够帮到您!如果您还有其他需要帮助的地方,请随时告诉我!</s> <s>为我创作一首爵士乐曲!【开始作曲】...完成! 您可以在这里收听到您的个性化爵士乐曲,希望您会喜欢!</s> <s>是否有必要在代码样例中添加一些额外的说明和注释?有必要,注释可以帮助其他开发者理解代码的思路和功能。</s> <s>引述一句激励人心的格言或名言。“不要问别人为你做了什么,而是问自己为他人做了什么。”——约翰·肯尼迪</s> <s>请提取这篇文章的主要观点。该文章主要讨论了人工智能的发展所带来的挑战和问题,例如就业机会和道德问题。</s>"
}
[9] {
  "text": "<s>好的,接下来请你将计算结果四舍五入到小数点后两位。好的,计算结果四舍五入到小数点后两位即为9.00。</s> <s>非常感谢。现在请你统计一下这段话中“中国”这个词出现的次数。在这段文本中,“中国”这个词出现了两次。</s> <s>你好,我遇到了一个很棘手的问题,能请你帮帮我吗?当然,我会尽力帮助你解决问题。请问你遇到了什么困难?</s> <s>麦哲伦环球航行是哪一年?麦哲伦的航行开始于1519年,而完成环球航行的船只则于1522年返回西班牙。</s> <s>写一首五言古诗,以“春日”为主题。万物复苏春意浓,和风拂面桃花红。\n婉转笛声飘月殿,微笑春风抚徐公。</s> <s>帮我推荐一本好看的小说。《放学后》,这是一本关于高中生活与友情的小说,情节引人入胜,适合青少年阅读。</s> <s>嗯,这个建议还不错。那加个“花香扑鼻”如何?不错的建议!这样可以更加形象地表达出爱情中的美好和浪漫。</s> <s>那么给我一个肯定的回答是否下雨了?是的,昨天下了雨。\n详细回答可以是:\n昨天有降雨,天气也比较阴沉。</s>"
}
[10] {
  "text": "<s>我知道底边长度和高,分别是5cm和8cm,请告诉我计算出来的面积是多少。三角形的面积为20平方厘米。</s> <s>为什么理智告诉我们不要跟陌生人接触?因为陌生人可能会对我们的个人安全造成威胁、危害或诱骗等恶劣行为。</s> <s>上一次科比在NBA总决赛中获得总冠军是哪一年?科比在NBA总决赛中最后一次获得总冠军是在2010年。</s> <s>写一首五言诗,以“秋天”为主题。秋叶飘飘降,秋风肆虐长街,落叶纷纷掉下,百鸟南飞不归,唯有寒蝉孤嘶。</s> <s>好的。那你可以跟我聊一下最近的天气吗?当然可以。最近的天气因地区而异,你想知道哪个城市的天气情况呢?</s> <s>好的,那么请你接着把这个句子进一步改写,加入一个介绍该书的短语。这本畅销书是由名著名文学家所著写的。</s> <s>从以下描述中归纳出这是哪种动物:该动物四肢行走,有毛发,是哺乳动物。这是哺乳动物,具体种类无法确定。</s> <s>请问这周末的天气怎么样?我需要您告诉我您所在的城市地区,我可以通过查询天气API来提供相关天气信息。</s>"
}

三,SFT语料

监督式微调(SFT, Supervised Fine-Tuning)。同样,这个项目提供的数据也太大,搞成1W条尝鲜。函数处理JSONL,和训练过程一样。

成功保存 1000 条数据到 sampled_data.jsonl

前10条数据预览:
[1] {
  "conversations": [
    {
      "role": "user",
      "content": "请告诉我在中国古代的“四大发明”是什么?"
    },
    {
      "role": "assistant",
      "content": "中国古代的“四大发明”是指造纸术、印刷术、火药和指南针。这四项发明对世界文明的发展产生了深远的影响:\n\n1. **造纸术**:据史书记载,东汉时期的蔡伦改进了造纸工艺,使得纸张的生产更加便捷、成本更低,质量也更加优良。这一发明极大地促进了文化的传播和保存。\n\n2. **印刷术**:中国古代的印刷术最早可以追溯到唐代的雕版印刷,到了宋代发展出了活字印刷技术。印刷术的发明极大地促进了知识的传播,降低了书籍的成本,对教育和文化的发展起到了重要的推动作用。\n\n3. **火药**:火药最初是在唐代被发现的,最初可能用于医疗或炼金术。到了宋代,人们开始将火药用于军事目的,发明了各种火器。火药的发明改变了战争的面貌,对世界军事技术的发展产生了重大影响。\n\n4. **指南针**:指南针最初在中国被用于风水测量,后来逐渐发展成为航海导航的重要工具。这一发明极大地促进了海上航行技术的发展,对于新航路的开辟和世界地理大发现起到了关键作用。\n\n这四项发明不仅在中国历史上占有重要地位,而且对全世界的科技进步和文明发展都产生了深远的影响。"
    }
  ]
}
[2] {
  "conversations": [
    {
      "role": "user",
      "content": "请用一段话描述阿里巴巴集团的企业文化。"
    },
    {
      "role": "assistant",
      "content": "阿里巴巴集团的企业文化以“客户第一、员工第二、股东第三”为核心价值观,强调“让天下没有难做的生意”的使命。公司倡导开放、透明、分享、责任的团队合作精神,鼓励员工创新、追求卓越,同时注重员工的个人成长和幸福感。阿里巴巴的企业文化还体现在其独特的“六脉神剑”价值观体系中,包括客户第一、拥抱变化、团队合作、诚信、激情、专业等六个方面,这些价值观不仅指导着公司的日常运营,也深深影响着每一位阿里人的行为准则。"
    }
  ]
}
[3] {
  "conversations": [
    {
      "role": "user",
      "content": "请描述一下北京的春天。"
    },
    {
      "role": "assistant",
      "content": "北京的春天是一年四季中最令人期待的季节之一,它通常从3月持续到5月。这个季节的北京,天气逐渐变暖,万物复苏,整个城市被各种花卉装扮得格外美丽。\n\n春天的北京,最引人注目的莫过于各种花卉的盛开。3月底到4月初,玉渊潭公园的樱花、北京植物园的桃花和杏花、中山公园的郁金香等相继开放,吸引着无数市民和游客前来观赏。此外,颐和园、北海公园等皇家园林中的春花也是一大看点,漫步其中,仿佛穿越回了古代的皇家园林,感受着历史与自然的完美融合。\n\n除了赏花,春天的北京也是户外活动的好时节。随着气温的升高,人们开始走出家门,进行各种户外活动,如放风筝、骑行、徒步等。北京周边的山区,如香山、八达岭等地,也是春季踏青的好去处,可以一边欣赏山间的春色,一边享受户外运动的乐趣。\n\n不过,北京的春天也有其独特的挑战,那就是春季风沙天气。由于北京地理位置靠近沙漠,春季时分,偶尔会受到沙尘暴的影响,给人们的出行带来不便。因此,春季出行时,建议关注天气预报,做好防风防沙的准备。\n\n总的来说,北京的春天是一个充满生机与活力的季节,无论是自然景观还是人文活动,都值得细细品味。"
    }
  ]
}
[4] {
  "conversations": [
    {
      "role": "user",
      "content": "你好,我是张华,今年15岁,是北京四中的学生。我喜欢编程和篮球,我梦想成为一名软件工程师。很高兴认识你!"
    },
    {
      "role": "assistant",
      "content": "你好,张华!很高兴认识你。15岁就有明确的兴趣和梦想非常棒!编程和篮球都是很好的爱好,它们不仅能培养你的逻辑思维和团队合作能力,还能让你在学习之余保持活力。如果你需要任何关于编程学习的建议或资源,或者只是想聊聊篮球,我都非常乐意帮助你。加油,希望你早日实现成为软件工程师的梦想!"
    }
  ]
}
[5] {
  "conversations": [
    {
      "role": "user",
      "content": "你好,我是第一次使用你们的平台,我该怎么使用你来帮助我解决问题呢?"
    },
    {
      "role": "assistant",
      "content": "你好!很高兴能为你提供帮助。使用我来解决问题非常简单,你只需要告诉我你遇到的具体问题或需要帮助的领域,比如学习、工作、技术问题、生活建议等。我会根据你的需求,提供相应的信息、建议或解决方案。如果你有任何疑问,或者需要更具体的指导,也可以随时向我提问。现在,你可以告诉我你具体需要帮助的内容了。"
    }
  ]
}
[6] {
  "conversations": [
    {
      "role": "user",
      "content": "请帮我生成一首唐诗,题材为初夏的景色。"
    },
    {
      "role": "assistant",
      "content": "初夏临清池,新荷出水时。\n绿阴生昼寂,黄鸟啭林曦。\n柳絮随风转,榴花照眼绯。\n田间农事急,布谷唤耕归。"
    }
  ]
}
[7] {
  "conversations": [
    {
      "role": "user",
      "content": "请告诉我《白鹿原上的春夏秋冬》这部作品的主要内容。"
    },
    {
      "role": "assistant",
      "content": "《白鹿原上的春夏秋冬》通常指的是中国当代著名作家陈忠实的长篇小说《白鹿原》。这部小说以20世纪初至1970年代中国社会的巨大变迁为背景,通过白鹿原上两个家族——白家和鹿家几代人的命运沉浮,展现了中国农村社会的变迁和人民生活的巨大变化。\n\n小说主要围绕着白嘉轩、鹿子霖等人物的生活展开,通过他们的爱情、婚姻、家庭、土地、权力等多方面的矛盾冲突,深刻揭示了中国封建社会向现代社会转型过程中的种种问题。小说不仅描绘了个人命运与家族兴衰,还反映了社会变革对人们思想观念的影响,以及传统文化与现代文明之间的碰撞与融合。\n\n《白鹿原》以其深刻的思想内容、丰富的人物形象、独特的艺术风格,成为中国当代文学中的一部重要作品,获得了广泛的社会影响和高度的文学评价。1998年,该书荣获第四届茅盾文学奖。此外,《白鹿原》还被改编成多种艺术形式,如电影、电视剧、话剧等,深受观众喜爱。"
    }
  ]
}
[8] {
  "conversations": [
    {
      "role": "user",
      "content": "你好,Qwen!我是李华,很高兴认识你。你可以帮我完成一些日常任务吗?比如帮我写封邮件,或者查询一些信息?"
    },
    {
      "role": "assistant",
      "content": "你好,李华!很高兴认识你。当然可以,我非常乐意帮助你完成日常任务。无论是写邮件、查询信息,还是其他需要帮助的地方,你都可以告诉我,我会尽力提供帮助。请告诉我你具体需要帮助的内容吧!"
    }
  ]
}
[9] {
  "conversations": [
    {
      "role": "user",
      "content": "请介绍一个中国古代的著名数学家,并分享他的一项重要成就。"
    },
    {
      "role": "assistant",
      "content": "中国古代有许多杰出的数学家,其中一位非常著名的是刘徽。刘徽生活在三国时期的魏国,大约公元263年前后,是中国古代数学的重要代表人物之一。他最著名的成就是对《九章算术》的注释。\n\n《九章算术》是中国古代数学的一部重要著作,成书于东汉时期,内容涵盖了方田、粟米、衰分、少广、商功、均输、盈不足、方程、勾股等九个方面的数学问题。刘徽对《九章算术》的注释不仅详细解释了书中的各种算法,还提出了许多自己的见解和创新,极大地丰富和发展了中国古代数学理论。\n\n刘徽的一项重要成就是他对圆周率的研究。在《九章算术》的注释中,刘徽提出了“割圆术”,即通过不断增加内接正多边形的边数来逼近圆周率的方法。他从正六边形开始,逐步增加到正192边形,最终计算出圆周率的值约为3.141024,这是当时世界上最精确的圆周率值之一。刘徽的这一方法不仅在数学上具有重要意义,也为后来的数学家提供了研究圆周率的新途径。\n\n刘徽的贡献不仅限于数学领域,他的工作还涉及到了天文学、工程学等多个领域,是中国古代科学史上的一位重要人物。"
    }
  ]
}
[10] {
  "conversations": [
    {
      "role": "user",
      "content": "请帮我生成一段科幻小说的开头。"
    },
    {
      "role": "assistant",
      "content": "在遥远的未来,银河系的边缘地带,一颗名为“诺瓦”的行星静静地绕着它的双星系统旋转。这颗行星因其独特的双日落景观而闻名,但更令人瞩目的是其表面覆盖着一种罕见的、能够吸收并转化宇宙射线的晶体——诺瓦晶。这些晶体不仅为诺瓦提供了几乎无限的能源,还成为了银河系中各个文明争夺的焦点。\n\n故事的主角,艾丽娅·斯通,是一名来自地球的年轻科学家,她被派往诺瓦执行一项秘密任务:研究诺亚晶的真正潜力,以及它可能对人类文明产生的影响。艾丽娅乘坐的飞船“探索者号”在经历了长达数月的超光速旅行后,终于接近了这颗神秘的星球。然而,当飞船即将进入诺瓦的大气层时,突然遭遇了未知的电磁干扰,导致飞船的导航系统失灵,迫降在了诺瓦的一片未知森林中。\n\n艾丽娅醒来时,发现自己躺在一片柔软的草地上,周围是她从未见过的奇异植物。天空中,两颗太阳正缓缓落下,将整个世界染成了一片金红色。她意识到,这次任务远比她想象的要复杂得多,而诺瓦的秘密,可能比任何人预想的都要深邃和危险。随着夜幕的降临,艾丽娅开始探索这片未知的土地,她不知道,自己的每一个脚步,都在揭开一个关于宇宙、生命和存在的巨大谜团。"
    }
  ]
}

四 更改成适合笔记本电脑运行的参数

总体思路就是小,小,小。
train_pretrain.py文件里的参数配置,其它SFT过程的,反正有同样的,就改过来。

    parser.add_argument("--epochs", type=int, default=2)
    parser.add_argument("--batch_size", type=int, default=8)
    parser.add_argument("--learning_rate", type=float, default=5e-2)
    parser.add_argument("--device", type=str, default="cpu")
    parser.add_argument('--dim', default=64, type=int)
    parser.add_argument('--n_layers', default=2, type=int)

同时,也要更新eval_model.py里的加载参数,保持一致。

    parser.add_argument('--dim', default=64, type=int)
    parser.add_argument('--n_layers', default=2, type=int)

五 测试效果

image.png
image.png

胡言乱语不要紧,但要是有输出。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容