torch.linspace(1, 16, 16).view(4, 4)mask = torch.gt(a, 8)a = torch.tensor([[0, 1, 2, 0]...

torch.linspace(1, 16, 16).view(4, 4)mask = torch.gt(a, 8)a = torch.tensor([[0, 1, 2, 0]...
基本原理 __init__.py文件的主要作用有: 标识包:告诉Python解释器这个目录应该被视为一个Python包。 初始化代码:可以在这个文件中执行包级别的初始化代码。...
一、如何显示# * >等符号?1、加" \ "转义:比如要写__name__就需要写成"\_\_name__"2、可以使用反引号" ` "包裹需要转义的内容.反引号位于键盘左...
每个py脚本都有自己的名字,姑且起一个叫“code_ex1.py”, python会给每个脚本自动赋予一个全局变量,包括__name__,如果在自己的脚本里写一行代码,即pr...
一、参数共享含义 参数共享(Parameter Sharing)是模型压缩与加速中的一种重要技术。通过参数共享,多个神经元或层可以共享相同的权重参数,而不是每个神经元或层都有...
参数量化(Parameter Quantization)是一种有效的模型压缩技术,通过减少模型参数的位宽(例如从32位浮点数减少到8位整数)来减少模型的存储空间和计算复杂度。...
一、低秩分解的含义 低秩分解本质是一种矩阵分解技术,旨在将一个矩阵分解为两个或多个矩阵的乘积,从而将高维数据压缩为低维表示,以减少参数量。在大模型中,权重矩阵通常非常大,尤其...
一、知识蒸馏的含义 知识蒸馏(Knowledge Distillation)是一种用于模型压缩和迁移学习的技术,通过将一个复杂模型(称为教师模型)的知识传递给一个较小的模型(...
一、网络剪枝的步骤 神经网络中的一些权重和神经元是可以被剪枝的,这是因为这些权重可能为零或者神经元的输出大多数时候为零,表明这些权重或神经元是冗余的。网络剪枝的过程主要分以下...
一、概述 需要做模型压缩的原因在于我们有将模型部署在资源受限的设备上的需求,在这些设备上有受限的存储空间和受限的计算能力。本文主要介绍7种常用方法。 二、总结 方法名称简要描...
一、目标概述 就是如何通过深度学习,训练得到actor(执行者,机器人)或policy(策略)。我们把actor/policy记作,actor根据环境给出下一步的行动或行动概...
一、含义 强化学习就是通过让机器和环境不断交互,并获得反馈来调整模型的方法。 二、示例 例1:Alpha GO 围棋机器人机器(actor)和人依次落子,每次机器落子,都会给...
LLMs模型应用于特定NLP任务的流程可以分为2个阶段: 一是无监督预训练阶段,在这一阶段,通过生成式预训练来得到语言模型,获得包括词汇、语法和语义在内的通用能力。 二是有监...
一、童年 阅读这本书,宛如轻启一扇回忆之窗,温暖明媚的阳光倾泻而下,我的思绪在鹅卵石路上欢快跳跃,一路引领我回到那遥远而可爱的童年时光。斯库特和杰姆这对兄妹,以及迪尔这个小活...
一、RLHF的概念 LLM生成的内容需对齐(Aligned)人类的价值观念,如道德要求等等,已致有学者提出了“宪法 AI”(Constitutional AI)的概念。强化学...
SELF-INSTRUCT的介绍 作用:SELF-INSTRUCT,该方法可以仅使用最少的人工标注,生成大量的用于指令调优的数据。指令格式:一条指令数据集由instructi...
一、曲线函数及其导数 从参数方程形式引入“曲线的导数”更加容易。空间中的一个曲线可以表示成参数方程:若把上面的方程组写成向量形式,就叫做一元向量值函数。是假设质点沿着曲线运动...
三重积分 定义 被称做“体积元素”。 物理意义 若表示某物体在点的密度,是该物体所占据的空间区域,那么三重积分表示其质量。 计算 将三重积分化成三次积分来算,或者转换成一个二...
二重积分 定义:,叫面积元素物理意义:二重定积分就是求曲面与X轴Y轴平面所围成的体积(曲顶柱体的体积)。 另外一层物理意义是,求超薄平面片的质量。面密度是 ,面积是x和y在平...
一、多元函数的极限、连续性和可导性 当以任何方式趋近于,趋近于A,这就是它的极限,如果以不同方式逼近时得到不同的极限值,那它就不存在极限。 对于一元函数来说,可导必然连续。但...