240 发简信
IP属地:江苏
  • Resize,w 360,h 240
    基于triton vllm 部署qwen

    0x00 整体介绍 基于 triton 部署 qwen ,使用triton镜像中的 vllm 执行推理请求。假设本地工作目录 /home/ubu...

  • 基于对话数据集进行微调

    0x00 TLDR; 0x01 训练 准备参数文件: my_chat_dataset.jsonl 编写代码: 0x02 验证 看起来,没有达到预...

  • Bert模型微调

    0x01 TLDR; 接上一篇,完成了CLM模型的预训练实践后,这里进行模型微调的实践。 微调 = 现有模型 + 新数据训练 所以,流程上,我们...

  • Resize,w 360,h 240
    CLM模型预训练

    0x00 关键信息 下载开源数据集 CLM( Causal Language Model) 因果语言模型, 比如 gpt 理解训练过程 0x01...

  • 运行gpt2预训练库

    0x00 TLDR; 0x01 环境&准备 系统环境 手动下载模型 由于原始模型文件无法直接访问,采用国内镜像方式预先手动下载。 0x02 代码...

  • LLM关键术语

    模型架构相关术语 Transformer基于自注意力机制的神经网络架构,是现代大语言模型的核心架构 Self-Attention(自注意力)允许...

  • 大模型产品开发流程清单

    以下是个人开发者的大语言模型 (LLM) 产品的开发流程参考。 1. 准备工作 规划项目目标与核心功能 进行技术调研,确认技术栈大模型向量数据库...

    0.7 34 0 1
  • 常见ai应用使用场景

    1.开发者工具 工具名称主要特点适用场景最佳使用时机llama.cpp高性能本地部署LLaMA模型实现• 本地环境部署AI模型 • 高性能推理计...

  • 常见ai库名称&用途

    1.深度学习框架类 PyTorch:动态计算图的深度学习框架,特别适合快速原型开发和研究 TensorFlow:静态计算图的工业级深度学习框架,...

个人介绍
--disable-features=DownloadsPageRefererUrl