240 发简信
IP属地:上海
  • Xinference 安装使用(支持CPU、Metal、CUDA推理和分布式部署)

    1. 详细步骤 1.1 安装 1.2 启动 1.2.1 直接启动 简洁命令 多参数命令 设置模型缓存路径和模型来源(Hugging Face/M...

  • llama.cpp 安装使用(支持CPU、Metal及CUDA的单卡/多卡推理)

    1. 详细步骤 1.1 安装 cuda 等 nvidia 依赖(非CUDA环境运行可跳过) 1.2 安装 llama.cpp (C/C++环境)...

  • ChatGLM.cpp 安装使用(支持CPU、Metal及CUDA推理)

    1. 详细步骤 1.1 拉取源码 1.2 模型转换/量化 1.2.1 安装所需 Python 依赖 torch 其他依赖 1.2.1 模型转换/...

  • Ollama WebUI 安装使用(pip 版)

    Open WebUI (Formerly Ollama WebUI) 也可以通过 docker 来安装使用 1. 详细步骤 1.1 安装 Ope...

  • 迁移 ollama 模型文件到新机器(支持离线运行)

    1. 详细步骤 以qwen2.5:0.5b-instruct-fp16为例 1.1 迁移 manifests 文件 1.2 迁移 blobs 文...

  • Ollama 安装、运行大模型(CPU 实操版)

    1. 操作步骤 1.1 安装 1.2 验证(可跳过) 1.3 启动服务端 1.4 跑通第一个模型 2. 参考资料 2.1 Ollama GitH...

  • CUDA Toolkit 安装记录(nvcc -V 可查)

    目前通过 runfile(local) 方式安装,最终 nvcc -V 看到的版本有偏差(安装12.4,显示12.0),但不影响使用 llama...

  • Tmux 安装使用(含终端窗口备份)

    1. 详细步骤 1.1 安装 Tmux apt brew 1.2 终端新建/激活 Tmux 1.2.1 新开一个窗口 1.2.2 激活指定窗口 ...

  • Ubuntu 个别实用命令记录(新建用户、查看网速等)

    1. 实用命令 1.1 系统相关 1.1.1 查看系统、用户信息等 查看当前系统硬件架构 注:mac 上也能用 查看当前系统的操作系统及版本 查...

个人介绍
持续大模型落地实践中