本地搭建llama2简易版

下载 llama.cpp https://github.com/ggerganov/llama.cpp
按照安装说明进行安装（我用的mac笔记本）：

1 Make

make

2 Prepare Data & Run

ls ./models
65B 30B 13B 7B tokenizer_checklist.chk tokenizer.model

项目下方并没有llama这些模型，所以需要咱们自己下载
由于国内不支持llama下载，所以需要想办法自己搞
可以从这里下载：
https://github.com/shawwn/llama-dl
执行如下命令，就可以下载

curl -o- https://raw.githubusercontent.com/shawwn/llama-dl/56f50b96072f42fb2520b1ad5a1d6ef30351f23c/llama.sh | $(brew --prefix)/bin/bash

继续按照llama.cpp的指示继续执行

python3 -m pip install -r requirements.txt

python3 convert.py models/7B/

上面的命令可能会报错，说vocab size mismatch (model has -1 but tokenizer.model has 32000)
需要修改下文件：./models/7B/params.json, 把vocab_size从-1改成32000即可
继续执行剩下的命令

# quantize the model to 4-bits (using q4_0 method)
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0

# update the gguf filetype to current if older version is unsupported by another application
./quantize ./models/7B/ggml-model-q4_0.gguf ./models/7B/ggml-model-q4_0-v2.gguf COPY


# run the inference
./main -m ./models/7B/ggml-model-q4_0.gguf -n 128

开启chat模式：

./examples/chat.sh

可能会报错，我重试了几次，就好了。会提示目录不存在，修改./examples/chat.sh文件把模型的目录地址修改成自己的就好了。

image.png

本地搭建llama2简易版

1 Make

2 Prepare Data & Run

推荐阅读更多精彩内容