下载 llama.cpp https://github.com/ggerganov/llama.cpp
按照安装说明进行安装(我用的mac笔记本):
1 Make
make
2 Prepare Data & Run
ls ./models
65B 30B 13B 7B tokenizer_checklist.chk tokenizer.model
项目下方并没有llama这些模型,所以需要咱们自己下载
由于国内不支持llama下载,所以需要想办法自己搞
可以从这里下载:
https://github.com/shawwn/llama-dl
执行如下命令,就可以下载
curl -o- https://raw.githubusercontent.com/shawwn/llama-dl/56f50b96072f42fb2520b1ad5a1d6ef30351f23c/llama.sh | $(brew --prefix)/bin/bash
继续按照llama.cpp的指示继续执行
python3 -m pip install -r requirements.txt
python3 convert.py models/7B/
上面的命令可能会报错,说vocab size mismatch (model has -1 but tokenizer.model has 32000)
需要修改下文件:./models/7B/params.json
, 把vocab_size从-1改成32000即可
继续执行剩下的命令
# quantize the model to 4-bits (using q4_0 method)
./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0
# update the gguf filetype to current if older version is unsupported by another application
./quantize ./models/7B/ggml-model-q4_0.gguf ./models/7B/ggml-model-q4_0-v2.gguf COPY
# run the inference
./main -m ./models/7B/ggml-model-q4_0.gguf -n 128
开启chat模式:
./examples/chat.sh
可能会报错,我重试了几次,就好了。会提示目录不存在,修改./examples/chat.sh
文件把模型的目录地址修改成自己的就好了。