问题:
由于https://huggingface.co域名国内已无法访问,服务器终端跑代码往往会需要如下操作,会出现超时问题。
self.tokenizer = AutoTokenizer.from_pretrained(bert-base-uncased)
解决方法:
1. 首先下载 pip install -U huggingface_hub
2. export HF_ENDPOINT=https://hf-mirror.com (可以写入到~/.bashrc中,长久可用)
可以参考对应环境的下面这个路径:
/path/to/env/site-packages/huggingface_hub/constants.py
对应的内容如下,如果环境中有HF_ENDPOINT的设定就会采用该设定作为前缀,即上面镜像的https://hf-mirror.com而非默认的https://huggingface.co。
/path/to/env/site-packages/huggingface_hub/constants.py
下载到本地:
如何将HuggingFace中的所有模型和配置文件下载到本地?
huggingface-cli download --resume-download <repo/name> --local-dir <path/to/local/dir>
举个例子:https://huggingface.co/MBZUAI/GLaMM-FullScope 这个repo就对应MBZUAI/GLaMM-FullScope
如何将HuggingFace中的数据集下载到本地?
huggingface-cli download --repo-type dataset --resume-download <repo/name> --local-dir <path/to/local/dir>