需求:分诊算法所使用的模型占用内存较多,当前test服务器的内存不足,需要将服务迁移到新的learn服务器,重新创建RPC服务接口。
原服务器:test
新服务器:learn
1. 工程配置
在新learn服务器中,下载problem_triage
工程,执行clone
命令,同时切换当前服务所在的分支feature/rough_to_fine_svm
:
git clone git@git.cxyx.me:python/problem_triage.git
git branch -a
git checkout feature/rough_to_fine_svm
通过三个环境脚本,安装所依赖的Python库,其中,在更新环境(update)时,需要注意。
source scripts/env_prepare.sh # 准备环境
source scripts/env_activate.sh # 激活环境
source scripts/env_update.sh # 更新环境
全部更新完成的效果:
1.1 导出版本
提前准备待更新的Python库,在原test服务器的工程中,使用freeze
命令导出到requirements.txt
文件中:
pip freeze >requirements.txt
1.2 缺少smart_update
在执行env_update
时,无法找到smart_update.py
,则需要提前下载春雨的cy-pypi
源。
同时,设置当前的pip版本为1.5.6,因为春雨虚拟环境(env)的安装脚本是基于pip的1.5.6版本:
pip install pip==1.5.6
在更新Python版本时,除了使用env_update脚本,也可以直接使用pip命令:
pip install -r requirements.txt
1.3 pip源缺少库版本
如果当前的pip源提供的依赖库的版本较低,可以使用其他的pip源,如阿里云:
pip install Markdown==2.6.8 -i http://mirrors.aliyun.com/pypi/simple
当pip版本较高时,如9.0.1,使用陌生的pip源会报错:
Collecting tensorflow
The repository located at mirrors.aliyun.com is not a trusted or secure host and is being ignored. If this repository is available via HTTPS it is recommended to use HTTPS instead, otherwise you may silence this warning and allow it anyways with '--trusted-host mirrors.aliyun.com'.
Could not find a version that satisfies the requirement tensorflow (from versions: )
No matching distribution found for tensorflow
需要在命令尾部,添加信任pip源的参数:
pip install Markdown==2.6.8 -i http://mirrors.aliyun.com/pypi/simple --trusted-host mirrors.aliyun.com
1.4 pip版本过低
如果提示错误https替换http,如安装TensorFlow,即:
Downloading/unpacking tensorflow
http://mirrors.aliyun.com/pypi/simple/tensorflow/ uses an insecure transport scheme (http). Consider using https if mirrors.aliyun.com has it available
Could not find any downloads that satisfy the requirement tensorflow
Cleaning up...
No distributions at all found for tensorflow
Storing debug log for failure in /home/classify/.pip/pip.log
原因是TensorFlow库需要高版本的pip库才能安装,当前pip的版本较低,默认是1.5.6,需要更新pip的版本:
pip install --upgrade pip
1.5 安装setuptools
在安装gensim时,错误信息提示:setuptools版本过低,需要重新安装setuptools。
The required version of setuptools (>=1.3.2) is not available,
and can't be installed while this script is running. Please
install a more recent version first, using
'easy_install -U setuptools'.
服务器无法使用easy_install
,使用pip
更新安装setuptools
。
pip install setuptools --upgrade
如果,当前源的setuptools版本较低,更换阿里云的源,重新安装。
2. 服务配置
在新learn服务器中,需要复制算法模型与配置服务接口。
2.1 复制模型
需要复制粗分模型与Word2Vec模型,位置:
/home/cxyx/workspace/problem_triage/triage/data/experiments/model/rnn/runs
/home/cxyx/workspace/problem_triage/triage/data/adult/model/rnn/runs
/home/cxyx/workspace/problem_triage/word2vec/data/model
将文件压缩传输,再解压文件
zip -r ex_fine_model_0802.zip ex_fine_model_0802
unzip ex_fine_model_0802.zip
如果没有unzip命令,则需要安装
sudo yum install -y unzip zip
如果无法安装unzip命令,则使用tar打包,传输,不压缩:
tar cvf 1493802466.tar 1493802466
tar xvf 1493802466.tar
使用python的HTTP接口,在服务器之间传输,进入文件所在目录,启动服务接口。
python -m SimpleHTTPServer 9001
在目标服务器的对应位置,下载文件,使用AB Test模式,需要复制两个算法的模型文件,共四个文件。
wget --limit-rate=3000k test:9001/ex_rough_model_0802.zip
wget --limit-rate=3000k test:9001/ex_w2v_model_0802.zip
wget --limit-rate=3000k test:9001/1493802466.zip
wget --limit-rate=3000k test:9001/word2vec_for_triage.zip
解压到对应目录即可。
2.2 配置服务
在原test服务器中,找到未添加至工程的配置文件
git status
在工程的.gitignore
文件中,找到未添加至工程的配置文件
需要修改三个配置文件,即settings.py
、config.ini
、supervisord.conf
。
settings.py
负责管理log的存储位置,将项目中的settings.test.py
复制一份,即可,测试用test,线上用online:
cp settings.test.py settings.py
config.ini
存放服务的socket地址或者端口,用于服务的网络访问,备份位于
problem_triage/conf/rpc
将其中的config.test.ini
复制成本地的config.ini,即可。
supervisord.conf
存放服务的进程信息,启动worker的数量,备份位于:
problem_triage/conf/supervisor
将其中的supervisord.test.conf
复制成本地的supervisord.conf,即可。
启停服务的脚本:
sh control_lb.sh stop
sh scripts/sup_stop.sh
sh scripts/sup_start.sh
sh control_lb.sh start
RPC服务的监控面板,https://devops.cxyx.me/dashboard/rpc/