yescrpit目录结构
实际运行的所有参数,配置以及脚本都应该放在指定的位置.
[yescript] / [hand_name] / [__init__.py
, config.py + do.py]
所有生产中要用到的脚本与相关的配置都放在yescript中. yescript的一级子目录成为hand(英文含义为一个做事情的人手)
hand命名规范
- 使用动词+任务名来名.例如
runspider
- 当字符数小于10个时候,不需要用下划线,例如
runspider
- 当字符数不小于10个时候,需要用下划线, 例如
mng_esindex
搜索路径
yiscript的路径不加到.pth中.
config.py
(必须)
config.py中存放各种常数. 所有预期生命周期在一周以上的常数,一般都要放在config.py中.预期生命周期在一周以下的常数可以放在具体的脚本中.
__init__.py
(必须)
提供参数给外界, 同时写上作者与版本号,例如:
from .do import get_keyword
_author = "Vincent"
_version = "0.0.100"
jobs.py
(必须)
jobs.py中含有需要执行的job,每个job都是用函数表示.从config中import相应的常数以外自身没有常数参数.文件中没有类(如有需要,在ext.py中写类),只有函数.
- 每个函数任务代码行数不超过10行.任务代码不含类型校验(assert 开头),报错(raise开头)以及输出
(print或warnings开头)的代码. - 单文件有效代码行数不能超过100行,超过了之后要考虑抽取ext.py.
- 每个job要写注释. 描述执行的时机,要做什么事情,潜在的风险以及应对方案.
- job函数如果需要保存日志的话,使用save_log函数来保存日志.
my_dict = {'any': 'you like', 'any2': 'you like'}
save_log('runspider','daily_download', my_dict) # mydict自己任意定义
- 如果job函数特别多,可以分拆成两jobs文件,命名为
jobs_<name>.py
testjobs.py
(必须)
注意: 本文件并不是测试用例.以test开头是要借助测试框架来方便跑任务.test_
开头的.py文件存放真正的测试用例.
从jobs中导入相应的job,然后写入相应的参数做执行.每个执行任务都是个函数.
- 执行任务对应单个job: 函数名写成
test_job_name()
的形式.这样直接对着函数名右键点击就可以执行了. - 执行任务对应多个job: 函数名写成
test_<description>
<description>表示对这个执行任务的命名. - testjobs函数调用jobs函数时,一般把is_save_log设置为ture.
- 配置pytest作为hand的默认测试工具.配置方法见此.
tests
文件夹(必须)
里面放测试用例,用来确认jobs.py中的某些函数的行为是正确的. 使用pytest来做测试
ext.py
(可选)
主要用来继承ylib中的相关的类,写扩展.帮助jobs.py的执行. 如果发现ylib中有bug,先不要去修改,使用ext.py来继承原先的类,做相关修改.跑的完全没有问题了,再去修改.每周ylib只允许在周五进行修改.
文件访问
yescript中所有脚本只能访问ftp中有指定权限的路径以及本hand文件夹的路径.不允许读取其他路径文件.
每个hand对应一个ftp账号.需要配置好它对ftp中哪些目录有读写权利.
ftp中建立三个目录test/sidph, test/vincent, test/cc.对应我们三个人做测试用的.
在yiobehv中可以留一个帐号密码,这个账号密码只对test目录有修改权限.对其他目录只有只读权限.
代码依赖
不允许ylib中的代码依赖yescript中的代码
yescript/mnglog
- 设计了save_log函数,自己有专门的账号密码,所有的日志都要通过save_log来存放
yescript/authorize
yiscript/authorize: 接受uuid作为参数,然后匹配检查uuid是否在白名单中,之后把正确的ftp密码发过来.ftp管理员的密码不在config中.只有管理员知晓.不同hand的密码是统一的.
jobs.py
:提供get_keyword 函数, 会自动存放日志
__init__.py
: 把给外界调用的函数导出.
yescript上线规则
yescript上线时,cc需要先发给hj review一下,符合本规范的话就可以正式发布,不符合的话不能上线.
hj直接上线.
我每周会抽时间review一次新上线内容.