2020-01-07培训

安装包换源

again and over again

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #要安装的包(清华镜像)

datetime与字符串的相互转换

str->datetime
datetme.strptime(str,'%Y-%M-%D')
浏览器和web的练习


cookie的作用机制

爬虫文件划分:
某些代码作为轮子or板子,例如spider爬取的函数,存储(txt,html,csv)函数,lxml解析函数,正则表达式(特定情况下有套路,如细节处理,豆瓣网站处理,)
new knowledge:较昨天configparse配置,numpy

  1. primary_data文件:存储原始爬取的数据(txt,html)
  2. handled_data文件:存储已经解析分析完成的数据
  3. spider文件:
    3.1my_spider:爬虫爬取文件
    3.2job_line:数据解析文件
  4. utils文件:
    4.1file_tools文件:负责读写的文件操作
    4.2producter文件:读写以外的函数,例如月薪最小最大值函数,获得所有的url的函数
  5. run文件 模块化后对客户来说可以理解的执行文件,可直接或间接调用所有文件

spider文件

  //文件树根寻找,使用lxml.etree处理xml文件

etree具有parse('配置文件')#配置文件不需要路径名
可以将读取url的爬虫函数嵌套在读取cfg配置文件的函数,先通过cfg获得必要的参数,形成url,然后在该函数调用网络爬虫

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容