python爬虫一些必要的库

  • 请求库
    requests
    selenium
    ChromeDriver(或者GeckoDriver、PhantomJS等支持headless无界面的浏览器)
    aiohttp(异步请求)
  • 解析库
    lxml(或者beautifulsoup4、pyquery等其它支持html xml XPath解析库)
    tesserocr (用py封装了tesseract)
推荐使用编译好了的whl文件安装(避免需要c++环境,各种报错)
whl下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

tesserocr GitHub: https://github.com/sirfz/tesserocr
tesserocr PyPI: https://pypi.python.org/pypi/tesserocr
tesseract 下载地址:http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub : https://github.com/tesseract-ocr/tesseract
tesseract 语言包 : https://github.com/tesseract-ocr/tessdata
tesseract 文档 : https://github.com/tesseract-ocr/tesseract/wiki/Documentation
  • 存储库
    pymysql
    pymongo
    redis-py(pip install redis)

  • 爬虫框架

    1. pyspider(前提需要下载pycurl的whl包安装
python3.7还有一些坑(3.5后,async/await变成关键字了):
修改下列python文件中的async为async1(全部替换)
run.py
fetcher\tornado_fetcher.py
webui\app.py

还需要 python -m pip install wsgidav==2.4.1
  1. Scrapy (pip install Scrapy)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 请求库的安装 requests:阻塞式http请求库$ pip install requests selenium...
    Arale_zh阅读 1,005评论 0 0
  • anaconda 清华镜像:https://mirrors.tuna.tsinghua.edu.cn/anacon...
    爱吃糖爱喝汤阅读 793评论 0 0
  • 目光如炬、如烈焰碰撞 溅起火花万丈 赛过朝阳 于冬日里融化冰河 于寒风中温暖心房 肌肤如沐、如清泉奔腾 激起水花...
    犬马牧羊阅读 189评论 0 2
  • 早上我五点多起床上班了,今天小学毕业考试,我们学校一部分老师监场,一部分老师上课所以很忙。 中间十一左右终于下课了...
    双胞胎妈妈_9a17阅读 261评论 0 3
  • 十载六回下江南,奥帆灯塔眺琴岛。 五大连池十四山,梦游长白吟留别。 好客齐鲁叹狭义,慷慨燕赵息悲歌。 锦城闻声小酒...
    博的士阅读 309评论 0 0