登录注册写文章

QUANTAXIS.SPIDER 爬虫部分

QUANTAXIS.SPIDER 爬虫部分

QUANTAXIS 爬虫部分

目前的QUANTAXIS爬虫是用python的scrapy框架写的,为了运行JavaScript,还使用了selenium+phantomjs作为浏览器内核.爬完的数据都存放在mongodb里面.

原始的quantaxis_spider架构

之后可能会向纯JavaScript爬虫去转变,但目前先把python下的爬虫框架梳理一下.

python -m pip install -i https://pypi.doubanio.com/simple scrapy
python -m pip install -i https://pypi.doubanio.com/simple selenium

安装scrapy,selenium

安装完在命令行输入scrapy

scrapy startproject projectName(你的爬虫名)
cd projectName

安装项目

安装完了会有几个项目

-项目名称
  --scrapy.cfg(配置文件)
  --爬虫名命名的文件夹
      --items.py
      --middleware.py
      --pipelines.py
      --settings.py
      --_init.py
      --spider(文件夹)
          --_init_.py
          --爬的网站名命名的python文件.py

第一层目录

第二层目录

第三层目录

运行爬虫在第一层

scrapy crawl 爬虫名

组件都在第二层目录里
items.py 主要是保存的管道
middleware.py 中间件,一般而言,只用他的下载中间件
pipelines.py 和数据库交互的管道
settings.py 设置文件

第三层目录下
主要是核心逻辑,从哪里爬(start_url)
爬到以后的响应处理(从response里面取出,selector去选择你需要的内容),一般是正则化或者是xpath取出
处理后的存储(items的引入)

具体的案例
QUANTAXIS_SPIDER

最后编辑于：2017.12.05 13:00:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

《Learning Scrapy》（中文版）第3章爬虫基础
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章...
SeanCheney阅读 15,260评论 13赞 61
《Learning Scrapy》（中文版）第10章理解Scrapy的性能
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...
SeanCheney阅读 9,321评论 3赞 20

Python--Flask Django等常用库总结
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
aimaile阅读 26,847评论 6赞 427
替换默认Android debug keystore
使用Android Studio开发，不需要前面的操作，请转至最后为什么替换 Android开发中，在使用第三方...
备忘君阅读 16,492评论 3赞 11
崔茹萍思维导图武林计划NO.50《教育制度》
这是我参加文魁大脑俱乐部思维导图武林计划的第五十幅作品，主题是：《教育制度》中心图：教育二字定义成编码思维“鱼”...
崔小九阅读 575评论 2赞 1

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文