QUANTAXIS 爬虫部分
目前的QUANTAXIS爬虫是用python的scrapy框架写的,为了运行JavaScript,还使用了selenium+phantomjs作为浏览器内核.爬完的数据都存放在mongodb里面.
之后可能会向纯JavaScript爬虫去转变,但目前先把python下的爬虫框架梳理一下.
python -m pip install -i https://pypi.doubanio.com/simple scrapy
python -m pip install -i https://pypi.doubanio.com/simple selenium
安装scrapy,selenium
scrapy startproject projectName(你的爬虫名)
cd projectName
安装完了会有几个项目
-项目名称
--scrapy.cfg(配置文件)
--爬虫名命名的文件夹
--items.py
--middleware.py
--pipelines.py
--settings.py
--_init.py
--spider(文件夹)
--_init_.py
--爬的网站名命名的python文件.py
运行爬虫在第一层
scrapy crawl 爬虫名
组件都在第二层目录里
items.py 主要是保存的管道
middleware.py 中间件,一般而言,只用他的下载中间件
pipelines.py 和数据库交互的管道
settings.py 设置文件
第三层目录下
主要是核心逻辑,从哪里爬(start_url)
爬到以后的响应处理(从response里面取出,selector去选择你需要的内容),一般是正则化或者是xpath取出
处理后的存储(items的引入)
具体的案例
QUANTAXIS_SPIDER