初识Python爬虫——Scrapy

欢迎关注微信公众号watson_python，及时获取最新的更新。

在Python下爬虫最好的框架是Scrapy，Scrapy依赖lxml，在pip下会自动安装所依赖的包。在Mac上可以用pip直接进行安装。Mac默认的Python是2.7版本的，本人自行安装过Python3.6，现在Python3.6下进行爬虫，执行一下命令来进行确认Python和pip的版本和Scrapy的安装。安装完成后会提示successful。

安装完成之后，我们通过Scrapy来创建我们第一个爬虫项目。

在PyCharm中打开刚才创建的项目MyScrapy，在spiders中创建我们的第一个爬虫。

imports crapy

class QuotesSpider(scrapy.Spider):

name = 'quotes'

def start_requests(self):

urls = [

'http://tieba.baidu.com/p/4900554515',

]

for url in urls:

yield scrapy.Request(url=url,callback=self.parse)

def parse(self, response):

page = response.url.split('/')[-1]

file__name = 'quotes-%s.htm' % page

with open(file__name,'wb') as f:

f.write(response.body)

self.log('Saved file %s' % file__name)

在Terminal里执行如下命令来爬取第一个网页。

scrapy crawl quotes

最后编辑于：2017.12.06 07:37:30

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

初识Python爬虫——Scrapy

欢迎关注微信公众号watson_python，及时获取最新的更新。

推荐阅读更多精彩内容