欢迎关注微信公众号watson_python,及时获取最新的更新。
在Python下爬虫最好的框架是Scrapy,Scrapy依赖lxml,在pip下会自动安装所依赖的包。在Mac上可以用pip直接进行安装。Mac默认的Python是2.7版本的,本人自行安装过Python3.6,现在Python3.6下进行爬虫,执行一下命令来进行确认Python和pip的版本和Scrapy的安装。安装完成后会提示successful。
安装完成之后,我们通过Scrapy来创建我们第一个爬虫项目。
在PyCharm中打开刚才创建的项目MyScrapy,在spiders中创建我们的第一个爬虫。
imports crapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
def start_requests(self):
urls = [
'http://tieba.baidu.com/p/4900554515',
]
for url in urls:
yield scrapy.Request(url=url,callback=self.parse)
def parse(self, response):
page = response.url.split('/')[-1]
file__name = 'quotes-%s.htm' % page
with open(file__name,'wb') as f:
f.write(response.body)
self.log('Saved file %s' % file__name)
在Terminal里执行如下命令来爬取第一个网页。
scrapy crawl quotes