初识Python爬虫——Scrapy

欢迎关注微信公众号watson_python,及时获取最新的更新。


在Python下爬虫最好的框架是Scrapy,Scrapy依赖lxml,在pip下会自动安装所依赖的包。在Mac上可以用pip直接进行安装。Mac默认的Python是2.7版本的,本人自行安装过Python3.6,现在Python3.6下进行爬虫,执行一下命令来进行确认Python和pip的版本和Scrapy的安装。安装完成后会提示successful。

安装完成之后,我们通过Scrapy来创建我们第一个爬虫项目。

在PyCharm中打开刚才创建的项目MyScrapy,在spiders中创建我们的第一个爬虫。

imports crapy

class QuotesSpider(scrapy.Spider):

name = 'quotes'

def start_requests(self):

    urls = [

    'http://tieba.baidu.com/p/4900554515',

    ]

    for url in urls:

        yield scrapy.Request(url=url,callback=self.parse)

def parse(self, response):

    page = response.url.split('/')[-1]

    file__name = 'quotes-%s.htm' % page

   with open(file__name,'wb') as f:

        f.write(response.body)

    self.log('Saved file %s' % file__name)

在Terminal里执行如下命令来爬取第一个网页。

scrapy crawl quotes

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容