Scrapy的使用

创建一个Scrapy项目

scrapy startproject myPorject

Scrapy的项目结构

image.png

spiders:编写爬虫的目录

爬虫的编写规则

import scrapy
from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
  name = 'dmoz' #爬虫唯一名称
  allowed_domains = ['dmoz-odp.org'] #爬取主路径
  start_urls = [
    'https://dmoz-odp.org/Computers/Programming/Languages/Python/Books/',
    'https://dmoz-odp.org/Computers/Programming/Languages/Python/Resources/'
  ] #需要爬取的路径

  def parse(self, response):#爬取成功后的回调函数
    sel = scrapy.selector.Selector(response)
    sites = sel.xpath('//*[@id="site-list-content"]/div/div[3]')
    items = []
    for site in sites:
      item = DmozItem()
      item['title'] = site.xpath('a/div/text()').extract()
      item['link'] = site.xpath('a/@href').extract()
      item['desc'] = site.xpath('div/text()').extract()
      items.append(item)
    print(items)
    return items

运行你的爬虫

 scrapy crawl name
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容