内容提取的源码

# -*- coding: utf-8 -*-
import scrapy
import re

class JobboleSpider(scrapy.Spider):
    name = "jobbole"
    allowed_domains = ["blog.jobbole.com"]
    start_urls = ['http://blog.jobbole.com/113560/']
    def parse(self, response):
       # re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")
       # re2_selector = response.xpath('//*[@id ="post-113560"]/div[1]/h1/text()')
       # 下面create_date表示日期,praise_nums点赞数 fav_num收藏数 comment_nums评论数cotent正文
       # tag_list是日期后面的内容 tags连接的字符串
       title = response.xpath('//*[@id ="post-113560"]/div[1]/h1/text()').extract()[0]
       create_date = response.xpath('//*[@id="post-113560"]/div[2]/p/text()').extract()[0].strip().replace("·", "").strip()
       praise_nums = int(response.xpath('//*[@id="post-113560"]/div[3]/div[3]/span[1]/h10/text()').extract()[0])
       fav_nums= response.xpath('//*[@id="post-113560"]/div[3]/div[3]/span[2]/text()').extract()[0]
       match_re=re.match(".*(\d+).*",fav_nums)
       if match_re:
           fav_nums=match_re.group(1)
       comment_nums=response.xpath('//*[@id="post-113560"]/div[3]/div[3]/a/span/text()').extract()[0]
       match_re = re.match(".*(\d+).*", comment_nums)
       if match_re:
           comment_nums=match_re.group(1)
       cotent= response.xpath('//*[@id="post-113560"]/div[3]').extract()[0]
       tag_list=response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
       tag_list=[element for element in tag_list if not element.strip().endswith("评论")]
       tags =",".join(tag_list)
       pass

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 你学习一般,考上了现在的这所学校,成绩不算好,拿不到奖学金,上课不听讲,上自习不规律,考试靠突击,同学帮一把的话也...
    大花儿_阅读 580评论 0 10
  • 不减肥的结果,老板,来两碗,管饱就行。。。吃货在下那么大的雷阵雨,依然执着前往可以一家,比较温馨的米线馆,小城在午...
    杨二灿阅读 226评论 0 0
  • 对于这件事情,永远不会再说什么,也不会再主动去说什么,以后平平常常就好,因为已经够了。真的,够了!发誓不再主动说什么!
    美少女队长阅读 196评论 0 0
  • ——说书人的一场戏 原本只剩下浅薄的叙事,来铺垫起这份仪式感般出戏的生命,前些天听到的歌,歌词都是那样的陌生,唯一...
    天空l阅读 652评论 0 51