爬取简书三十日热门

# 观察该页面的加载方式

![Uploading 第一页_944972.png . . .]

分析产生的url与前一页存在id的关系

第一页.png
第二页链接.png
import requests
import re
from lxml import etree
from pymongo import MongoClient
import csv

class Spider:
    base_url='http://www.jianshu.com/trending/monthly?'
    headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36'}
    param=[]
    article={}
    articleList=[]
    def getpage(self):
        for i in range(1,6):
            data='&'.join(self.param)
            url=self.base_url+data+'&page={}'.format(i)
            if i>=4:
                url=self.base_url+'utm_medium=index-banner-s&utm_source=desktop&'+data+'&page={}'.format(i)
            self.getID(url)
    def getID(self,url):
        f=open('Month.csv','a+',newline='',encoding='utf-8')
        write=csv.writer(f)
        client = MongoClient()      #用于写入MongoDB
        db = client.JianShuMonth    #用于写入MongoDB
        r=requests.get(url)
        print(r.url)
        html=etree.HTML(r.text)
        idList=html.xpath("//ul[@class='note-list']/li/@data-note-id")
        for id in idList:
            one='seen_snote_ids%5B%5D='+id
            self.param.append(one)
        name_list=html.xpath("//a[@class='blue-link']/text()")
        title_list=html.xpath("//a[@class='title']/text()")
        url_list=html.xpath("//a[@class='title']/@href")
        # print(name_list)
        for i in range(len(name_list)):
            self.article['author']=name_list[i]
            self.article['title']=title_list[i]
            self.article['url']='http://www.jianshu.com'+url_list[i]
            write.writerow([self.article['author'],self.article['title'],self.article['url']])
                # db.Monthly.insert_one({'author':self.article['author'],'title':self.article['title'],'url':self.article['url']})  用于写入MongoDB
s=Spider()
s.getpage()

获取的数据

Article.gif
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,860评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,018评论 25 708
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,742评论 18 399
  • 最近忙什么呢?有时候朋友会这样问。我想说,最近我很忙又要建社群,又要参加视屏秀学习,又要担任微营销小组长,...
    巴黎之恋Melody阅读 218评论 0 0
  • 苍树说:‘请让我跟云儿接吻吧’,天便低了下来,倒映出它们的身姿。
    洛然君阅读 270评论 0 1