动态网站爬虫

爬取网站：http://output.nsfc.gov.cn/projectQuery
网站特点：需要根据输入的表单信息进行检索，返回的信息在html里不直接显示，并且在翻页的时候url不变化。
这种情况就是需要我们向服务器发送请求，然后拿到数据之后，网站就会把各种数据填充到页面上，因为是通过js填充的，所以html代码里并不会出现。
比如我们需要搜的是[植物学，面上项目，结题年度2009]

在chrome里可以右键检查。数据请求都是XHR类型的。我们点到XHR，我们按检索后可以在Name中发现新的一条更新记录。

点到Response

发现就是我们需要的json文件。接下来写脚本开爬。

import requests
import json
def getProject(expert, code, projectType, ratifyYear):
    url = "http://output.nsfc.gov.cn/baseQuery/data/conclusionQueryResultsData"
    #url就是在Headers里的Request URL 
    #data就是我们需要提交的表单信息Headers里的Request Playload
    data = {
            "ratifyNo":"",
            "projectName":"",
            "personInCharge":"",
            "dependUnit":"",
            "code":"F02",  # 申请代码
            "projectType":"218", # 面上项目
            "subPType":"",
            "psPType":"",
            "keywords":"", # 项目主题词
            "ratifyYear":"2010", # 批准年度
            "conclusionYear":"", 
            "beginYear":"",
            "endYear":"",
            "checkDep":"",
            "checkType":"",
            "quickQueryInput":"",
            "adminID":"",
            "pageNum":1, # 页码，从0开始
            "pageSize":5, # 页面大小
            "queryType":"input",
            "complete":"true"
    }
    data['code'] = code
    data['personInCharge'] = expert
    data['projectType'] = projectType
    data['ratifyYear'] = ratifyYear
    payload = json.dumps(data)
    # headers就是Request Headers 我们要伪装成自己的浏览器去发送请求
    headers = {
        'origin': "http://output.nsfc.gov.cn",
        'accept-encoding': "gzip, deflate",
        'accept-language': "zh-CN,zh;q=0.9,en;q=0.8",
        'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36",
        'content-type': "application/json",
        'accept': "*/*",
        'referer': "http://output.nsfc.gov.cn/projectQuery",
        'x-requested-with': "XMLHttpRequest",
        'connection': "keep-alive",
        'cache-control': "no-cache",
        }

    response = requests.request("POST", url, data=payload, headers=headers)#发送请求并获得返回数据

    print(response.text) #打印爬下来的数据

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,904评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,581评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,527评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,463评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,546评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,572评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,582评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,330评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,776评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,087评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,257评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,923评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,571评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,192评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,436评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,145评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,127评论 2赞 352

动态网站爬虫

推荐阅读更多精彩内容