一次批量下载上交所公告pdf的尝试

大家平时可能有需要批量下载pdf的场景,小编会分享一下第一次尝试批量下载上交所公告的尝试历程。

1.导入爬虫必备的常用包

# -*- coding: utf-8 -*-
import requests #发送http请求
from bs4 import BeautifulSoup    #html解析器
import urllib.request
import os   #python文件/目录读取方法

2.构建list分别存放pdf的链接地址和pdf名称

def get_url_list():
    url_lists = []#存放pdf链接地址
    pdf_names=[]#存放名称
    url='http://www.sse.com.cn/disclosure/listedinfo/announcement/s_docdatesort_desc_2016openpdf.htm'#找出正确的pdf链接很重要
    html=requests.get(url)
    html.encoding='utf-8'
    soup=BeautifulSoup(html.text,'html.parser').find_all('a',class_="hidden-xs")#先打印出来返回的html.text之后,可以看到(文末有图)pdf连接,带有a标签,和class="hidden-xs"的属性,所以可以这样用bs4,找出PDF链接地址所在

    for k in soup:
        url_list=k['href']# 获取pdf链接,连接一般带href标签
        pdf_name=(k['title'])#获取pdf名称
        url_lists.append(url_list)#链接list
        pdf_names.append(pdf_name)#pdf名称
    return url_lists,pdf_names

get_url_lists=get_url_list()#调用函数,返回

3.PDF content获取与文件保存和下载

def getFile(url=[],filename=[]):
    for i,k in zip(url,filename):
        r = requests.get(i)
        fo = open(k.replace('*','')+'.pdf', 'wb')  # 注意要用'wb',这个地方有坑,有些带*的名称会导致报错,需要替换掉
        fo.write(r.content)  # r.content -> requests中的二进制响应内容:以字节的方式访问请求响应体,对于非文本请求
        fo.close()

        print ("Sucessful to download" + " " + k+'.pdf')#打印成功下载

#print(os.getcwd())
#os.mkdir('pdf_download)
os.chdir(os.path.join(os.getcwd(), 'pdf_download'))#创建目录
getfile=getFile(get_url_lists[0],get_url_lists[1])#文末有图,可以看到下载成功的界面
找出pdf链接规律.PNG

下载结果.PNG
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容

  • 有些时候我们需要查看一些数据报告,而某些网站又提供下载地址,但是分页又比较多,一页一页下载太花时间,所以写个爬虫批...
    c9af2eadd50d阅读 7,270评论 0 3
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,103评论 4 62
  • 我遇到了一个女孩,很美,简洁的白裙,一袭长发,宛如童话里的公主。 她牵着一只狗,长得像狼一样的狗。因为她牵着这只狼...
    下雨天人去阅读 161评论 0 0
  • 感觉早上莫白遇到一个段子,而这个段子却发生在莫白身上!没上班之前询问了老板上午的预约,莫白一听(心中喜悦难以言表)...
    对鱼过敏的猫阅读 193评论 0 0
  • 昨晚和姐弟俩商量今早一起去跑步,小宝的热情度比大宝高很多,今早一睁眼就赶紧穿衣服准备出去跑步,听龙沐涵正在阅读,没...
    鸭蛋妈妈阅读 209评论 0 2