登录注册写文章

Python批量下载网页pdf文件

有几米爱音乐

Python批量下载网页pdf文件

这段代码的目的是从输入的网址中获取所有以.pdf结尾的链接，然后将这些链接对应的pdf文件下载到本地的D:/download/pdf_files文件夹中。代码中使用了requests库和BeautifulSoup库来获取网页内容和解析网页，使用os库来创建文件夹和保存文件。

import requests
from bs4 import BeautifulSoup
import os

url = input("请输入网址：")
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

pdf_links = []
for link in soup.find_all('a'):
    if link.get('href').endswith('.pdf'):
        pdf_links.append(link.get('href'))

if not os.path.exists('d:/download/pdf_files'):
    os.makedirs('d:/download/pdf_files')

for pdf_link in pdf_links:
    response = requests.get(pdf_link)
    with open(os.path.join('d:/download/pdf_files', pdf_link.split('/')[-1]), 'wb') as f:
        f.write(response.content)

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

批量下载网页中的资源
比如我们想下载某个课程的所有lecture的pdf/pptx资料手动下载每一个链接非常的低效下面教一下如何用sh...
ifeelok阅读 8,210评论 0赞 0
Python 实现简单的爬虫功能 -----批量下载网页中的图片
我使用的是macPro , mac 自带了python2.7 , 我自己下载了pytho3.6根据操作进行安装后,...
十二月的水瓶座阅读 5,407评论 0赞 0
批量下载网页上的图片，这个免费工具可以帮你
无论是工作还是生活，我们有的时候总会想把这个网页上所有的照片都下载下来，玩代码的只需要写个爬虫就能轻松搞定，懂电脑...
墨夫言之阅读 6,409评论 0赞 0
下载网页pdf文件、读取和删除pdf文本
1.下载网页pdf文件第一种使用requests下载第二种使用urllib这种下载后，可能pdf的问题，编码错...
逍遥_yjz阅读 4,093评论 0赞 2
R批量下载B细胞和T细胞受体VDJ序列文件
前面我们简单的介绍过免疫组库[https://link.zhihu.com/?target=http%3A//mp...
生信交流平台阅读 4,421评论 0赞 4

1赞2赞

赞赏

手机看全文