Python批量下载网页pdf文件

这段代码的目的是从输入的网址中获取所有以.pdf结尾的链接,然后将这些链接对应的pdf文件下载到本地的D:/download/pdf_files文件夹中。代码中使用了requests库和BeautifulSoup库来获取网页内容和解析网页,使用os库来创建文件夹和保存文件。

import requests
from bs4 import BeautifulSoup
import os

url = input("请输入网址:")
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

pdf_links = []
for link in soup.find_all('a'):
    if link.get('href').endswith('.pdf'):
        pdf_links.append(link.get('href'))

if not os.path.exists('d:/download/pdf_files'):
    os.makedirs('d:/download/pdf_files')

for pdf_link in pdf_links:
    response = requests.get(pdf_link)
    with open(os.path.join('d:/download/pdf_files', pdf_link.split('/')[-1]), 'wb') as f:
        f.write(response.content)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容