python 微信公众号链接转pdf或html,包括图片

通过微信公众号文章的链接，生成pdf或者hmtl。

思路如下：

1.通过文章的url,获取到html
2.将图片的img标签里的属性 data-src 替换为 src (不替换的话，无法显示图片)
3.删除html文档内多余的script标签及内容, css标签及内容等
4.html保存为html或者通过pdfkit生成为pdf

可能出现的问题：

1.pdf导出的时候可能会报IO错误. 这多半都是由于最后生成的html字符串内还有部分资源请求没有删除干净导致的.可以先生成一个html，查看源码看下请求超时的是哪个，再删除掉.
2.视频文件并未处理，可以把视频存到本地。
3.一些标签没处理到位可能会报错，或者提示资源无法显示，这个要根据具体的html处理了。

4.通过静态服务器访问html页面后, 图片无法获取。

404.jpg

可以在<head></head>标签内增加

<meta name="referrer" content="never">
<meta name="referrer" content="no-referrer">

一般加了这个就可以访问图片了，如果还是无法访问图片可以在<img> 标签内加入
referrerPolicy="no-referrer" 属性

<img src="url" referrerPolicy="no-referrer" alt="" />

最后生成的文件结果如下图:

both.png

pdf:

pdf.png

html:

html.png

pdf 如果图片高度过大，可能上一页会出现大量留白。如下：

pdf_white_space.png

代码如下：

# coding: utf-8
import pdfkit
import os
import requests
from bs4 import BeautifulSoup

# 模板html,微信抓取到的html内容过多.
T_HTML = """
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="referrer" content="never">
    <meta name="referrer" content="no-referrer">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
    <style>{style}</style>
</head>
<body>
    {content}
</body>
</html>"""

# pdf的一些参数
PDF_OPTIONS = {
    'page-size': 'A4',
    'encoding': "UTF-8",
}


def getHtmlContent(url, proxies=None):
    '''
    获取html
    '''
    if proxies is None:
        proxies = {"http": None, "https": None}
    res = requests.get(url, proxies)
    res.encoding = 'utf-8'
    return res.text


def reHtmlTags(cnt_html):
    '''
    替换图片src、元素、删除元素
    '''
    # 替换图片标签属性
    cnt_html = cnt_html.replace(
        "data-src", "src").replace('style="visibility: hidden;"', "")
    soup = BeautifulSoup(cnt_html, 'html.parser')

    # 删除评论和投票的html标签
    if soup.iframe:
        soup.iframe.decompose()

    # 用模板格式化
    comments = soup.findAll("img", {"class": "like_comment_pic"})
    styles = soup.find_all('style')
    content = soup.find('div', id='page-content')
    fmt_html = T_HTML.format(style=styles[0].text, content=content)
    html = fmt_html.replace(comments[0].attrs['src'], '') if comments else fmt_html
    return html


def outFile(data, out_type):
    '''
    导出
    '''
    if out_type == 'pdf':
        pdfkit.from_string(data, '大米评测_文章.pdf', PDF_OPTIONS)
    else:
        path = os.getcwd() + '\\大米评测_文章.html'
        with open(path, 'w', encoding='utf-8') as f:
            f.write(data)


source = getHtmlContent('https://mp.weixin.qq.com/s/P8IirGqMnhsE91cFyXqGjg')
html = reHtmlTags(source)
outFile(html, 'html')
outFile(html, 'pdf')

最后编辑于：2023.09.15 22:01:49

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python 微信公众号链接转pdf或html,包括图片