通过微信公众号文章的链接,生成pdf或者hmtl。
思路如下:
1.通过文章的url,获取到html
2.将图片的img标签里的属性 data-src 替换为 src (不替换的话,无法显示图片)
3.删除html文档内多余的script标签及内容, css标签及内容等
4.html保存为html或者通过pdfkit生成为pdf
可能出现的问题:
1.pdf导出的时候可能会报IO错误. 这多半都是由于最后生成的html字符串内还有部分资源请求没有删除干净导致的.可以先生成一个html,查看源码看下请求超时的是哪个,再删除掉.
2.视频文件并未处理,可以把视频存到本地。
3.一些标签没处理到位可能会报错,或者提示资源无法显示,这个要根据具体的html处理了。
可以在<head></head>标签内增加
<meta name="referrer" content="never">
<meta name="referrer" content="no-referrer">
一般加了这个就可以访问图片了,如果还是无法访问图片可以在<img> 标签内加入
referrerPolicy="no-referrer" 属性
<img src="url" referrerPolicy="no-referrer" alt="" />
最后生成的文件结果如下图:
pdf:
html:
pdf 如果图片高度过大,可能上一页会出现大量留白。如下:
代码如下:
# coding: utf-8
import pdfkit
import os
import requests
from bs4 import BeautifulSoup
# 模板html,微信抓取到的html内容过多.
T_HTML = """
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="referrer" content="never">
<meta name="referrer" content="no-referrer">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Document</title>
<style>{style}</style>
</head>
<body>
{content}
</body>
</html>"""
# pdf的一些参数
PDF_OPTIONS = {
'page-size': 'A4',
'encoding': "UTF-8",
}
def getHtmlContent(url, proxies=None):
'''
获取html
'''
if proxies is None:
proxies = {"http": None, "https": None}
res = requests.get(url, proxies)
res.encoding = 'utf-8'
return res.text
def reHtmlTags(cnt_html):
'''
替换图片src、元素、删除元素
'''
# 替换图片标签属性
cnt_html = cnt_html.replace(
"data-src", "src").replace('style="visibility: hidden;"', "")
soup = BeautifulSoup(cnt_html, 'html.parser')
# 删除评论和投票的html标签
if soup.iframe:
soup.iframe.decompose()
# 用模板格式化
comments = soup.findAll("img", {"class": "like_comment_pic"})
styles = soup.find_all('style')
content = soup.find('div', id='page-content')
fmt_html = T_HTML.format(style=styles[0].text, content=content)
html = fmt_html.replace(comments[0].attrs['src'], '') if comments else fmt_html
return html
def outFile(data, out_type):
'''
导出
'''
if out_type == 'pdf':
pdfkit.from_string(data, '大米评测_文章.pdf', PDF_OPTIONS)
else:
path = os.getcwd() + '\\大米评测_文章.html'
with open(path, 'w', encoding='utf-8') as f:
f.write(data)
source = getHtmlContent('https://mp.weixin.qq.com/s/P8IirGqMnhsE91cFyXqGjg')
html = reHtmlTags(source)
outFile(html, 'html')
outFile(html, 'pdf')