0008-HTML提出出正文

代码

import requests
import re


def request_get(url):
    response = requests.get(url)
    response.encoding = 'gb2312'   # 中文乱码处理
    text = response.text
    re_handle(text)


def re_handle(text):
    text = re.findall(r'<div id="twgg" class="gg">.*<p>\s+(.*?)</p>', text, re.S)[0]  # 跨行 re.S
    text = re.sub('<.*?>', '', text)
    text = re.sub('\s+', '', text)
    print_text(text)


def print_text(text):
    print(text)

if __name__ == '__main__':
    url = 'http://www.jjcom/jjart/412827.html'
    request_get(url)

新知识

requests.get中文乱码,指定编码格式

response = requests.get(url)
response.encoding = 'gb2312'
text = response.text

正则跨行匹配,要加re.S

text = re.findall(r'<div id="twgg" class="gg">.*<p>\s+(.*?)</p>', text, re.S)[0]  # 跨行 re.S
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容