readability-网页内容提取利器

如果你想提取网页上的文章内容,readability这个免费好用的工具绝对值得一试

官网:https://www.readability.com/
提取内容的api文档:https://www.readability.com/developers/api/parser
注册一下,在个人页面可以找到你自己的token

API - GET请求,带上token和url参数
https://www.readability.com/api/content/v1/parser?token=your_token&url=url_you_want_to_parse

响应示例---json格式返回数据

响应

来看个中文的

随便一篇网易博客

content部分就是提取的网页内容了,将其写入html文件,可以直接打开显示网页内容
如果你只是为了提取和保存内容,到这里就可以了。

如果你需要得到网页内容,并进行一些处理,那可能就得把&#x开头的内容转换成中文了&#x开头的是什么编码?,可能需要进行以下操作

# 去掉content中的html标记
def remove_html_tag(content):
    return re.sub(r'</?\w+[^>]*>', '', content)
# 转换成中文
def convert_to_cn(text):
    # 需要将 × 这种先做补全,×
    text = re.sub(r'&#x([A-F0-9]{2});', r'&#x00\1;', text)
    return text.replace('&#x', '\u') \
        .replace(';', '') \
        .decode('unicode-escape') \
        .encode('utf-8')
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,199评论 19 139
  • afinalAfinal是一个android的ioc,orm框架 https://github.com/yangf...
    passiontim阅读 15,617评论 2 45
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,625评论 6 427
  • 雨靖是个文静的女生,话不多,做事干脆,不拖拉。 雨靖刚毕业,在一个小公司做文员,每天的工作就是把销售业务人员已完成...
    卡米c阅读 543评论 1 3
  • 友情 究竟意味着什么 老天总是会对我们开各种各样的玩笑 无奈至极 却也无法 踏上这班飞机的你的心情的喜悦程度 可想...
    溪凝瑄阅读 206评论 0 1