笨方法python去除收藏夹重复收藏页

#!/usr/bin/python

# -*- coding: UTF-8 -*-

list1=[] # 最终列表

b=None

with open(r"D:\Desktop\bookmarks.html",'r',encoding='utf-8') as fh:

    for line in fh:

        # print(line.strip())

        # print(type(line))

        # print(line.split())

        f=line.strip()

        a=f.split('>')

        if len(a) <3: # 切片后长度小于3就是普通标签直接添加,否则就是收藏夹要去重复

            list1.append(f)

        elif a[-2] != b:

            list1.append(f)

            b = a[-2]

            # print(b)

with open(r"d:\Desktop\new_html.html",'w',encoding='utf-8') as f:

    for i in list1:

        f.write(i)

        f.write('\n')

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • "use strict";function _classCallCheck(e,t){if(!(e instanc...
    久些阅读 2,060评论 0 2
  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,537评论 0 13
  • 写在前面的话 代码中的# > 表示的是输出结果 输入 使用input()函数 用法 注意input函数输出的均是字...
    FlyingLittlePG阅读 2,978评论 0 9
  • 什么是跨域请求? 根据浏览器的同源策略, 当请求的地址与来源地址的协议\域名\端口中的任一值不相同时, 均视为是一...
    李2牛阅读 292评论 0 0
  • ----------------------Java规范---------------------- 源文件结构 ...
    pphdsny阅读 328评论 0 0