清洗微博评论数据

0. 问题描述

  • 抓取到的评论数据非常滴脏,其中有一些无用信息,所以目标就是只提取其中的中文文字内容
  • 评论中会存在很多表情,如下所示
不是很快就撤了吗? <span class="url-icon"><img alt="[吃瓜]" src="//h5.sinaimg.cn/m/emoticon/icon/default/d_chigua-90cb948c34.png" style="width:1em; height:1em;"/></span>

实际上展现出的内容则是:

不是很快就撤了吗?
[吃瓜]

这一种类型的表情是微博特有的表情,还有一种是Emoji 表情,前者会在评论内容嵌入html代码,后者则是会已编码的方式呈现。

  • 评论中的@符号: @符后也会跟随中文这些需要,用专门的代码过滤掉

1.解决思路

  • 表情问题:
    用正则表达式过滤,表达式如下
    [\u4e00-\u9fa5,。!??! ]{1,}
    
  • @问题:
    经过观察 @的内容全部在a标签内,所以显而易见只需要把所有<a ... </a>之内的内容即可

2.代码实例

    #匹配中文的正则表达式
        self.pattern = re.compile(r"[\u4e00-\u9fa5,。!??! ]{1,}")
    def remove_text_dirty(self,oldstr):
            logging.info("oldstr:" + oldstr)
            oldstr = oldstr.replace("\n", "")#去掉评论所有的换行符
            count = oldstr.count("<a")#统计评论中<a>标签的数量

            for i in range(0,count): # 对评论中<a>标签逐一进行处理
                if oldstr.count("<a") is 0: #如果评论中没有<a>标签
                    break
                font = oldstr.index("<a")
                tail = oldstr.index("</a>")
                dirty = oldstr[font:tail+4] #获取到评论中当前<a>标签的内容
                oldstr = oldstr.replace(dirty,"") #去除评论中当前<a>标签的内容
            logging.info("newstr:"+oldstr)
            match = self.pattern.match(oldstr)
            logging.info("match:"+str(match))
            if match:
                #返回匹配到的中文内容
                return match.group()
            else:
                #没有中文返回汉字
                return None
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1、通过CocoaPods安装项目名称项目信息 AFNetworking网络请求组件 FMDB本地数据库组件 SD...
    阳明AI阅读 16,033评论 3 119
  • 上午,啧啧今天真的好冷,早上出去吃早饭发现结冰了... 真的冷,点完名和娇娇去大学城买东西了。 下午没事干,没...
    阿琳蓝阅读 142评论 0 0
  • 如过路山人,低头踱步 如砍柴老人,蒙眼挥砍 心情如在喝一口清泉 发现水面飘着一条腐鱼 却是一生最平淡的味道
    三言两字阅读 230评论 0 1