浅析python解析不规则json字符串

最近在开发爬虫过程中,遇到一些python在解析不规则json字符串时出现解析不了的情况,特些记录一下:

正常情况下我们取到的json字符串应该都是像下面这种情况,用"包起来的

{"name":"test"}

而在爬取网站中会遇到很多不规则的json字符串,这些json字符串在javascript之中是可以正常解析的,但是在python中就会抛出ValueError异常。对于这种不是用双引号包起来的不规则json字符串可以使用一个第三方包demjson来解决,安装命令如下:

pip install demjson

安装好后直接在代码中调用就可以直接把不规则的json字符串转化为标准python字典

import demjson

str = '{name: "test"}'

print demjson.decode(str)

第二种情况是得到的json字符串是经过unicode转码的,这时拿到的json字符串会像下面这样:

{name:\u0027test\u0027}

这种解决办法可以使用字符串替换函数把\u0027转化为",再使用demjson.decode就可以转化成功。

import demjson

str = '{name: \u0027test\u0027}'

str = str.replace('\u0027', '\"')

print demjson.decode(str)

第三种情况是拿回来的json字符串的键是有"的,但是这时的json字符串是经过特殊字符转义的,如下

{\"name\":\"test\"}

这种情况在控制台是能够直接处理,但是在我的scrpay程序中会遇到一些问题,我的解决思路是把字符串转回去再处理

import demjson

str = {\"name\":\"test\"}

print demjson.decode(str.decode("string_escape"))

以上就是我遇到的这三种问题的处理思路供大家参考。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,626评论 25 709
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,269评论 19 139
  • 不用煽情,直接上感受 1:知识存量——最先吸引我的是老板的知识存量之丰富,可以说上知天文,下知地理。很多他的讲述纠...
    Liudi阅读 440评论 0 0
  • 进入dos命令窗口:nslookup 域名Addresses栏有多个IP的表示使用了CDN,单个IP的则未使用CD...
    灵籁阅读 9,303评论 0 1
  • 慵懒的躺在床上,不想工作与生活的琐事。 作为嗜烟好酒的“不良市民”,每天都在奔忙,忽然之间不知道为了什么。不去想,...
    饶子说阅读 378评论 0 0