最近在开发爬虫过程中,遇到一些python在解析不规则json字符串时出现解析不了的情况,特些记录一下:
正常情况下我们取到的json字符串应该都是像下面这种情况,用"
包起来的
{"name":"test"}
而在爬取网站中会遇到很多不规则的json字符串,这些json字符串在javascript之中是可以正常解析的,但是在python中就会抛出ValueError异常。对于这种不是用双引号包起来的不规则json字符串可以使用一个第三方包demjson
来解决,安装命令如下:
pip install demjson
安装好后直接在代码中调用就可以直接把不规则的json字符串转化为标准python字典
import demjson
str = '{name: "test"}'
print demjson.decode(str)
第二种情况是得到的json字符串是经过unicode转码的,这时拿到的json字符串会像下面这样:
{name:\u0027test\u0027}
这种解决办法可以使用字符串替换函数把\u0027转化为"
,再使用demjson.decode
就可以转化成功。
import demjson
str = '{name: \u0027test\u0027}'
str = str.replace('\u0027', '\"')
print demjson.decode(str)
第三种情况是拿回来的json字符串的键是有"
的,但是这时的json字符串是经过特殊字符转义的,如下
{\"name\":\"test\"}
这种情况在控制台是能够直接处理,但是在我的scrpay程序中会遇到一些问题,我的解决思路是把字符串转回去再处理
import demjson
str = {\"name\":\"test\"}
print demjson.decode(str.decode("string_escape"))
以上就是我遇到的这三种问题的处理思路供大家参考。