问题复现:
上交所2008年1月3号的公告信息获取的时候总是报错,多次尝试都是如此,确定问题可以复现。
思考可能原因:
1.上交所数据本身有问题
2.数据获取过程中存在问题
排查:
定位到问题出现的页码,获取json转化之前的str数据,发现数据是以中文开头的,明显不符合json规范,这样后续想转化为json数据,就肯定会报错。
那么为什么这页数据会以中文开头呢?显然这个不太可能是上交所给出的,大概率是数据获取的过程中的问题。
检查数据获取流程,发现在用正则表达式匹配后才出现的这个问题,问题定位到正则表达式。
发现之前正则表达式的逻辑对括号的判定存在不对的地方。
解决:
修改正则表达式的判定方法。