今天遇到一个页面,明明 有内容,可是用response.doc节点,就是解析不出内容,显示的是None。
经过排查,是因为这个页面里有一些特殊字符(乱码),pyspider内置的pyquery没能正确转码页面。
解决办法:
手动转码一次,然后忽略错误编码字符:
response.content = (response.content).decode('gbk', errors='ignore') #目标站是GBK 编码
今天遇到一个页面,明明 有内容,可是用response.doc节点,就是解析不出内容,显示的是None。
经过排查,是因为这个页面里有一些特殊字符(乱码),pyspider内置的pyquery没能正确转码页面。
解决办法:
手动转码一次,然后忽略错误编码字符:
response.content = (response.content).decode('gbk', errors='ignore') #目标站是GBK 编码