登录注册写文章

Scrapy : UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 2...错误

Scrapy : UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 2...错误

在用scrapy爬取网页数据时，Selector解析网页数据时 , 会出现如题的错误。

response.xpath('//*[@id="pagelist"]/div/text()').extract()[0]

这样写打印出来，是不会报错的。

response.xpath('//*[@id="pagelist"]/div/text()')

加上extract()就会报这样子的错。因为extract()返回选中内容的Unicode字符串。网页中如果出现 就会变成\xa0的字符就会出现如题的错误。

如何解决呢？？？ 上代码：

response.xpath('//*[@id="pagelist"]/div/text()').re(r'[^\xa0]'))

没错，就是用正则表达式去除掉\xa0即可。然后这样处理后得到的是一个[]的数组，要想得到字符串类型的数据

"".join(response.xpath('//*[@id="pagelist"]/div/text()').re(r'[^\xa0]')).strip()

OK了！

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python 编码错误 UnicodeEncodeError: 'gbk' codec can...
爬取的一些数据在做文本保存的时候出现错误，错误一、错误原因： 1.UnicodeEncodeError Unic...
马赛克同学阅读 9,444评论 0赞 1
爬虫requests 返回后用print打印发挥结果遇到 "UnicodeEncodeErr...
遇到问题描述 python读取mysql 之后，print提示此错误，，如下第二种解决方案解决的import 第一...
程序里的小仙女阅读 3,968评论 0赞 2

简单 Scrapy 使用小结
Scrapy 安装Scrapy pip install scrapy Scrapy Doc 查看Scrapy的文档...
MrException阅读 2,801评论 0赞 0
Open函数保存爬虫结果错误 UnicodeEncodeError: 'gbk' codec ...
最近在学习网络爬虫，采用Python+Requests+BeautifulSoup+Re框架，遇到的一些问题就记录...
Jianping_OG阅读 5,011评论 0赞 0
爬虫框架-scrapy的使用
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Sched...
联旺阅读 3,184评论 0赞 0

赞1赞

赞赏

手机看全文