登录注册写文章

处理文字数据踩过的坑

处理文字数据踩过的坑

最近笔者尝试使用一些文字数据，发现有很多奇怪的东西
比如：
乍一看数据看着挺正常的，但是：

Possibly the best police drama series since &#34;police story&#34;  and &#34;naked city&#34;.

" 是什么，不只是 " 还有’ “ ... 很多，但是，仔细观察会发现它们都是成对出现的，而且形式也很一致。

实际上，它是在这段数据中有html标签，处理方法：
python代码：

    tree = etree.fromstring("<html>" + text + "</html>") //text 为String 数据
    print(count, tree.text)

这个时候就会有新的问题：

lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 1, column 3283

经笔者排查，发现是因为文字里面有一些不是html标签，但是使用&符号的文字，解决方法，将这些&替换成&

text = text.replace(' & ', ' &amp; ').replace('& ', '&amp; ')

但是还是会有问题：

lxml.etree.XMLSyntaxError: Entity 'eacute' not defined, line 1, column 4318

这是因为，&eacute 在这里不能被识别
方法：

text = text.replace('&eacute', '&#233;').replace('&egrave', '&#232;').replace('&euro', '&#8364;')

解决

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

h5常见的面试题
第一部分 HTML&CSS整理答案 1. 什么是HTML5？答：HTML5是最新的HTML标准。注意：讲述HT...
kismetajun阅读 27,968评论 1赞 45
“真相”这种奢侈品，怎么能想要就有呢？
昨天看到一句话——全中国的硬盘，只有陈冠希的能修好。你说巧不巧？巧！奇的是，现在这么巧的事情总能遇到。打人的公...
相处以墨阅读 3,297评论 2赞 3
在 iOS 应用中直接跳转到 AppStore 的方法
一、找到应用程序的描述链接，比如：https://itunes.apple.com/cn/app/支付宝-让生活更...
George2016阅读 5,581评论 1赞 2
一花一世界(转载）
花开易见落难寻，千年期盼，只因一瞬的倾心。千年已过，不知如今的你是否看那满城繁花，直到花落人亡。…… 我是一朵花，...
清秋往兮流年阅读 3,196评论 0赞 1
婆婆生病记
病患不分正月不正月婆婆初三开始的发热缠绵悱恻，顽固不退初八接来，紧急诊治诊为双肺大面积感染已导致中度呼吸...
柔软的泥土阅读 3,490评论 0赞 0

2赞3赞

1赞赏

手机看全文