中文和双字符的匹配

正则表达式中:

匹配中文字符可用： [\u4e00-\u9fa5]
匹配双字节字符(包括中文字符)：[^\x00-\xff]
在爬取豆瓣出版社列表的练习中，正则表达式如下：

data = urlreq.urlopen('https://read.douban.com/provider/all').read().decode('utf-8')
# pressPattern = 'class="name">([\u4e00-\u9fa5]*(·[\u4e00-\u9fa5]+)?)'
# 出版社名称可以是中文也可以是英文
pressPattern = 'class="name">(.*?)<'

最后编辑于：2019.10.05 22:05:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

匹配中文字符的正则表达式： [/u4e00-/u9fa5]
这里是几个主要非英文语系字符范围(google上找到的): 2E80～33FFh：中日韩符号区。收容康熙字典部首、...
桃花酿阅读 14,538评论 1赞 7
常用的正则表达式
忘了从哪收集的资料了，放这儿，以备不时之需。只能输入数字："^[0-9]*$"。只能输入n位的数字："^\d{...
study_monkey阅读 1,501评论 0赞 7

正则表达式
正则表达式到底是什么东西？字符是计算机软件处理文字时最基本的单位，可能是字母，数字，标点符号，空格，换行符，汉字等...
狮子挽歌阅读 2,316评论 0赞 9
正则表达式-元字符讲解
\d 代表 [0-9] \l 代表 [a-z] \u 代表 [A-Z] \a 代表 [A-Za-z] \w 代表 ...
zhuoshao阅读 1,520评论 0赞 5
2018-07-20
德国和法国是两个传统的欧洲强国，德国工业发达，我们现在可以看到大街小巷到处都是德系汽车；据我所知法国是第一个与我们...
viper44阅读 118评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文