中文和双字符的匹配

正则表达式中:

  • 匹配中文字符可用: [\u4e00-\u9fa5]
  • 匹配双字节字符(包括中文字符):[^\x00-\xff]
    在爬取豆瓣出版社列表的练习中,正则表达式如下:
data = urlreq.urlopen('https://read.douban.com/provider/all').read().decode('utf-8')
# pressPattern = 'class="name">([\u4e00-\u9fa5]*(·[\u4e00-\u9fa5]+)?)'
# 出版社名称可以是中文也可以是英文
pressPattern = 'class="name">(.*?)<'
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 这里是几个主要非英文语系字符范围(google上找到的): 2E80~33FFh:中日韩符号区。收容康熙字典部首、...
    桃花酿阅读 14,270评论 1 7
  • 忘了从哪收集的资料了,放这儿,以备不时之需。 只能输入数字:"^[0-9]*$"。 只能输入n位的数字:"^\d{...
    study_monkey阅读 1,426评论 0 7
  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,174评论 0 9
  • \d 代表 [0-9] \l 代表 [a-z] \u 代表 [A-Z] \a 代表 [A-Za-z] \w 代表 ...
    zhuoshao阅读 1,403评论 0 5
  • 德国和法国是两个传统的欧洲强国,德国工业发达,我们现在可以看到大街小巷到处都是德系汽车;据我所知法国是第一个与我们...
    viper44阅读 100评论 0 0