正则表达式中:
- 匹配中文字符可用: [\u4e00-\u9fa5]
- 匹配双字节字符(包括中文字符):[^\x00-\xff]
在爬取豆瓣出版社列表的练习中,正则表达式如下:
data = urlreq.urlopen('https://read.douban.com/provider/all').read().decode('utf-8')
# pressPattern = 'class="name">([\u4e00-\u9fa5]*(·[\u4e00-\u9fa5]+)?)'
# 出版社名称可以是中文也可以是英文
pressPattern = 'class="name">(.*?)<'