scrapy的启动及正则表达式

1.scrapy的启动在对应的目录下:


pwld.png

如果在启动过程中出现"win32api"的错误 则pip install pypiwin32
2.正则表达式:
"""
^ 表示以什么开始如:^b表示以b字母开头
. 表示任意字符
* 表示前面的字符可以出现任意多次
$ 表示以什么结束如:3$表示以3结尾
? 表示非贪婪模式,正则表达式默认的是贪婪模式,贪婪模式是从后往前匹配
+ 表示前面的字符至少出现一次
{3}出现的次数 {3,}至少出现3次{3,5}至少出现3次最多5次
|表示或关系
\s 表示空格\S不为空格可以
\w表示[A-Za-z0-9]\W表示不为\w可以
[\u4E00-\u9FA5]表示汉字如line="study in 南京大学"reg=".*?([\u4E00-\u9FA5]+大学)"
\d表示数字
s.decode("gb2312").encode("utf-8")
encode 前面必须是unicode编码
decode是对前面("")格式转化为unicode
python3 不需要在声明,默认全部是unicode
"""

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • iOS中使用正则表达式就不得不提NSRegularExpression,所以我们需要先搞清楚什么是NSRegula...
    sunmumu1222阅读 2,404评论 0 4
  • 忘了从哪收集的资料了,放这儿,以备不时之需。 只能输入数字:"^[0-9]*$"。 只能输入n位的数字:"^\d{...
    study_monkey阅读 1,429评论 0 7
  • Java的正则表达式讲解:(为了能看清,本文正则表达式用中文的句号代替英文句点) 英文句点符号:匹配单个任意字符。...
    红姑娘阅读 4,405评论 0 2
  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,178评论 0 9
  • 文章转载地址: http://www.open-open.com/code/view/1430625516632 ...
    得起一个清新脱俗的名字阅读 2,214评论 1 3