1、变量
python中通过等号直接将某值直接赋值给某变量:
例1:a = 1 #即将数值1赋值于变量
▶python中语句结束不需要以分号,变量不需要提前定义。
例2:现尝试对a、b两变量进行赋值,再对其值进行调换:
a=1
b=2
t=a
a=b
b=t
print(a、b)
#result 2 1
2、字符串中的“加法”和“乘法”
由于Python进行爬虫的过程中,对象大部分回事文本的形式,所以字符串的用法也就显得尤为重要。
在Python中,字符串由双引号或单引号以及引号中的字符组成。接下来,我们分别对字符串的“加法”和“乘法”进行举例演示:
1)加法:
a="hello"
b=' world'
print(a+b)
#result hello world
▶当我们在爬虫的过程中会经常需要用到URL,此时我们就可以通过文本的形式将网址链接的几个部分进行连接,从而形成完整的网页地址的链接。
2)乘法:
a=' hello world'
print(a*3)
#result hello world hello world hello world
▶将字符串乘以某一数值,意思就是将字符串复制出该数字所对应的份数。
3、字符串的切片和索引
字符串中的每个元素都有其对应的位置编号,通过定位的方式获取单个元素信息或部分元素的信息以达到索引和切片的效果。
例:
a='hello world'
print(a[0])
# result h
print(a[0:5])
# result hello
print(a[-1])
# result d
▶Python中对于位置索引的编号从左往右是从0开始,依次累加;而倒过来的排序是从-1开始依次累加。如下图:
▶由操作结果可知:a[0:5]中5所标识的元素并未被打印出来,其中是因为,该切片范围是首位是闭区间,末尾是开区间的原理,末位是不会被包含到范围中的。
▶在爬虫实战中,经常会通过字符串的切片和索引,提取需要的部分,剔除一些不需要的部分。
4、字符串的方法
这里只额外介绍几个爬虫过程中会用到的方法,如:
1.split()方法
a='www.baidu.com'
print(a.split('.'))
# result ['www', 'baidu', 'com']
split()通过给定的分隔符(上例的分隔符是‘ . ’),将一个字符串分割为一个列表。
▶如果没有提供任何分隔符,程序会把所有的空格作为分隔符(空格、制表、换行等)。
2.replace()方法
a='There is apples'
b=a.replace('is' , 'are')
print(b)
# result There are apples
3.strip()方法
a=' python is cool'
print(a.strip())
# result python is cool
▶strip()方法返回的结果是去除两侧(不包括内部)空格的字符串,也可以指定需要去除的字符,将它们列入到参数中即可。
例:
a=" ***python *is * good*** "
print(a.strip("*!"))
# result python *is *good
▶strip()是针对字符串两侧的字符进行去除的处理,在我们进行爬虫操作的过程中,常会遇到爬取到的文本中,文本的两侧有多余的空格,我们便可以用这种方法来将字符串两侧多余的空格给去除掉。
4.format()方法
a=" {} is my love".format('python')
print(a)
# result python is my love
▶字符串格式化符就像是做选择题,留了空给做题者选择,在爬虫的过程中有些网页的链接的部分参数是可变的,这时使用字符串格式化符可以减少代码的使用量。
例:
content=input("请输入搜索内容:")
url_path="https://www.pexels.com/search/{}/".format(content)
print(url_path)