Ch1 Python零基础语法入门

概要


本文我想拣些使用频率相对高些的基础语法来讲讲,权当作备忘录了吧。

类别:

  • Python 和 Pycharm的安装
  • 变量和字符串
  • 函数与控制语句:Python循环、判断语句
  • Python数据结构:列表、字典、元组和集合
  • Python文件操作:使用Python建立文件并写入数据
  • Python面向对象:类的定义和使用方法。

正文


1. Python安装

当前主流的Python版本为2.x3.x。由于Python 2 第三方库更多(很多库没有向Python 3转移),企业普遍使用Python 2。如果作为学习和研究的话,建议使用Phthon 3。

Win 7下安装Python 3.7 就直接参照我另一篇简文:安装Python 3.7

Linux下安装Python 3

大部分Linux系统内置了Python 2 和Python 3 ,通过在终端输入python -version
可以查看当前Python 3的版本。如果需要安装某个特定版本的Python,可以在终端中输入:

sudo apt-get install python3.7

2. 变量和字符串

由于Python爬虫的对象大部分为文本,所以字符串的用法尤为重要。

在Python中,字符串由双引号或单引号和引号中的字符组成。

首先看看字符串的“加法”:

a = 'I'
b = ' love'
c = ' Python'
print(a + b + c)

在爬虫代码中,会经常构造URL
例如:在爬取一个网页链接时,只有一部分/u/9104ebf5e177,这部分链接是无法访问的,还需要“http://www.jianshu.com”,这时可以通过字符串的加法进行合并。

Python 的字符串不仅可以相加,也可以乘以一个数字

a = "word"
print(a * 3)
#wordwordword

字符串乘以一个数字,表示字符串复制的份数。

3.字符串的切片和索引

字符串的切片和索引就是通过string[x],获取字符串的一部分信息:

a = "I love Python"
print(a[0])
#I
print(a[0:5])
#I lov
print(a[-1])
#n

在爬虫实战中,经常会通过字符串的切片和索引,提取需要的部分,剔除一些不需要的部分。

4.字符串方法

Python作为面向对象的语言,每个对象都有相应的方法,字符串也一样,拥有多种方法,在这里介绍爬虫技术中常用的几种方法。

① split()方法

a = "www.baidu.com"
print(a.split("."))
#['www', 'baidu', 'com']

字符串的split()方法就是通过给定的分隔符('.'),将一个字符串分割为一个列表

如果没有提供任何分隔符,程序会把所有的空格作为分隔符(空格、制表、换行等)

② replace()方法

a = "there is apples"
b = a.replace("is", "are")
print(b)
#there are apples

这种方法类似于文本中的“查找和替换”功能。

③ strip()方法

a = "python is cool "
print(a.strip())
#python is cool

strip()方法返回去除两侧(不包含内部)空格的字符串,也可以指定需要去除的字符。将它们列为参数中即可。

a = "***python *is * good***"
print(a.strip('*'))
#python *is * good

这个方法只能去除两侧的字符,在爬虫得到的文本中,文本两侧常会有多余的空格,只需使用字符串的strip()方法即可去除多余的空格部分。

④format()方法

最后再讲解下好用的字符串格式化符,首先看以下代码:

a = "{} is my love".format('Python')
print(a)
#Python is my love

字符串格式化符就像是做选择题,留了空给做题者选择。

在爬虫过程中,有些网页链接的部分参数是可变的,这时使用字符串格式化符可以减少代码的使用量。

例如:Pexels素材网(https://www.pexels.com/),当搜索图片时,网页链接也会发生变化,如在搜索栏中输入“book”,网页跳转为“https://www.pexels.com/search/book/”,可以设计如下代码,笔者只需输入搜索内容,便可返回网页链接。

content = input("请输入搜索内容:")
url_path = 'https://www.pexels.com/search/{}/'.format(content)
print(url_path)
#https://www.pexels.com/search/book/

介绍Python的判断和循环两种爬虫技术中常用的控制语句

1.函数

Python中定义函数的方法:

def 函数名(参数1,参数2...):
    return "结果"

制作一个输入直角边就能计算出直角三角形的面积函数:

def function(a, b):
    return 1 / 2 * a * b

print(function(1, 2))

来做一个综合练习,读者都知道网上的电话号码 156****9354,中间的数值使用其他符号代替了,而用户输入的时候是完整地输入,下面通过使用函数来实现这个功能:

def change_number(number):
    hiding_number = number.replace(number[3:7], '*' * 4)
    print(hiding_number)


change_number("15674439354")
#156****9354

2.判断语句

在爬虫实战中也会经常使用判断语句,Python的判断语句格式如下:

if condition:
    pass
else:
    pass
#冒号和缩进不要忘记了

#再看一下多重条件的格式
if condition:
    pass
elif condition:
    pass
else:
    pass

在平时使用密码时,输入的密码正确即可登录,密码错误时就需要再次输入密码。

def count_login():
    password = input("password:")
    if password == '12345':
        print("输入成功!")
    else:
        print("错误,再输入:")
        count_login()


count_login()

3.循环语句

Python的循环语句包括for循环和while循环,代码如下:

#for 循环
for item in iterable:
    pass
#item表示元素,iterable是集合
for i in range(1,11):
    print(i)
#输出1到10间的整数
#while 循环
while condition:
    pass

例如,设计一个小程序,计算1~100的和:

i = 0
sum = 0

while i < 100:
    i += 1
    sum += i
print(sum)
#5050

Python 数据结构是存放数据的容器。

1.列表

在爬虫实战中,使用最多的就是列表数据结构,不论是构造出的多个URL,还是爬取到的数据,大多数都为列表数据结构。

下面首先介绍列表最显著的特征:

  • 列表中的每一个元素都是可变的。

  • 列表的元素是都是有序的,也就是说每个元素都有对应的位置(类似字符串的切片和索引)

  • 列表可以容纳所有的对象

列表中的每个元素都是可变的,这意味着可以对列表进行增删改操作,这些操作在爬虫中很少使用,因此不再给读者添加知识负担。

list = ["peter", "lilei", "wangwu", "xiaoming"]
print(list[0])
print(list[2:])
#peter
#['wangwu', 'xiaoming']

如果为切片,返回的也是列表的数据结构。

列表可以容纳所有的对象

list = [1, 1.1, 'string', print(1), True, [1, 2], {'key', 'value'}]

列表中会经常使用到多重循环,因此有必要了解和使用多重循环。现在有两个列表,分别是姓名和年龄的列表:

names = ['xiaoming', 'wangwu', 'peter']
ages = [23, 15, 58]

这时可以通过多重循环让 name 和 age 同时打印在屏幕上

names = ['xiaoming', 'wangwu', 'peter']
ages = [23, 15, 58]
for name, age in zip(names, ages):
    print(name, age)
#xiaoming 23
#wangwu 15
#peter 58

在爬虫中,经常请求多个网页,通常情况下会把网页存到列表中,然后循环依次取出并访问爬取数据。这些网页都有一定的规律,如果是手动将这些网页URL存入到列表中,不仅花费太多时间,也会造成代码冗余。这时可通过列表推导式,构造出这样的列表,例如某个网站每页的URL是这样的(一共13页)

http://bj.xiaozhu.com/search-duanzufang-p1-0/
http://bj.xiaozhu.com/search-duanzufang-p2-0/
http://bj.xiaozhu.com/search-duanzufang-p3-0/
http://bj.xiaozhu.com/search-duanzufang-p4-0/
......

通过以下代码即可构造出13页URL的列表数据:

urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number) for number in range(1, 14)]

for url in urls:
    print(url)

通过一行代码即可构造出来,通过for循环打印出每个URL

http://bj.xiaozhu.com/search-duanzufang-p1-0/
http://bj.xiaozhu.com/search-duanzufang-p2-0/
http://bj.xiaozhu.com/search-duanzufang-p3-0/
http://bj.xiaozhu.com/search-duanzufang-p4-0/
http://bj.xiaozhu.com/search-duanzufang-p5-0/
http://bj.xiaozhu.com/search-duanzufang-p6-0/
http://bj.xiaozhu.com/search-duanzufang-p7-0/
http://bj.xiaozhu.com/search-duanzufang-p8-0/
http://bj.xiaozhu.com/search-duanzufang-p9-0/
http://bj.xiaozhu.com/search-duanzufang-p10-0/
http://bj.xiaozhu.com/search-duanzufang-p11-0/
http://bj.xiaozhu.com/search-duanzufang-p12-0/
http://bj.xiaozhu.com/search-duanzufang-p13-0/

2.字典

Python的字典数据结构与现实中的字典类似,以键值对('key'--'value')的形式表现出来。

user_info = {'name': 'xiaoming', 'age': 23, 'sex': 'man'}

for key, value in user_info.items():
    print(key, value)

注意:插入MongoDB数据库需用字典结构

3.元组和集合

在爬虫中,元组和集合很少用到,因此这里只做简单介绍。元组类似于列表,但是元组的元素不能修改只能查看,元组的格式如下:

tuple = (1,2,3)

集合的概念类似于数学中的集合。每个集合中的元素是无序的,不可以有重复的对象,因此可以通过集合把重复的数据去除。

lists = ['xiaoming', 'zhangyun', 'xiaoming']
sets = set(lists)
print(sets)
#{'xiaoming', 'zhangyun'}

注意:集合是用大括号构建的。


在爬虫初期的工作中,常常会把数据存储到文件中。

主要讲解Python如何打开文件和读写数据

1.打开文件

Python中通过open()函数打开文件,语法如下:

open(name[,mode[,buffering]])

open()函数使用文件名作为唯一的强制参数,然后返回一个文件对象。模式(mode)和缓冲(buffering)是可选参数。

在Python的文件操作中,mode参数的输入是有必要的,而buffering使用较少。

如果在本机上有名为file.txt的文件,其存储路径为C:\Users\Admin\Desktop,那么可以通过下面代码打开文件:

f = open("C:/Users/Admin/Desktop/file.txt")

注意:此代码为Windows系统下的路径写法

如果文件不存在,则会出现如下图所示的错误:

文件不存在报错信息

如果open()函数只是加入文件的路径这一个参数,则只能打开文件并读取文件的相关内容。

如果想要文件中写入内容,则必须加入模式这个参数了。下面看看open()函数中模式参数的常用值:

描述
'r' 读模式
'w' 写模式
'a' 追加模式
'b' 二进制模式(可添加到其他模式中使用)
'+' 读/写模式(可添加到其他模式中使用)

2.读写文件

可以通过f.write()方法和f.read()方法写入和读取数据了。

f = open("data.txt", 'r+', encoding="utf8")
f.write("hello world!")

注意:如果没有建立文件,运行上面代码也可以成功,如果模式为r+w+,只会覆盖原先的内容。

如果再次运行程序,txt文件中的内容不会继续添加,可以修改模式参数为'r+',便可一直写入文件。

Python读取文件通过read()方法,下面尝试把f的类文件对象写入的数据读取出来,使用如下代码即可完成。

f = open("data.txt", 'r', encoding="utf8")
content = f.read()
print(content)

3.关闭文件

当完成读写工作后,应该牢记使用close()方法关闭文件。这样可以保证Python进行缓冲的清理(出于效率考虑而把数据临时存储在内存中)和文件的安全性。

f = open("data.txt", 'r', encoding="utf8")
content = f.read()
print(content)
f.close()

Python作为一个面向对象的语言,很容易创建一个类和对象。

1.定义类

类是用来描述具有相同属性和方法的对象集合。人可以通过不同的肤色划分为不同的种族,事物也有不同的种类,商品也是形形色色。但划分为同一类的物体,肯定具有相似的特征和行为方式。

对于同一款自行车而言,他们的组成结构都是一样的,如车架、车轮和脚踏板等。通过Python可以定义这个自行车的类:

class Bike:
    compose = ['frame', 'wheel', 'pedal']

通过使用class定义一个自行车的类,类中的变量compose 称为类的变量,专业术语为类的属性。这样,顾客购买的自行车组成结构就是一样的了。

my_bike = Bike()
your_bike = Bike()
print(my_bike.compose)
print(your_bike.compose)

在左边写上变量名,右边写上类的名称,这个过程称之为类的实例化,而my_bike就是类的实例。通过.加上类的属性,就是类属性的引用。类的属性会被类的实例共享,所以结果都是一样的。

2.实例属性

对于同一款自行车,有些顾客买回去后会改造下:

class Bike:
    compose = ['frame', 'wheel', 'pedal']

my_bike = Bike()
my_bike.other = 'basket'
print(my_bike.other)

说明:通过给类的实例属性进行赋值,也就是实例属性。compose属性属于所有的该款自行车,而other属性只属于my_bike这个类的实例。

3.实例方法

是否记得字符串的format()方法。方法就是函数,方法是对实例进行使用的,所以又叫实例方法。对于自行车而言,它的方法就是骑行:

class Bike:
    compose = ['frame', 'wheel', 'pedal']

    def use(self):
        print("you are riding")


my_bike = Bike()
my_bike.use()

和函数一样,实例方法也是可以有参数的。

class Bike:
    compose = ['frame', 'wheel', 'pedal']

    def use(self, time):
        print("you ride {}m".format(time * 100))


my_bike = Bike()
my_bike.use(10)

Python的类中有一些“魔法方法”,__init__()方法就是其中之一。在我们创建实例的时候,不需要引用该方法也会被自动执行。

class Bike:
    compose = ['frame', 'wheel', 'pedal']

    def __init__(self):
        self.other = 'basket'

    def use(self, time):
        print("you ride {}m".format(time * 100))


my_bike = Bike()
my_bike.use(10)

4.类的继承

共享单车的出现,方便了人们的出行,共享单车和原来的自行车组成结构类似,但多了付费的功能。

class Bike:
    compose = ['frame', 'wheel', 'pedal']

    def __init__(self):
        self.other = 'basket'

    def use(self, time):
        print("you ride {}m".format(time * 100))


class Share_bike(Bike):
    def cost(self, hour):
        print('you spent {}'.format(hour * 2))


bike = Share_bike()
print(bike.other)
bike.cost(2)

在新的类Share_bike后面的括号中加入Bike,表示Share_bike继承了Bike父类。父类中的变量和方法完全被子类继承,在特殊情况下,也可以对其覆盖。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容