最近要学习爬虫技术,用python是最好的选择。
上周末花了一天时间把python入门经典书——python简明教程看完。
我想把一些觉得值得记录注意的的记下来。
Python语言是极少数能够同时兼容简单与功能强大的编程语言。
基础
三引号
多行注释
"""
第一行注释
第二行注释
第三行注释
"""
跨多行字符串
str ="""
how are you?
I'm fine.
thank you,and you?
me too!
"""
多行字符串也可以用''来连接
输出的格式化方法
format方法
age = 20
name = '海哥'
print('My name is {0} .I am {1} years old'.format(name,age))
print('My name is {name} .I am {age} years old'.format(age =age,name = name))
格式符
# 格式符是有多种
print('My name is %s.I am %d years old.' % ('海哥',20))
缩进
python对缩进格式很严格,缩进不同层次则不同。
a = 5
# 行首有一个空格,会出错
print(a)
# 正确写法
print(a)
# 正确的格式
a = [1,2,3]
for i in a:
if i>=2:
print(i)
一般写循环、函数也与C/JAVA不同,按缩进来对应不同的层次。
缩进用Tab
或4个空格
来表示。
控制流
控制流语句有if
for
while
注意需要在逻辑行的末尾加上":"
a = [1,2,3]
for i in a:
if i==1:
print("[1]这是",i)
elif i==2:
print("[2]这是",i)
else:
print("[3]这是",i)
## 输出结果为
# [1]这是 1
# [2]这是 2
# [3]这是 3
可以看出按缩进量来看逻辑结构。
函数
通过关键词 def
来定义
global语句
x = 50
def func():
global x
print('x is',x)
x = 2
print('x is',x)
func()
print('x is',x)
结果为
x is 50
x is 2
x is 2
global语句用以声明x是一个全局变量
关键字参数
这是python比较神奇的玩法
def func(a,b=4,c=10):
print("a=",a,"b=",b,"c=",c)
func(2,3,4)
func(b=3,a=6,c=3)
结果为
a= 2 b= 3 c= 4
a= 6 b= 3 c= 3
函数的参数可以不一定要按顺序赋予,可以根据关键字来指定值。
可变参数
可以让函数有任意数量的变量,通过星号来实现
def total(a=5,*numbers,**phonebook):
print("a=",a)
# 遍历元组中的所有项目
for single_item in numbers:
print('第二个参数:',single_item)
# 遍历字典中的所有项目
for first_part,second_part in phonebook.items():
print('第三个参数:',first_part,second_part)
total(10,1,2,3,4,JACK=1123,haige=123123)
结果为
a= 10
第二个参数: 1
第二个参数: 2
第二个参数: 3
第二个参数: 4
第三个参数: JACK 1123
第三个参数: haige 123123
当我们声明一个
*param
的星号参数时,从此处开始直到结束的所有位置参数都将被收集并汇集成一个称为"param"的元组类似地,当我们声明一个
**param
的双星号参数时,从此处开始直至结束的所有关键参数都将收集并汇集成一个名为"param"的字典
DocStrings
不得不说这个真是一个优秀的功能。让我们看看怎么回事!
# DocStrings 文档字符串
# 能够帮助你更好记录程序并让其更容易理解
# 只能是函数的第一行逻辑行
def print_max(x,y):
'''Print the maximum of two numbers.
The two values must be integers.'''
x=int(x)
y=int(y)
if x>y:
print(x,'is max')
else:
print(y,'is max')
print_max(1,4.5)
print(print_max.__doc__)
输出为
4 is max
Print the maximum of two numbers.
The two values must be integers.
首先要求是函数的第一行逻辑行的字符串开始。(也可以是模块或类)
利用'''三引号来规定
可以通过__doc__
函数来获取文档字符串
通过这种方式,当我们引用别人的包,别人的库时,如果不清楚函数的使用,可以通过提供者自己写的文档字符串,快速查看说明使用。
这样真的太太太方便了!!
模块
python的模块真的太多太多,太方便了。什么什么爬虫,数据分析,可视化,机器学习用python语言学习很方便,就是因为python的模块化,让我们其他用户可以互相引用。
而且竟然还可以使用C语言来撰写Python模块,在编译后,可以通过标准Python解释器在自己的项目中使用它
模块的种类
- 内置模块
- 第三方模块
- 自定义模块
模块的引用
import 模块名
from 模块名 import 自己定义的变量名
模块的__name__
每个模块都有自己的名称
而在当前运行的py的__name__默认为__main__
自然就引出我们平常开发时,调用函数时,得加多一句
if __name = '__main'
...
当我们写一个模块时,而且为了测试而调用模块下的函数。这时候这个模块有调用函数语句。
当我们在一个py文件要调用这个模块时,这时候我们的py文件就会自动执行该模块的调用语句。
那就很麻烦了,因为我们的目的仅仅是为了引入该模块的方法。
所以为了开发的方便性,我们每次开发项目时,遇到调用方法时,加多以上的if语句,这样可以不断方便被调用。
包
包其实就是很多个模块(py文件)组成的。
一个包含模块与一个特殊的__init__.py
文件的文件夹
数据结构
序列
序列的三种形态——列表、元组、字符串
列表
列表用于保存一系列有序项目的集合。类似于购买清单,每件物品都单独列一行,且按逗号隔开。
列表用方括号括起来,一旦创建了,可以添加、移除、搜索列表中的项目。
shoplist = ['banana','apple','water']
# 输出数量
print('I have',len(shoplist),'items to purchase')
# 直接列表输出
print('list output:',shoplist)
# 分别输出
print('There items are:',end=' ')
for i in shoplist:
print(i,end=' ')
# 添加项目-
print('\nI alse have to buy phone:')
shoplist.append('phone')
print('list output:',shoplist)
# 删除项目
print('I do not want to buy water')
del shoplist[2]
print('list output:',shoplist)
# 给项目排序
print('sort my list:')
shoplist.sort()
print('list output:',shoplist)
输出为
I have 3 items to purchase
list output: ['banana', 'apple', 'water']
There items are: banana apple water
I alse have to buy phone:
list output: ['banana', 'apple', 'water', 'phone']
I do not want to buy water
list output: ['banana', 'apple', 'phone']
sort my list:
list output: ['apple', 'banana', 'phone']
元组
用括号来定义,用于将多个对象保存到一起。
元组不能被编辑或更改。
相当于不变的列表。
字典
python用的比较多的数据类型。它就像JSON数组。
字典就是一个地址簿,知道姓名就可以找到其地址。分为keys
(唯一)与value
,一一对应。
data_mail = {
'chen':'chen@qq.com',
'lihua':'lihua@163.com',
'haige':'2016@m.scnu.edu.cn'
}
# 根据key值找value
print("haige's mail is",data_mail['haige'])
# 添加一对键/值
data_mail['xiaoming']='xiaoming@126.com'
if 'xiaoming' in data_mail:
print('存在xiaoming')
# 删除一对键/值
del data_mail['lihua']
if 'lihua' not in data_mail:
print('不存在lihua')
# 输出当前的字典总数量
print('numbers:',len(data_mail))
# 输出全部
for name,mail in data_mail.items():
print('name is {} , mail is {}'.format(name,mail))
输出为
haige's mail is 2016@m.scnu.edu.cn
存在xiaoming
不存在lihua
numbers: 3
name is chen , mail is chen@qq.com
name is haige , mail is 2016@m.scnu.edu.cn
name is xiaoming , mail is xiaoming@126.com
集合
集合是简单对象的无序集合,当集合中的项目存在比次序或出现次数重要时,我们就会用集合。
# 集合
bri= set(['china','USA','UK'])
print(bri)
print('china in bri is','china' in bri)
print('russia in bri is','russia' in bri)
bric = bri.copy()
print(bric)
bric.add('russia')
bric.remove('USA')
print('after doing something...\n',bric)
# 两个集合的并集
print(bri & bric)
输出为
{'china', 'UK', 'USA'}
china in bri is True
russia in bri is False
{'china', 'UK', 'USA'}
after doing something...
{'china', 'russia', 'UK'}
{'china', 'UK'}
还有其他的语法之类的,需要在实践中熟练掌握!
not end
-python学习笔记-