学了很久的js,突然想学python来写写小爬虫什么的,下面是看廖雪峰,廖大大的教程做的一些笔记,主要还是一些注意事项什么的。尽量用js参照学习,这样快一点。发现python真的是超好用啊,超多语法糖的,简直厉害的不行。
r''表示默认不转义
大写表示常量
用u'’表示Unicode的字符
使用encode(’utf-8’)可以把u‘xxx’转为UTF-8编码,decode则相反。
python文件需要加注释
#!/usr/bin/env python
# -*- coding: utf-8 -*-
%s字符串代替,%d必须是个数字代替,%f浮点数,%x16进制整数
整数和浮点数还可以指定是否补0,或者小数点,将0123识别为8进制,只能在0-7之间,8,9报错
将0x识别为16进制,0-9,a-f
%的转义只能使用%
数组在python里面叫list
list.append(x)在末尾加
js中则是push()
list.pop(x)删除末尾元素,删除指定位置元素可以用pop(i),i是索引
js中删除末尾元素是一样的,但是无法根据索引删除,还可以用shift()删除头部元素
tuple 元组
和list类似,但是初始化之后不能修改
定义一个元素的tuple
t = (1),这样写只能输出t = 1,
t=(1,)
if的写法
if :
elif:
else:
if判断条件还可以简写,比如写:
ifx:
print‘True'
只要x是非零数值、非空字符串、非空list等,就判断为True,否则为False。
循环,只有两种
for in和while
range(5),生成5个0-4的list
raw_input会默认返回字符串,如果需要数字需要使用int(raw_input)转换一下
list占用空间小,浪费内存少
dict,字典相对于js中的对象,查找速度快,不会随着key的增加而增加,占用内存多,
a = {'b':1,’c':2}
b in a
True
或者用get()
a.get(‘b’)
1
a.get(‘d’,3)
3
a.get(‘d’)
报错
a.get(‘c’,3)还是return2
2
也可以使用pop(key)的形式删除
python字典类似js对象,指向一个内存地址而已,浅复制改变一个,另一个也会改变
set只是一组不重复的key,重复的set会自动过滤
可以通过add(key)的方法增加key
remove(key)可以删除
bool()转换成布尔值
pass可以作为占位符
先将程序跑起来
isinstance(key,(int等))可以做数据检查,类似js 的typeof
函数参数的调用,如果有默认值,一定要使用不变对象比如none,tuple等
,使用其它会导致可变,会出错
可变参数,自动组装成一个tuple
calc(*number):
sum = 0
for n in number:
sum = sum + n*n
return sum
写成这样就可以calc(1,2,3)
如果要调用list或者tuple怎么办呢?
可以用calc(*list)
关键字参数
而关键字参数允许你传入0个或任意个含参数名的参数,这些参数在函数内自动组装成一个dict
关键字参数可传可不传,传入就是自动组装成dict,如
person(‘li’,30,city=‘BJ’)
简单调用
kw = {'city': 'Beijing', 'job': 'Engineer'}
person('Jack', 24, **kw)
参数定义的顺序必须是:必选参数、默认参数、可变参数和关键字参数。
采用尾递归解决栈溢出的问题
deffact(n):
returnfact_iter(n, 1)
deffact_iter(num, product):
ifnum == 1:
returnproduct
returnfact_iter(num - 1, num * product)
遗憾的是,大多数编程语言没有针对尾递归做优化,Python解释器也没有做优化,所以,即使把上面的fact(n)函数改成尾递归方式,也会导致栈溢出。
切片 slice
L[0:3]从0号索引开始,直到取到3为止,但是不包括3
还支持倒数切片
L[-2:-1]从-2开始,但不包括-1
A = range(100)
A[::5]每5个数取一个
A[:]直接复制一个数组
字符串也可以看成一个list,也可以做切片
因为dict的存储不是按照list的方式顺序排列,所以,迭代出的结果顺序很可能不一样。
dict迭代的是key。如果要迭代value,可以用for value in d.itervalues(),如果要同时迭代key和value,可以用for k, v in d.iteritems()。
如何判断一个对象是可迭代对象呢?方法是通过collections模块的Iterable类型判断:
fromcollectionsimportIterable
isinstance('abc', Iterable)
如果真要获取下标怎么办?
可以使用内置的enumerate
列表生成器(贼鸡儿强大,)
[x*x for x in range(1,11)]就可以生成
[1,4,9,16,25,36,49,64,81,100]
后面还可以加筛选条件比如
[x*x for x in range(1,11) if x % 2 == 0]
筛选偶数
还可以两层循环!!生成全排列
[m + n for m in ‘ABC’ for n in ‘XYZ’]
['AX', 'AY', 'AZ', 'BX', 'BY', 'BZ', 'CX', 'CY', 'CZ’]
三层或者三层以上的就很少用到了
for循环其实可以同时使用两个甚至多个变量,比如dict的iteritems()可以同时迭代key和value:
d = {'x': 'A', 'y': 'B', 'z': 'C' }
[k + '=' + vfork, vind.iteritems()]
['y=B', 'x=A', 'z=C’]
可以使用lower()把所有字符串变成小写
python 生成器
可以一边循环一遍推算,减少占用空间,和list的区别就是小括号
g = (x * x for x in range(10))
打印里面的子元素可以使用next() 方法,每次调用都计算出下一个的值
当然,只使用next就太变态了,我们可以用for循环,用迭代的方法get
def fin(max):
n, a, b = 0, 1, 1
while n < max:
yield b
a, b = b, a+b
n = n +1
js
a(max) => {
let n = 0,a = 1, b = 1;
while (n < max) {
a = b
b = a + b
}
}
a, b=b, a+b
# 这种赋值,先计算等值 右边 那么 b=1 a+b=1
# 再赋值给a和b,那么 a=1, b=1
这就是定义generator的另一种方法。如果一个函数定义中包含yield关键字,
这里,最难理解的就是generator和函数的执行流程不一样。函数是顺序执行,遇到return语句或者最后一行函数语句就返回。而变成generator的函数,在每次调用next()的时候执行,遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行。
sorted()完成排序
高阶函数,可以接受函数作为参数的函数
首字母大写,其余全部小写
capitalize()
title() 标题首字大写
lower() 全转换成小写
upper() 全转换成大写
未完待续