《Python爬虫零基础入门》课程笔记

一、Python编程环境配置

之前在简书写过一篇安装anacoda的分享:https://www.jianshu.com/p/a512f3c5bca0


二、Python基本语法

1.字符串(string)

输入:可用英文的单引号或双引号,带换行符的多行字符串也可用三重引号;如v=’Hello World’;

访问值:可用方括号截取字符串,如print(var[0])截取的就是字符串的第一个字符;

修改:已存在的字符串本身不能修改,但是可以通过赋值改变;如a=’1’   b=a.replace(‘1’,’2’)  即把1换成2;

将对象转为字符串:str函数实现,如a=1   s=str(a);

当做序列类型处理:如s=’python’   list(s)   结果[‘p’,’y’,’t’,’h’,’o’,’n’]

2.元组(tuple)

元组是一种一维的、定长的、不可变的Python对象序列;

输入:在括号中添加元素,并用逗号隔开,如t=(1,2,3,4,5);如果元组只包含一个元素要在元素后加逗号,t=(50,);

访问元组:用下标索引来访问元组中的值,print(tup1[1:5]);

修改元组:元素值不能修改,但可以进行组合tup3=tup1+tup2    print(tup3) ;

元组运算符:计算元素个数len((1,2,3))  结果3;复制(‘Hi!’,)*4  结果(‘Hi!’, ‘Hi!’, ‘Hi!’, ‘Hi!’);

判断是否存在3 in (1,2,3)等;

元组截取:读取元素中第三个元素L[3];反向读取,读取倒数第二个元素L[-2];从第二个元素开始一直截取到最后L[1:];

内置函数:len(tuple);max(tuple);min(tuple);

3.列表(list)

列表可变长,可对其内容进行修改;

输入:可通过方括号[],或者list函数进行定义;如a=[2,3,4];b=list(tup);修改列表中的内容list[1]=’e’,即把第二个内容换成了’e’;

访问列表:使用下标索引访问,或用方括号截取字符;

更新列表:如list[2]=100,即将列表中第三个元素更新为100;

删除元素:如del list[2],即删除列表中第三个元素;

判断元素是否存在:如2 in a,标识在列表a中是否存在元素2,如果存在则输出True;

列表的截取和元组类似;

4.字典(dict)

字典是一种可变且可存储任意类型对象;

输入:字典中每个键值对用冒号分隔,每个对之间用逗号分隔,整个字典包括在花括号中({}),

D={‘key1’:’value1’,’key2’:’value2’},如dict={‘alice’:’12’,’beth’:’91’,’cecil’:’32’}

键是唯一的,值可变可取任何数据类型;

访问字典:把相应的键放入方括弧中,如print(dict[‘alice’])   结果为12;如果字典中没有键的访问数据,则会输出错误;

修改字典:更新字典dict[‘alice’]=51   则将12更新为51;

删除字典:del可删元素也可这个字典删除(删除后字典不存在),clear可清空字典(清空后字典还存在),如del dict[‘alice’]   #删除键’alice’;dict.clear()  #清空字典;del dict  #删除字典;

5.条件语句

If语句:

If……elif……else

每个条件后面使用冒号,表示接下来是满足条件后要执行的语句块;

6.循环语句

While循环:只要条件满足就不断循环,条件不满足时退出循环;

For……in循环:把每个元素带入变量中,依次把list或tuple中的每个元素迭代出来;


三、Requests+Xpath

爬虫:又称网页蜘蛛,是一种程序或脚本,能够按照一定的规则自动获取网页信息。

爬虫基本原理:

1.挑选种子URL;

2.将这些URL放入待抓取的URL队列;

3.取出待抓取的URL,下载并存储进已下载网页库中;此外,将这些URL放入待抓取URL队列,进入下一循环;

4.分析已抓取队列中的URL,并且将URL放入待抓取URL队列,从而进入下一循环;

爬虫基本流程:下载网页-解析页面-获取并存储内容;

爬虫的包:

Python中爬虫相关的包很多,比如Urllib、requests、bs4等,requests+xpath是其中比较简单容易上手的一种;

导入库:import+库名;(import  requests用来下载网页)

调用库中的某种方法:from+库名+import+方法名;(from lxml import etree用来解析网页)

获取元素的Xpath信息并获得文本:file=s.xpath(‘元素的Xpath信息/text()’)

Xpath信息的获取:

1.定位目标元素:在网页上右键-检查;

2.光标移到对应元素时,按下快捷键“shift+ctrl+c”;

3.然后右键-copy-copyXpath;


四、实例——爬取豆瓣图书top250

1.先爬一个书名试试水;

2.再爬一下主演、片长等信息试试;

3.最后在top250的页面中爬下所有书的名字、评分、和链接;

记得加入一个sleep()的函数,不然爬得太快ID容易被封(之前脑袋短路把循环range(10)改为了range(250),又没有加sleep函数,被豆瓣封了)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容

  • 一、python 变量和数据类型 1.整数 Python可以处理任意大小的整数,当然包括负整数,在Python程序...
    绩重KF阅读 1,677评论 0 1
  • 最近在慕课网学习廖雪峰老师的Python进阶课程,做笔记总结一下重点。 基本变量及其类型 变量 在Python中,...
    victorsungo阅读 1,674评论 0 5
  • 〇、前言 本文共108张图,流量党请慎重! 历时1个半月,我把自己学习Python基础知识的框架详细梳理了一遍。 ...
    Raxxie阅读 18,941评论 17 410
  • 一直固执的以为爱不会那么轻易就过期,可是各种现实的问题一次次惊醒我们,然而在感情的世界里,我们却在抱有幻想,不停挣...
    西啊西呗阅读 1,080评论 0 3