爬虫学习笔记

用requests简单爬虫

# 需求:获取《豆瓣电影TOP250的内容》
# https://movie.douban.com/top250?start=0
# 获取电影名称、上映日期、评分;写入文本文件
# 引用库
import requests
# headers用于requests模拟浏览器
user_agent = ''
header = {'user-agent':user_agent}
# 定义爬取的url
myurl = 'https://movie.douban.com/top250'
#requests.get方法,url传递给requests库
#headers可以使requests库模拟浏览器
response = requests.get(myurl,headers = header)
print(response.text)
# 返回网页的状态码,200代表正常返回
print(f'返回码时:{response.status_code}')

使用BeautifulSoup解析爬取的网页

# 引用库
import requests
# bs4为包,BeautifulSoup为库
from bs4 import BeautifulSoup as bs
# headers用于requests模拟浏览器
user_agent = ''
header = {'user-agent':user_agent}
# 定义爬取的url
myurl = 'https://movie.douban.com/top250'
# requests.get方法,url传递给requests库
# headers可以使requests库模拟浏览器
response = requests.get(myurl,headers = header)
# html为一种解析方式,搜索网页
bs_info = bs(response.text, 'html.parser')

# Python 中使用 for in 形式循环,Python使用缩进来做语句块分隔
# find_all为模拟鼠标动作,加入过滤条件
for tags in bs_info.find_all('div',attrs={'class': 'hd'}):
    for atag in tags.find_all('a',):
        # 获取所有链接
        print(atag.get('href'))
        # 获取电影名字
        print(atag.find('span',).text)

Scrapy框架结构解析

引擎(Engine)

“大脑”,指挥其它组件的协同工作,高效处理并行的请求。

无需修改,框架已写好。

调度器(Scheduler)

调度器接收引擎发过来的请求,按照先后顺序,压入队列中,同时去除重复的请求。

无需修改,框架已写好。

下载器(Downloader)

相当于requests,下载器用于下载网页内容,并返回给爬虫。

无需修改,框架已写好。

爬虫(Spiders)

相当于BeautifulSoup和lxml,用于从特定的网页中提取需要的信息,即所谓的实体(Item);用户也可以从中提取链接,让Scrapy继续抓取下一个页面。

需要修改。

项目管道(Item Piplines)

项目管道负责处理爬虫从网页中抽取的实体,存储数据(csv/txt/MySQL);主要的功能是持久化实体、验证实体的有效性、清除不需要的信息等。

需要修改

下载中间件(Downloader Middlewares)

获取网页-个性化部分

一般不用。

爬虫中间件(Spider Middlewares)

获取网页-个性化部分

一般不用。

项目流程

引擎——爬虫——调度器——下载中间件——下载器——引擎——爬虫中间件——爬虫——调度器(循环)/项目管道(存储数据)

Scrapy爬虫目录结构解析

Scrapy目录结构

  1. spiders目录——实现爬虫的Python文件
  2. settings.py——项目的设置文件
  3. scrapy.cfg——项目的配置文件
  4. items.py——定义所爬取记录的数据结构
  5. movies.py——编写爬虫逻辑
  6. piplines.py——设置保持位置

步骤-mac终端执行

  1. pip install scrapy
    安装scrapy
  2. scrapy startproject spidersspiders为任意项目名称
  3. cd spiders
  4. ls

    显示
    scrapy.cfg spiders
  5. cd spiders
  6. ls

    显示
    init.py pycache items.py middlewares.py pipelines.py settings.py spiders
  7. ls spiders/

    显示
    init.py pycache movies.py
  8. scrapy genspider movies douban.com

    显示
    Created spider 'movies' using template 'basic' in module:
    spiders.spiders.movies
  9. ls

    显示
    init.py pycache items.py middlewares.py pipelines.py settings.py spiders
  10. ls spiders/

    显示
    init.py pycache movies.py

    movies.py为我们刚刚使用genspider方式来创建出来的爬虫

  1. cd ../返回至spiders
  2. ls

    显示
    scrapy.cfg spiders
  3. cat scrapy.cfg

    显示
[settings]
default = spiders.settings
[deploy]
#url = http://localhost:6800/
project = spiders
  1. cd spiders

    显示
    init.py pycache items.py middlewares.py pipelines.py settings.py spiders
  2. vim settings.py
    默认的情况下保持不动,当出现异常时进行修改;
    vim—— xx 打开xx文件,如果没有就创建xx文件,且跳到编辑页面
  3. :q退出当前
  4. ls

    显示
    init.py pycache items.py middlewares.py pipelines.py settings.py spiders
  5. vim spiders

    显示
    init.py pycache movies.py
  6. vim movies.py打开movies.py设置文件
import scrapy
class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['douban.com']
    start_urls = ['http://douban.com/']
    def parse(self, response):
        pass

allowed_domains = ['douban.com']限制爬取域名范围在douban.com
start_urls = ['http://douban.com/']第一次请求的url,因为Scrapy运用了twisted的异步请求,只有先去发起一次请求才能启动;另外由于Scrapy在底层写好了一些http的头部信息。

  1. :q退出

yield语句

yield 和 return 语句

return语句:一次性返回所有的值

yield语句:根据需要,一个值一个值的返回

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,367评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,959评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,750评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,226评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,252评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,975评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,592评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,497评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,027评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,147评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,274评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,953评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,623评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,143评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,260评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,607评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,271评论 2 358

推荐阅读更多精彩内容

  • 第一步,创建 scrapy 工程: 命令:scrapy startproject mySpiderLearn 第二...
    cfcd4f7b4cf5阅读 536评论 0 0
  • 大师兄的Python学习笔记(二十八): 爬虫(九)大师兄的Python学习笔记(三十): 爬虫(十一) 十一、S...
    superkmi阅读 907评论 0 4
  • 这是我自己在学习python 3爬虫时的小笔记,做备忘用,难免会有一些错误和疏漏,望指正~~~Python 3 爬...
    Veniendeavor阅读 6,725评论 6 15
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,524评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 1,813评论 4 1