Scrapy爬取第一个网站-伯乐在线

分析网站结构

爬取blog.jobbole.com

该网站提供了所有文章的URL


新建虚拟环境(指定虚拟环境)

mkvirtualenv --python=路径 虚拟环境名字


安装scrapy(使用豆瓣源)

workon 虚拟环境名,进入虚拟环境后

pip install -i https://pypi.douban.com/simple/ scrapy


新建Scrapy工程

scrapy startproject 项目名


利用模板新建爬虫文件

在项目目录下

scrapy genspider jobbole blog.jobbole.com

继承了scrapy.Spider类,start_urls是一个list,可以放入想爬取的所有的URL。

对start_urls 进行遍历,yield Request交给Scrapy的下载器,下载完之后,进入到parse函数中,有一个response对象。


自定义main文件调用命令行使pycharm可以调试

os.path.abspath(__file__)  # 得到当前文件的绝对路径

os.path.dirname(os.path.abspath(__file__))    # 得到当前文件的父目录

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","jobbole"]) # 启动jobbole爬虫

注意settings.py 的ROBOTSTXT_OBEY协议设置为False


出现错误:No module named 'win32api'

因为windows下缺少这个包,通过pip命令安装

pip install -i 豆瓣源 pypiwin32


通过xpath提取值

xpath使用路径表达式在xml和html中进行导航

xpath语法

1. article:选取所有article元素的所有子节点

2. /article:选取根元素article

3. article/a: 属于article的子元素的a元素

4. //div: 获取所有div

5. article//div: article下的所有div

6. //@class: 选取所有名为class的属性

/article/div[1]

/article/div[last()]

//div[@lang='eng'] 取lang属性为eng的div

/div/* div下的所有子节点

//* 选取所有元素

//div[@*] 选取所有带属性的元素

response.xpath('//*[@id="post-110287"]/div[1]/h1/text')  # xpath提取标题

response.xpath('//span[contains(@class,'vote-post-up')]') # 找一个span,他的class包含vote-post-up


通过CSS选择器提取值

response.css('.entry-header h1::text').extract()


关键代码

from scrapy.http import Request

from urllib import parse # python2 中是urlparse



Item


Scrapy 自动下载图片pipeline设置


no module PIL报错:

pip install pillow


将数据作为json文件保存



将数据插入数据库中

安装mysql驱动:pip install mysqlclient





©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容

  • ---爬取伯乐在线所有文章--- 1,scrapy安装及目录结构介绍 电脑的基础配置,需要的开发工具 基础虚拟环境...
    这辈子不发微博只发简书阅读 800评论 0 5
  • 今天爸爸妈妈说来家里玩,我很开心,放下手中的工作好好陪陪他们。 我们住在六楼的原因,父母已经很少来看我,上次来的时...
    朱泓默阅读 544评论 1 8
  • 【0316能量按钮】8280-Jane 推荐人:一连长-牛牛的Annie 每天两次,清晨和深夜的三十分钟到一个小时...
    遇柒ML阅读 73评论 0 0
  • 昨夜梦里失了方向,正心慌踌躇之际,恍惚前面有一个人在等我,我疾步向前,是爷爷,立刻释然,欣喜地随他牵了我离...
    悠悠莲阅读 562评论 5 8
  • 有人曾经对被评为全国十佳少年的孩子进行调查,发现这些孩子在阅读能力都高于普通孩子;也有人曾经对一些成功人士进行采访...
    gaosijiaoyu阅读 287评论 0 1