Python爬虫学习-基础爬取

编译环境:python v3.5.0, mac osx 10.11.4
第三方库:针对网页解析,python有丰富的第三方库如:

BeautifulSoup, urllib, requests etc.
可以通过import来引入指定第三方库,通过from lib import function导入第三方库中的指定函数。如:
import requests, urllib.request, time, os from bs4 import BeautifulSoup # 导入需要用到的第三方库

对网页进行解析:BeautifulSoup & url lib

url = 'https://www.ncbi.nlm.nih.gov/core/alerts/alerts.js_=1462105646975' wb_dt=requests.get(url) soup=BeautifulSoup(wb_dt.text,'lxml')
上述代码可以解析指定url中的HTML, 通过requests中的get方式获得。
wb_dt.text可以获得HTML的纯文本文件。
BeautifulSoup(wb_dt.text,'lxml')则能对传入的纯文本文件采用lxml库进行解析。

筛选需要的信息:soup.select('selector')


可以通过chrome浏览器中的检查查询指定元素的位置,复制selector到
soup.select('selector')

这一步骤主要是为了筛选所选元素特殊的位置,selector只要能指定到所需信息的位置即可。

动态网页解析

当我们需要爬取动态网页大量页面信息时,我们可以从不断response为HTML的headers中找寻规律。如图所示,我们发现其连续加载其实是在返回时不断通过request中url的改变生成。


实战源代码 1 爬取霉霉照片


其中导入的os模块可以判断目录是否存在以及新建目录。
os.makedir(path)os.makedirs(path)的区别在于若父级目录不存在,则os.makedir(path)会报错,而os.makedirs(path)则会连同父级目录一起创建
os.path.exists(path)则可以检查目录是否存在

总结 1

1、第三方库可以良好的解析我们需要爬取的网页
2、通过刷新发现,观察response可以发现request规律,从而抓取静态网页
3、针对具有反爬虫的网页,可以利用time库中的
time.sleep(seconds)来降低访问频率。加入header和proxies也可以防止针对ip的反爬取。
4、常用user agent https://blog.phpgao.com/user_agent_collection.html

实战源代码 2 爬取一页商品数据(初识API)

BeautifulSoup文档
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
利用正则表达式


**筛选出选定区域的字符串.strings **
去除字符串中的大片空格区域.stripped_strings
整体代码
####总结 2

  • 观察推广和转转href与正常商品信息之间的差别,可以通过
    soup.select('a[href^="http://bj.58.com/"]')
  • 发现返回值不对时,值可能由js,node.js等生成
    打印soup 搜索变量名再从network文件凭经验中找寻

    主要看response返回的值为文本的文件
    确定目标后看url和headers,遇到反爬将cookies等全部写入headers中逐个尝试,此次实践,request中需要加referee
    此次找寻流程:
    从按前面提到的方法,网页中检查浏览量。

    发现soup返回值不对,查询soup值发现所含值为0。
    推测其值可能由js或者node.js控制,重新加载页面查询network中的js文件,查看返回值为文本的文件。
    找到目标文件后,查看其headers。
    根据headers编译探索request请求(针对反爬)

    All source code can be downloaded at GitHub:
    https://github.com/jacobkam/WebCrawlerLearning.git
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容