Python爬虫|使用urllib库爬取百度新闻首页的标题信息

1 urllib爬虫库介绍

  • Python内置HTTP请求库,不需要额外安装
  • 官方链接:https://docs.python.org/3/library/urllib.html
  • 4个模块
    (1)urllib.request:可以⽤来发送request和获取request的结果
    (2)urllib.error:包含了urllib.request产⽣的异常
    (3)urllib.parse:⽤来解析和处理URL
    (4)urllib.robotparse:⽤来解析⻚⾯的robots.txt⽂件

2 实例演示

案例:爬取百度新闻⾸⻚的新闻标题信息,url地址:http://news.baidu.com/

具体实现步骤
1.导⼊urlib库和re正则
2.使⽤urllib.request.Request()创建request请求对象
3.使⽤urllib.request.urlopen执⾏信息爬取,并返回Response对象
4.使⽤read()读取信息,使⽤decode()执⾏解码
5.使⽤re正则解析结果
6.遍历输出结果信息

2.1代码实现

'''
案例:爬取百度新闻首页的新闻标题信息
url地址:http://news.baidu.com/
'''

# 1 导入库
from urllib import request
import re

# 2 准备url地址,创建请求对象
url = 'http://news.baidu.com/'
req = request.Request(url)

# 3 发送请求获取response
res = request.urlopen(req)

# 4 解析结果:从响应对象中读取信息并解码
html = res.read().decode('utf-8')
# print(html)
pat = '<a href="(.*?)" mon=".*?" target="_blank">(.*?)</a>'
dlist = re.findall(pat,html)
print(dlist)

# 5 存储/输出结果
for v in dlist:
    if v[1] != '#{title}':
        print(v[1]+":"+v[0])

2.2 利用正则表达式进行结果解析

正则表达式官方参考文档:https://docs.python.org/zh-cn/3/library/re.html

# 1 导入库
from urllib import request
import re

# 2 准备url地址,创建请求对象
url = 'http://news.baidu.com/'
req = request.Request(url)

# 3 发送请求获取response
res = request.urlopen(req)

# 4 解析结果:从响应对象中读取信息并解码
html = res.read().decode('utf-8')
print(html)
  • 对网页内容进行输出后查看爬取的内容
<li class="bold-item"><a href="http://baijiahao.baidu.com/s?id=1676551984169544562" target="_blank" mon="a=9">5G还没用上,4G却越来越慢了?</a></li>
<li><a href="http://baijiahao.baidu.com/s?id=1676519964597345236" target="_blank" mon="a=9">二线网约车集体反攻滴滴</a></li>
<li><a href="http://baijiahao.baidu.com/s?id=1676500046896479892" target="_blank" mon="a=9">微软三杰</a></li>
<li><a href="http://baijiahao.baidu.com/s?id=1676511390908527616" target="_blank" mon="a=9">京东方,落后者的宿命</a></li>
<li><a href="http://baijiahao.baidu.com/s?id=1676498875100894367" target="_blank" mon="a=9">为什么互联网公司纷纷收购电竞战队?</a></li>
  • 查看到新闻标题内容之后,书写正则表达式进行内容解析
pat = '<a href="(.*?)" mon=".*?" target="_blank">(.*?)</a>'

3 小结

  • 网络爬虫运行时序图


    image.png

    在正式爬取过程中,我们只需要关注URL管理器,解析器和应用,调度器和下载器在框架内部封装完成。

⽹络爬⾍使⽤的技术--数据抓取

  • 在爬⾍实现上,除了scrapy框架之外,python有许多与此相关的库可供使⽤。其中,在数据抓取⽅⾯包括: urllib(urllib3)、requests、mechanize、selenium、splinter;
  • 其中,urllib(urllib3)、requests、mechanize⽤来获取URL对应的原始响应内容;⽽selenium、splinter通过加载浏览器驱动,获取浏览器渲染之后的响应内容,模拟程度更⾼。
  • 考虑效率、当然能使⽤urllib(urllib3)、requests、mechanize等解决的尽量不⽤selenium、splinter,因为后者因需要加载浏览器⽽导致效率较低。
  • 对于数据抓取,涉及的过程主要是模拟浏览器向服务器发送构造好的http请求,常⻅类型有:get/post

⽹络爬⾍使⽤的技术--数据解析

  • 在数据解析⽅⾯,相应的库包括:lxml、beautifulsoup4、re、pyquery
  • 对于数据解析,主要是从响应⻚⾯⾥提取所需的数据,常⽤⽅法有:xpath路径表达式、CSS选择器、正则表达式等
  • 其中,xpath路径表达式、CSS选择器主要⽤于提取结构化的数据。⽽正则表达式主要⽤于提取⾮结构化的数据
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352