2018-04-10粗鲁地爬取网页

import urllib2
response = urllib2.urlopen("http://taobao.com")
print response.read()

综上:三行代码就能简单地将淘宝网页爬取出来,这是根据url路由爬取的,比较粗暴
分析:
1.此代码需在python2环境下编写
2.urllib2是python2内置的一个系统工具库

urllib2功能 (5大功能)

1.获取web页面
2.在远程服务器上验证
3.额外数据提交,像一些:表单提交(GET和POST)
4.异常处理
5.非http协议通信(像ftp协议通信等等)

urllib2中urlopen方法的分析:

urlopen() 对象主要用于打开 括号里指定的网站 所对应的内容
urlopen中有三个参数:
1.url :指路径,必须填充的内容* 列如:http://www.taobao.com
2.data:指访问url时要传送的数据,默认为空
3.timeout:设置超时时间,一般为默认

对于response的处理

1.直接打印response

print response
#结果如下
#<addinfourl at 84866632L whose fp = <socket._fileobject object at 0x00000000050831B0>>

若直接打印,结果是url路由,是路径内容
所以需要借助 response 里的 read()方法 ,利用该方法,返回的是网页内容,所以是

print response.read()

*稍微小心地爬取数据 (request的分析)

request请求

import urllib2
request = urllib2.Request("http://www.taobao.com")
response = urllib2.urlopen(request)
print response.read()

综上:该代码是第一个代码的扩充,由只有响应(response),增加进去一个请求(request)
在代码的第二行,是一个请求对象,提出请求,响应请求,
**request对象是利用内存来存放我们客户对服务器端提出的请求的一段信息的相关内容

注:由于我们爬取数据时,不一定非要爬取整个网页,可以视情况爬取某一部分或者某些内容,此时可以通过提交请求得到。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1. 网页抓取 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来...
    rhlp阅读 1,012评论 0 0
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,199评论 19 139
  • 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫当我们在浏览器中输...
    Python程序媛阅读 307评论 0 0
  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 1,484评论 0 6
  • 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spide...
    随风化作雨阅读 1,150评论 0 0