Python爬虫进阶-curl的使用

本笔记是爬虫进阶的第一篇,关于本系列笔记的介绍,请看Python爬虫进阶-前言

本篇也是爬虫三大环节:数据获取、数据解析、数据存储中的第一个环节数据获取的首篇,主要介绍curl。了解curl,有助于我们快速查看一些站点信息。

curl 是一般linux发行版中都带有的小工具,利用这个工具可以很方便的发送网络请求,可以使用这个工具来查看某个页面相应的HTTP头信息。如果使用过php,应该也对curl不陌生。

在Windows系统中一样可以使用这个工具,在https://curl.haxx.se/download.html 选择不带SSL的版本(推荐),下载完成后解压到windows/system32目录。参考下载地址如下:http://www.paehl.com/open_source/?download=curl_754_0.zip

查看http头信息 curl -I www.zhihu.com

注意参数时大写的 I
<pre>
C:\Users\yoo>curl -I www.zhihu.com
HTTP/1.1 301 Moved Permanently
Date: Thu, 20 Jul 2017 02:59:59 GMT
Content-Type: text/html
Content-Length: 178
Connection: keep-alive
Set-Cookie: aliyungf_tc=AQAAALkuSRFY/wEApMzf3br6Jf4nDnPk; Path=/; HttpOnly
Location: https://www.zhihu.com/
X-Req-ID: 1AEFFD4559701CAE
Server: ZWS
Vary: Accept-Encoding
</pre>

查看http头及源码 curl -i www.zhihu.com

注意参数时小写的 i
<pre>
C:\Users\yoo>curl -i www.zhihu.com
HTTP/1.1 301 Moved Permanently
Date: Thu, 20 Jul 2017 02:57:49 GMT
Content-Type: text/html
Content-Length: 178
Connection: keep-alive
Set-Cookie: aliyungf_tc=AQAAAI2NYj6jAwQApMzf3eIyR9eYkYXw; Path=/; HttpOnly
Location: https://www.zhihu.com/
X-Req-ID: 1A752B2C59701C25
Server: ZWS
Vary: Accept-Encoding

<html>
<head><title>301 Moved Permanently</title></head>
<body bgcolor="white">
<center><h1>301 Moved Permanently</h1></center>


<center>nginx</center>
</body>
</html>
</pre>

curl更多用法,可以参考:http://www.ruanyifeng.com/blog/2011/09/curl.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,432评论 25 708
  • 一个个粉嫩嫩的手工皂 甚是可爱 像是美味的奶油蛋糕 又像是美味的果冻 好像吃一口哦! 还有诱人的口红哦! 因为是晚...
    安晴的小窝阅读 334评论 0 0
  • 寥落清秋似往年,红尘羁旅舞翩翩。 歌声只道神仙好,四壁图书伴我眠。 追云逐月花间客,怀金悼玉柳梦边。 一曲梵音轻入...
    d03e056874dc阅读 236评论 0 0
  • 前言:本文参考博客denny402要运行caffe,需要先创建一个模型(model),如比较常用的Lenet,Al...
    geaus阅读 2,066评论 0 1
  • 2016年10月25日下午14时,小米在北京大学体育馆内举行了2016年秋季发布会。原本以为本次发布会的主角是小米...
    伪文君阅读 3,021评论 12 12