爬虫正传-江湖路远-0101-刀未佩妥,出门已是江湖

1.1. 刀未佩妥,出门已是江湖——第一个爬虫程序

创建自己的爬虫工作目录,我个人工作目录位置:

/home/damu/work_spider/spider_01/

创建第一个爬虫程序:demo01_hw.py

目标:采集新浪网首页数据

资源:url地址(http://www.sina.com.cn)

程序开发:编辑demo01_hw.py

# coding:utf-8

# 引入爬虫模块
import urllib2

# 访问服务器,获取服务器返回的响应数据
response = urllib2.urlopen(‘http://www.sina.com.cn’)

# 控制台打印展示数据
print(response.read())

运行程序:python demo01.py,控制台可以看到采集到的数据


采集的数据

小结:urllib2是Python2版本中专门用于进行网络数据请求访问的一个基础模块,包含了最基本的操作网络数据的各种类型和函数,如上述程序中访问新浪网并获取响应数据的函数urlopen就是一个非常核心重要的操作函数!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 背景 部门(东方IC、图虫)业务驱动,需要搜集大量图片资源,做数据分析,以及正版图片维权。前期主要用node做爬虫...
    字节跳动技术团队阅读 7,804评论 1 67
  • 目录清单 入门程序了解爬虫采集数据步骤 底层操作Request对象 请求头设置之UserAgent用户代理请求头设...
    创造new_world阅读 320评论 1 0
  • 1-1主要内容lscrapy概述及安装lscrapy基础操作n入门程序l核心APIl案例操作~10个爬虫程序[10...
    nine_9阅读 383评论 0 1
  • 1. 概述 本文主要介绍网络爬虫,采用的实现语言为Python,目的在于阐述网络爬虫的原理和实现,并且对目前常见的...
    Lemon_Home阅读 2,840评论 0 21
  • 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spide...
    随风化作雨阅读 1,145评论 0 0