[TOC]
爬虫是什么
简单来说,从网站上按照预先编号的程序或者脚本自动获取信息的动作就叫做网络爬虫。相应的脚本就叫做爬虫脚本。
爬虫做什么
访问一个网页中,数据的流向是这样的
: 数据库 -> 服务器端 -> 客户终端
其中服务器端和客户终端通过HTTP协议进行交互。
而爬虫就是通过模拟客户终端发送HTTP协议中的请求,从而接受到服务器端的数据。
爬虫怎么做
目前较为流行的Python爬虫框架是scrapy,但是这里首先使用Requests库,不使用框架。
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库,即可以使用HTTP协议与服务端进行通信。
便于理解我们可以将爬虫的步骤抽象成:
“下载页面” -> “解析页面”(提取数据) -> “下储存数据”
Requests(“下载页面”)
引入Requests
import requests #导入requests包
r=requests.get(url=‘https://www.baidu.com/‘)
print(r.status_code) #查看请求返回的状态
#200 #结果
HTTP基本请求
最开始只用get请求,其他一概不管,具体推荐小戴的《图解HTTP》。
基本格式为:
r=requests.get(url)
,r是requests的相应对象。
带参数的url的get请求:(把参数封装到字典里面,然后通过requests的参数params拼接到url中)
content={'name':'myname01','pwd':'mypwd01'}
r=requests.get('http://www.baidu.com',params=content)
print (r.url)
#http://www.baidu.com?name=myname01&pwd=mypwd01
注:这个url并不是有效的url只是为了显示基本的get请求。
HTTP响应(可先跳过)
当生成一个requests对象r时,可以对r的属性进行访问。
1.响应状态status_code
print(r.status_code)
#200
2.响应内容text
print(r.text)
#具体内容
其中r.text的类型为str,可以通过print (type(r.text))
查看
3.响应内容json
print(r.text)
#具体内容
通过json解码器转为dict类型
4.响应内容编码格式
print(r.encoding)
#UTF-8
简单来说常见的有UTF-8、Unicode和gbk,decode成ASCII再encoding相应的编码。
r_ascii=r.decode(encoding='UTF-8')
这里就是把UTF-8'编码的r转换成ascii,再根据需要用下一步编码。
当r.text出现乱码的时候就是解码方式出现错误,使用诸如r.encoding='ISO-8859-1'
进行编码方式转换。
5.响应头r.headers
6.cookies r.cookies
以上内容大多为HTTP协议中的基础知识,定义和用法可在之前提到的那本书中找到。
Beautiful Soup(“解析页面”)
按照之前的requests请求ip.chinaz,然后解析出自己的ip地址。
import requests
from bs4 import BeautifulSoup
r = requests.get("http://ip.chinaz.com")
print(r.text) #输出的是<html>源码
r = requests.get("http://ip.chinaz.com")
soup = BeautifulSoup(r.text, "lxml")
print(soup.prettify())#输出的是好看的<html>源码
#这是soup已经是BeautifulSoup对象的一个实例了
Beautiful Soup本身自带遍历文档搜索,也可以使用CSS选择器和Xpath选择器,支持正则表达式。配合起来使用可以提取出页面中几乎所有的元素。
这里用正则提取ip地址
idm = re.findall("\d+", soup.text)
MongoDB(“保存数据”)
import pymongo
from pymongo import MongoClient
client = MongoClient('localhost',27017)
#client = MongoClient('mongodb://localhost:27017')
db = client.test
users = db.users #或者db = client['users']
插入文档
文档就是一行,集合就是一个表
一个insert_one()
user1 = {"name":"li8","age":8}
rs = users.insert_one(user1) print('one insert:{0}'.format(rs.inserted_id))
多个 insert_many()
user2 = {"name":"li9","age":9}
user3 = {"name":"li10","age":10}
user4 = {"name":"li11","age":11}
user5 = {"name":"li12","age":12}
new_result = users.insert_many([user2, user3, user4, user5]) print('Multiple users: {0}'.format(new_result.inserted_ids))
检索文档
一个find_one()
usertmp = users.find_one({"age":33}) print(usertmp)
多个find()
<pre style="margin: 0px; white-space: pre-wrap; word-wrap: break-word; padding: 0px; list-style-type: none; list-style-image: none; font-family: "Courier New" !important; font-size: 12px !important;">rs = users.find({'age': 33}) for tmp in rs: print(tmp)</pre>
高级查询
rs = users.find({'age':{"$lt":30}}).sort("name") for tmp in rs: print(tmp)
统计数量
print(users.count())
加索引
from pymongo import ASCENDING, DESCENDING print(users.create_index([("age", DESCENDING), ("name", ASCENDING)]))
数据导出
mongoexport -d test -c users --csv -f name,age -o e:\python\users.csv</pre>