携程网站爬虫小结 2018-07-09

[TOC]

爬虫是什么

简单来说,从网站上按照预先编号的程序或者脚本自动获取信息的动作就叫做网络爬虫。相应的脚本就叫做爬虫脚本。

爬虫做什么

访问一个网页中,数据的流向是这样的
: 数据库 -> 服务器端 -> 客户终端
其中服务器端和客户终端通过HTTP协议进行交互。
而爬虫就是通过模拟客户终端发送HTTP协议中的请求,从而接受到服务器端的数据。

爬虫怎么做

目前较为流行的Python爬虫框架是scrapy,但是这里首先使用Requests库,不使用框架。
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库,即可以使用HTTP协议与服务端进行通信。

便于理解我们可以将爬虫的步骤抽象成:
“下载页面” -> “解析页面”(提取数据) -> “下储存数据”

Requests(“下载页面”)

引入Requests

import requests                                 #导入requests包
r=requests.get(url=‘https://www.baidu.com/‘)    
print(r.status_code)                            #查看请求返回的状态
#200                                            #结果

HTTP基本请求

最开始只用get请求,其他一概不管,具体推荐小戴的《图解HTTP》。
基本格式为:

r=requests.get(url)

,r是requests的相应对象。
带参数的url的get请求:(把参数封装到字典里面,然后通过requests的参数params拼接到url中)

content={'name':'myname01','pwd':'mypwd01'}
r=requests.get('http://www.baidu.com',params=content)
print (r.url)  
#http://www.baidu.com?name=myname01&pwd=mypwd01

注:这个url并不是有效的url只是为了显示基本的get请求。

HTTP响应(可先跳过)

当生成一个requests对象r时,可以对r的属性进行访问。
1.响应状态status_code
print(r.status_code)#200
2.响应内容text
print(r.text)#具体内容
其中r.text的类型为str,可以通过print (type(r.text))查看
3.响应内容json
print(r.text)#具体内容
通过json解码器转为dict类型
4.响应内容编码格式
print(r.encoding)#UTF-8
简单来说常见的有UTF-8、Unicode和gbk,decode成ASCII再encoding相应的编码。
r_ascii=r.decode(encoding='UTF-8')这里就是把UTF-8'编码的r转换成ascii,再根据需要用下一步编码。
当r.text出现乱码的时候就是解码方式出现错误,使用诸如r.encoding='ISO-8859-1'进行编码方式转换。
5.响应头r.headers
6.cookies r.cookies
以上内容大多为HTTP协议中的基础知识,定义和用法可在之前提到的那本书中找到。

Beautiful Soup(“解析页面”)

按照之前的requests请求ip.chinaz,然后解析出自己的ip地址。

import requests
from bs4 import BeautifulSoup
r = requests.get("http://ip.chinaz.com")
print(r.text) #输出的是<html>源码
r = requests.get("http://ip.chinaz.com")
soup = BeautifulSoup(r.text, "lxml")
print(soup.prettify())#输出的是好看的<html>源码
#这是soup已经是BeautifulSoup对象的一个实例了

Beautiful Soup本身自带遍历文档搜索,也可以使用CSS选择器和Xpath选择器,支持正则表达式。配合起来使用可以提取出页面中几乎所有的元素。
这里用正则提取ip地址
idm = re.findall("\d+", soup.text)

MongoDB(“保存数据”)

import pymongo
from pymongo import MongoClient
client = MongoClient('localhost',27017)
#client = MongoClient('mongodb://localhost:27017')

db = client.test
users = db.users #或者db = client['users']

插入文档

文档就是一行,集合就是一个表

一个insert_one()

user1 = {"name":"li8","age":8}
rs = users.insert_one(user1) print('one insert:{0}'.format(rs.inserted_id))

image

多个 insert_many()

user2 = {"name":"li9","age":9}
user3 = {"name":"li10","age":10}
user4 = {"name":"li11","age":11}
user5 = {"name":"li12","age":12}
new_result = users.insert_many([user2, user3, user4, user5]) print('Multiple users: {0}'.format(new_result.inserted_ids))

image

检索文档

一个find_one()

usertmp = users.find_one({"age":33}) print(usertmp)

image

多个find()

<pre style="margin: 0px; white-space: pre-wrap; word-wrap: break-word; padding: 0px; list-style-type: none; list-style-image: none; font-family: "Courier New" !important; font-size: 12px !important;">rs = users.find({'age': 33}) for tmp in rs: print(tmp)</pre>

image

高级查询

rs = users.find({'age':{"$lt":30}}).sort("name") for tmp in rs: print(tmp)

image

统计数量

print(users.count())

加索引

from pymongo import ASCENDING, DESCENDING print(users.create_index([("age", DESCENDING), ("name", ASCENDING)]))

数据导出

mongoexport -d test -c users --csv -f name,age -o e:\python\users.csv</pre>

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,443评论 0 13
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,594评论 18 139
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,674评论 6 28
  • 演员即使在最深的痛苦中,也不会最终停止考虑他的角色给人的印象和总体戏剧效果,假如甚至在他孩子的葬礼上,他...
    一条鱼__阅读 182评论 1 0
  • 作者:邓国豪 指导老师:刘艳 袁浩 郑鹏 心:题目为“战狼2”当然得有一个战狼的标志啦!所以我画了一个大大的“战狼...
    战神D阅读 454评论 1 2