一个不那么典型的Python爬虫

PYTHON爬虫入门&视频网站BILIBILI用户爬取爬虫详解

前言

Python使用版本:2.7

得到数据挖掘的课题后,我接触到了Python,也发现了在同样的命题下,使用的工具不同,方法不同,即使是得到了同样的结果,耗费的人力时间成本也不尽相同。
这引起了我对典型爬虫方式的便捷程度(主要是程序员角度)的一点思考。

典型?

就目前学习到的知识来看,不使用Scrapy等爬虫框架的情况下,Python爬虫可以说是由以下几个功能组合起来的:

模拟浏览器发送请求(GET/POST)

获取方式分类

GET方法
范例采用requests扩展库的get函数

返回页面内容:


# -*- coding:utf-8 -*-
import requests

url = 'http://space.bilibili.com/218345/#!/'
response = requests.get(url).content
print response

有时GET方法也有除网址以外的传入参数:Query String Parameters

# -*- coding:utf-8 -*-
import requests
import datetime, time

def datetimeTrans(d):
    currentMachTime = lambda: int(round(time.time() * 1000))
    return currentMachTime()

url = 'http://search.bilibiili.com/all'

payload = {
    'keyword': 'THE GIRL WITH THE'
}

result = requests.get(url, params = payload).content    #inject query string parameters
print result

POST方法
范例使用requests.post()

POST方法常用于请求模拟登陆,需传入参数“Form Data”

# -*- coding:utf-8 -*-
import requests
import time, datetime

def datetimeTrans(d):
        currentMachTime = lambda: int(round(time.time() * 1000))
        return currentMachTime()


url = 'http://space.bilibili.com/ajax/member/GetInfo?mid=218345'

headers = {
        #pass
}

payload = {
        'mid': 218345
        '_': datetimeTrans(datetime.datetime.now())
}

print url
response = requests.post(url, headers = headers, data = payload).content   #inject form data
print response

GET&POST对比

GET相较于POST的优势
(引用知乎上罗志宇的回答)

- 请求中的URL可以被手动输入
- 请求中的URL可以被存在书签里,或者历史里,或者快速拨号里面,或者分享给别人。
- 请求中的URL是可以被搜索引擎收录的。
- 带云压缩的浏览器,比如Opera mini/Turbo 2, 只有GET才能在服务器端被预取的。
- 请求中的URL可以被缓存。

POST相较于GET方法的特性

-POST不像GET的URL会显示在浏览器历史和WEB服务器日志中,相较更为安全
-在准则中,不可重复的操作(例如创建条目或修改一条记录),多是由POST请求完成的,因为POST不能被缓存,所以浏览器不会多次递交。
(关于这条我们举个小例子。假如你做了一个BLOG,并设计了一个URL来删除你的BLOG上的所有帖子…那么画面就会变得很美:一个搜索引擎的爬虫爬过,很快你就知道什么叫不作死就不会死了。)

可见,POST的GET的运用是需要分场合的。

结合网页实例判别请求类型

由于项目是关于视频网站bilibili的,网页实例也来自bilibili。
(使用chrome浏览器自带的检查工具获取network信息)

GET(myinfo)
需cookie和传入参数

myinfo.png

POST(getinfo)
Form Data为机器时间与用户ID

getinfo.png

元素定位及资源筛选

光是获得了网页内容,不加以处理将占用大量的空间。所以在进行存储之前,需要定位信息,进行信息的过滤。
这个时候就可以选用Xpath或者BeautifulSoup对网页内容(HTML/XML)内容进行分析。

Xpath
从dom网址寻找网址信息及标题信息

# -*- coding:utf-8 -*-
from lxml import etree

dom = etree.HTML(all_text)  #all_text is a string object
url_list = dom.Xpath('//table[@class="list"]/tr[@class="even" or "odd"]/td/span/a[1]/@href') #find links  (@href)
title = dom.Xpath('//*[@id="content"]/div[3]/h1/text()') #find titles (text())

print title
print url_list

BeautifulSoup
BeatufulSoup实例可以通过标签等对象直接进行结点资料的访问,与数据储存的对接口非常的好
prettify() 结构简明化函数,实例.标签可直接访问结点

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup as Soup

url = 'http://space.bilibili.com/218345/#!/'
response = requests.get(url).content
soup = Soup(response)

print soup.prettify()
print soup.title.string
print soup.a
print soup.h1

数据保存

  • 不再赘述文件读写保存方式,可查询官方文档或中文教程

MySQL数据库
创建MySQL数据库,创建对应数据的表

(指令在cmd或terminal的mysql界面中输入)

CRATE TABLE bilibili;
USE bilibili;
CREATE TABLE `test` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `mid` varchar(11) DEFAULT NULL,
  `name` varchar(45) DEFAULT NULL,
  `sex` varchar(11) DEFAULT NULL,
  `face` varchar(200) DEFAULT NULL,
  `regtime` varchar(45) DEFAULT NULL,
  `spacesta` int(11) DEFAULT NULL,
  `birthday` varchar(45) DEFAULT NULL,
  `place` varchar(45) DEFAULT NULL,
  `attention` int(11) DEFAULT NULL,
  `sign` varchar(300) DEFAULT NULL,
  `attentions` text,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

多线程爬取

map()使得并行代码可以快速运行,而支持map()函数并行的库有multiprocessing.dummy和multiprocessing。
其中dummy库的多进程模块采用的是线程(在Windows中,进行CPU分配是以线程为单位的,一个进程可能由多个线程组成),这能够使得数据轻松的在这两个之间进行前进和回跃,特别是对于探索性程序来说十分有用。

# -*- coding:utf-8 -*-
from multiprocessing.dummy import Pool as ThreadPool
def getsource(url):
        pass
pool = ThreadPool(1)
try:
        results = pool.map(getsource, url)
except Exception:
        pass

服务器代理

我选择的阿里云服务器在进行爬虫代理爬取的时候,经历了三个环节:

  • 服务器配置(根据服务器官方文档进行)
  • 爬虫运行环境设置(主要是Mysql及Python扩展库配置)
  • 远程连接(windows自带的mstsc进程)

关于这些环节,网上都能找到相应教程

非典型又是什么?

到以上为止,一个基础的Python爬虫的常规构造过程包括但绝不限于上文提到的内容。
还有正则表达式,去重判断,或者是发送包的Form Data需要加密,构造爬虫的时候不仅可以选择基于 HttpClient的爬虫,还可以选择内置于浏览器引擎的爬虫(PhantomJS,Selenium)等细节本文没有提到。但是由于文章的重点并不是典型的爬虫写法,所以点到即止。

如果就以上提到深入下去,可以说日常生活中绝大部分能够接触到的网页,都可以用上述提到的内容进行信息爬取。
但是如果我没有接下来提到的这个项目,记录的角度可能就不是现在这样的了。

所谓非典型

首先要解决一个问题:为什么我叫这个项目为非典型爬虫。
这里主要介绍此类非典型爬虫适用的网页特性,以及具体的代码实现方法。

网页对象特性

像是上文中提到过的通过模拟浏览器发送请求,在获取信息后使用结点(BeautifulSoup或者Xpath及正则表达式)进行所需数据段的访问,可以说是一种万能的获取数据的方法。
但是就像下面关于BILIBILI用户页面的图片中,network-Headers里显示的一样,用户的信息是单独发过来的json文件(Response Headers: Content-Type: application/json; charset=utf-8)。对于json文件就存在着更加便捷的访问方式。
在了解了网页内容的基础上进行这样的操作,就仿佛把获取信息和信息筛选这两个步骤合并了,在处理数据上无疑轻松了不少。


headers.png

Myinfo请求返回数据preview:

myinfo_preview.png

Getinfo返回数据preview:

getinfo_preview.png

从对比可以发现,MyInfo中和GetInfo两个请求返回的都是json内容,区别在于MyInfo获取方式为GET,GetInfo获取方式为POST。
Json内容的返回包使后续处理信息变得十分简便,只需要借用库函数json.loads()就可以实现对返回数据的提取,避免了分析网页相对结点提取信息的步骤。
而如果对GetInfo网站返回的json数据进行分析,可以发现返回包中已经包含其关注人的ID的list,对这个list的id进行遍历爬取,又可以获得一系列活跃用户的id,这样应该可以对特定大ip的用户人群进行用户类型统计。(有待完善)

attention_list.png

返回包处理&判重

JS文件处理

jsDict = json.loads(jsoncontent)
if jsDict['status'] == True:
        pass  #use the dict to take out message in the jsoncontent

判重

  • 数据直接存入数据库,并通过PRIMARY KEY(id)判断是否已存在于数据库。
  • 通过for i in range()语句,程序员自己定制爬取用户段
    在这两个判重条件下,去重变成了似乎不是那么重要的东西(仅限本项目

数据库重复信息显示:

try:
        pass  #codes of pushing the data into a table
except MySQLdb.Error, e:
print "Mysql_Error %d: %s" % (e.args[0], e.args[1]) # if is the same, print error message

总结

Python写就的典型爬虫基本可以应对常见的大部分网站,而此次介绍的非典型爬虫案例,则是根据个别网页特性进行针对方案写就的,在获取专门化的信息上提供了另外一种思路。
在想要得到的资料需要用一大串正则表达式才能够匹配到之时,如果资料的获取可以通过类似更加便捷的方式获取,这样的思路无疑会使代码功能得到简化。
但是鉴于并非所有的网站都用相同请求获得用户信息,真的必须使用正则的时候肯定也不少。在寻找快捷途径的之前,还是要求程序员要有扎实的基本功啊。(sign

参考项目/代码

Requests: HTTP for Humans
Bilibili用户信息
Bilibili模拟登陆
post 相比get 有很多优点,为什么现在的HTTP通信中大多数请求还是使用get
使用python+xpath获取下载链接
Beautiful Soup Documentation
用map函数来完成Python并行任务的简单示例(对于multiprocessing.dummy的应用)
Python: what are the differences between the threading and multiprocessing modules?
如何应对网站反爬虫策略?如何高效地爬大量数据?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容

  • GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富,涉及面非常广。awesome-p...
    若与阅读 18,636评论 4 418
  • 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是...
    腩啵兔子阅读 1,478评论 0 17
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,695评论 6 28
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,068评论 45 523
  • 一寸光阴一寸金,寸金难买寸光阴。光阴似箭,日月如梭,又是一年高考季。 有人说,没有经历过高考的人生是不...
    木易yyH阅读 640评论 0 0