Python爬虫入门:以东方财富网为例

网络爬虫(Web Spider),根据网页地址爬取网页内容,从而获取各类数据,实现多种多样的功能。下面就以爬取东方财富网的数据为例,谈谈最简单的爬虫的实现。爬虫的核心有三个:请求、解析、存储。

环境配置

Python安装使用Anaconda包,包里已经包含了必须的requests模块

请求html页面

import requests
url = 'http://www.eastmoney.com/'
req = requests.get(url)
html = req.content

这样我们就把html网页的源代码下下来了,我们执行

print(html)

就能把网页显示出来


image1.PNG

此时,我们发现网页有乱码现象,这是编码的问题,这时我们指定网页的编码

req.encoding = req.apparent_encoding

就会发现网页显示恢复正常了


image2.PNG

当然,如果我们没有显示的需要,完全没必要指定网页的编码。

解析

获取网页源码后,我们可以对网页的源码进行解析,提取我们想要的信息。使用得较多的是BeautifulSoup模块。我们以提取东方财富网首页的消息为例,右键点击对应的元素,选择检查,然后我们就可以看到网页的源代码了。

image3.PNG

我们发现对应的元素都被<div class="nlist">选定,相应的我们可以把相应的代码筛选出来。

from bs4 import BeautifulSoup
bf = BeautifulSoup(html, 'lxml')
nmlist = bf.find_all(class_ = 'nlist')

发现得到的是一个list文件,每个list包含若干条消息


image4.PNG

我们发现消息的标题和链接被<a>给限定出来,于是我们同样可以用find_all方法获取,以list[0]的消息提取为例,而链接用get方法得到。

a = nlist.find_all('a')
for each in a:
    print(each.string, each.get('href'))

我们看看得到了什么结果


image5.PNG

可以看到标题和链接成功提取出来了。

存储

一般采用csv文件进行存储,可以使用excel等软件打开

date = open('test.csv','w')
writer = csv.writer(date)
date.close()

这样就保存到csv文件了。

全部的代码如下所示

import requests
from bs4 import BeautifulSoup
import csv

date = open('test.csv','w')
writer = csv.writer(date)

url = 'http://www.eastmoney.com/'
req = requests.get(url)
# req.encoding = req.apparent_encoding
html = req.text

bf = BeautifulSoup(html, 'lxml')
nlist = bf.find_all(class_ = 'nlist')[0]
a = nlist.find_all('a')

for each in a:

    a_list = []
    a_list.append(each.string)
    a_list.append(each.get('href'))
    writer.writerow(a_list)

date.close()

这样短短的几行程序,就完成了一个爬虫,但是以上程序只能爬取静态网页,对于javascript动态网页就无能为力。

JS爬虫

解析JS网页一般有两种方法,一种是在网页源码中找到JS脚本数据,爬取到本地解析,另一种是使用Selenium模拟浏览器登录获取。这里介绍第一种,第二种以后有时间再介绍。

获取JS脚本

以chrome浏览器为例,目标网页选择 http://quote.eastmoney.com/web/BK04751.html,以获取银行板块的今日开盘数据为例,当我们使用检查查看网页源码时会发现数据是空白,如下所示:

image6.PNG

这是由于数据被js动态脚本加载,直接采取上面的方法无法获取数据。我们首先要看看js脚本地址。
我们首先右键页面点击检查,标签切到Network,按ctrl + R重新加载
image7.PNG

我们会发现出现了很多JS脚本。接下来按ctrl + F搜索当日开盘点位'3147.83',我们依次点击每个搜索结果,找到符合包含开盘/最高等数据的脚本,在Response标签下
image8.PNG

然后切换到Headers标签,获取Request URL
image9.PNG

于是我们得到了JS脚本的地址
http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx?type=CT&cmd=BK04751&sty=FDPBPFB&st=z&sr=&p=&ps=&cb=jQuery172040627517238278443_1551425982764&js=([[(x)]])&token=7bc05d0d4c3c22ef9fca8c2a912d779c&_=1551425982799

类似的,我们可以获得结果

import requests

url = 'http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx?type=CT&cmd=BK04751&sty=FDPBPFB&st=z&sr=&p=&ps=&cb=jQuery172040627517238278443_1551425982764&js=([[(x)]])&token=7bc05d0d4c3c22ef9fca8c2a912d779c&_=1551425982799'
wbdata = requests.get(url).text

我们来看看print的结果


image10.PNG

可以看到是字符串类型的数据,并且在数据中出现了3147.83,也就是我们的目标数据——开盘点位。为了获取这个数据,我们可以用split()函数,如下所示

data_n = wbdata.split(',')
open_n = data_n[7] 

于是我们就得到了开盘点位3147.83。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容

  • 1. 概述 本文主要介绍网络爬虫,采用的实现语言为Python,目的在于阐述网络爬虫的原理和实现,并且对目前常见的...
    Lemon_Home阅读 2,736评论 0 21
  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,070评论 2 26
  • 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是...
    腩啵兔子阅读 1,476评论 0 17
  • 作为教师对反思并不陌生,每个学期都会写很多,但一般都是百度搜复制粘贴。当然,今天这篇是纯原创的。 读完几位名师的怎...
    笑笑8阅读 250评论 0 0
  • 首先图与本文无关,我觉得配个自己当天的图片能记录自己当天的状态。 一,30秒法则 这一点,让我想起很多的画面…经常...
    奔跑的丸子啊阅读 593评论 8 49