Python爬虫:统计扇贝单词书

写在前面的话

之前给大家写过一个非常基础的Python教程
Python爬虫详细教程:统计扇贝网站打卡数据

这个爬虫教程稍微升级了一点点:

  • re.findall精确匹配和跨行匹配
  • 实现最傻瓜的翻页方式(高级的我还不会)
  • 构建了简单的函数

如果你还没有装Python的话,你可以点击这里第一章 程序的运行

代码运行图

先上代码运行图

这是运行结果,Excel的格式没改(我技术还不行)

整体思路

1、爬虫网址:扇贝网单词书
https://www.shanbay.com/wordbook/202/

注意看,https://www.shanbay.com/wordbook/这部分都是一样的,关键就是202这个数字不一样,每一个单词书,有自己的数字

一本单词书,有很多个Unit

2、通过该网址,爬虫得到每一个Unit的网址:
https://www.shanbay.com/wordlist/202/16306/

注意看,https://www.shanbay.com/wordlist/这部分都是一样的,202代表单词书,16306代表Unit

所以首先,爬虫,把我们要找的单词书的所有Unit的网址读出来

3、翻页

每一个Unit,有好几页的单词,所以我们需要翻页

我们在网页源代码看到,它首先计算,一页20个单词,158个单词要放几页

然后就在网址后面加?page=,如果是第一页,就是?page=1,第二页就是?page=2,以此类推

https://www.shanbay.com/wordlist/202/16306/?page=1

所以,这个由单词书202,Unit16306,页数Page=1组成的网址,才是我们最后要爬取的网页

4、爬虫部分不再赘述,可参考上一篇,依旧是读取数据,存到Excel

5、唯一需要注意的是,我们用到了Excel功能,需要我们安装Excel的相关库

打开命令提示符:附件命令提示符

输入

pip install xlwt

装好之后,你再次输入这行代码,应该显示如下

稍微进阶一下

正则化re.findall

上一次已经讲到用re.findall可以找到我们想要的关键词,今天补充2个知识点

1、()的神奇用法

不加()的时候,字符串就是从<strong>匹配到<strong>

find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word) 

加上(),字符串只匹配<strong><strong>中间的内容

find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word) 

2、多行匹配

我们在网站中发现,我们要匹配的内容,从<td class="span10"</td>不在同一行。用默认的方式匹配,会匹配失败

这时候,我们在re.findall最后加上re.S

find_meaning = re.findall("<td class=\"span10\"> (.*?)</td>",web_word,re.S) 

这样得到的信息,就是完整的

完整代码

# -*- coding: utf-8 -*-
"""
Created on Fri May 24 2019

@author: YangYang
"""

'''
web_shanbay:扇贝网址
web_number:单词书编号
web_wordbook:单词书网址
web_wordlist:单词书——Unit网址
web_wordpage:单词书——Unit——分页网址

web_wordbook_data:单词书网页数据
web_wordlist_data:Unit网页数据
web_wordpage_data:Unit分页网页数据

wordlist_name:Unit名称
wordlist_id:Unit编号

'''

from urllib.request import urlopen
import re
import xlwt
import math


# 获取单词书网页数据
def FindWordbookData(web_number):    
    web_shanbay = "https://www.shanbay.com/wordbook/"
    web_wordbook = web_shanbay + str(web_number) + "/"
    web_wordbook = urlopen(web_wordbook)
    web_wordbook_data = web_wordbook.read().decode()
    return web_wordbook_data

# 定位该单词书所有的Unit和对应网址
def FindWebWordlist(web_number,web_wordbook_data): 
    find_address = "<a href=\"/wordlist/" + str(web_number) + ".*?</a>"
    find_wordlist = re.findall(find_address,web_wordbook_data) 
    # 获取Unit和网址
    wordlist_id = []
    wordlist_name = []
    web_wordlist = []
    for wordlist in find_wordlist:
        ID = wordlist.split('/')[3]
        name = wordlist.split('>')[1]
        name = name[:-3]
        wordlist_name.append(name)
        wordlist_id.append(ID)
        web_wordlist.append("https://www.shanbay.com/wordlist/" + str(web_number) + "/" + str(ID) + "/")
    return web_wordlist

# 获取网页取读数据
def ReadWebData(web):    
    web_read = urlopen(web)
    web_read = web_read.read().decode()
    return web_read

# 获取页数
def CalPage(web_data):
    wordlist_num_vocab = re.findall("var pages = Math.ceil(.*?)/",web_data)
    wordlist_num_vocab = str(wordlist_num_vocab[0])[1:]
    var_pages = math.ceil(float(wordlist_num_vocab)/20)
    return var_pages

# 获取标题
def FindTitle(web_data):
    web_title = re.findall("<title>单词书: (.*?) </title>",web_data)
    return web_title


a = '''
部分单词书编号:
TOEFL核心词汇21天突破:202
扇贝托业词汇精选:91918
扇贝循环单词书·六级(乱序):197656
高中标准词汇表:16
人教版小学一年级上:204316
'''
print(a)
web_number = input("请输入单词书编号:")
#web_number = 202 #这里需要根据你想爬取的单词书,需要改
web_wordbook_data = FindWordbookData(web_number)    
web_wordlist = FindWebWordlist(web_number,web_wordbook_data)
print('\n')
print("正在取读数据,请等待……")

# 定义保存Excel的位置
workbook = xlwt.Workbook()  #定义workbook    


for wordlist in web_wordlist:    
    web_wordlist_data = ReadWebData(wordlist)
    
    # 打开Excel,保存Sheet和表头
    title = re.findall("<title>词串:  (.*?) </title>",web_wordlist_data)
    sheet = workbook.add_sheet(str(title[0]))  #添加sheet  
    head = ['单词', '解释']    #表头
    for h in range(len(head)):
       sheet.write(0, h, head[h])    #把表头写到Excel里面去
    m = 1 #定义Excel的行数    
    
    # 获取Unit的页码和相应内容
    var_pages = CalPage(web_wordlist_data)
    for i in range(1,var_pages+1):
        web_wordpage = str(wordlist) + "?page=" + str(i)    
        web_wordpage_data = ReadWebData(web_wordpage)
    
        # 开始获取单词和解释
        find_word = re.findall("<strong>([a-z,A-Z]*?)</strong>",web_wordpage_data) 
        find_meaning = re.findall("<td class=\"span10\">(.*?)</td>",web_wordpage_data,re.S) 
        find_result = zip(find_word,find_meaning) 
        for word,meaning in find_result:            
            sheet.write(m, 0, word)
            sheet.write(m, 1, meaning)
            m += 1            

SaveAddress = FindTitle(web_wordbook_data)
SaveAddress = str(SaveAddress[0]) + ".xls"
workbook.save(SaveAddress)
print('\n') 
print('写入excel成功')
print("文件位置:和你的代码在一个文件夹下面")
print('\n') 
input("取读完毕,点击回车退出") 

最后

1、如果这本单词书是你自己收藏的,扇贝已经下架了,那需要你先账号密码登入,再来爬取你自己收藏的单词书
Python爬虫:账号密码登入扇贝
2、爬取的时候,你需要注意,代码默认,是把每一课的名称作为sheet。遇到下面这种情况,代码会报错

名称重复

这时候,你可以把sheet命名那一行的代码修改一下,直接把1,2,3,4作为sheet。或者你干脆把所有的单词都放在一个sheet下面。
修改代码

3、Excel文档和你的代码会在一个目录下面,你也可以自己改路径

4、Excel比较丑,麻烦大家自己手动调一调(因为我还不会写代码改格式)

有任何问题,欢迎大家给我留言~
这是小白给小白的教程~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容