Python爬虫——WuXiaWorld英文版小说

前言

工作有一段时间了,每天早上醒来刷朋友圈发现朋友们都在国外,想想他们当年的英语水平,也比我高不到哪里去,而我现在由于半年没碰英语,怕是单词都不认识几个了吧。但我又很讨厌背单词,读一些艰难苦涩的英文小说也很难读下去。突然想起来之前看资讯的时候,说国内的一些网络武侠/玄幻小说在国外十分盛行,还有人建立了专门的网站,将中文小说一点点翻译成英文供大家看。——诶?我也很爱看这些网络小说啊!三少、土豆西红柿,当年上学的时候不知道有多少个夜晚偷偷看他们的书。

我找到了这家网站:http://www.wuxiaworld.com/

我决定从之前看过很多次的《星辰变》开始,读一读它的英文版。但是网页版的在手机里毕竟兼容性不好,不如下载下来txt版本的放在手机里看。

准备工作

首先,我们找到目标小说《星辰变》的首页,在Completed里,其英文名为Stellar Transformations


定位到星辰变主页.png

找到了http://www.wuxiaworld.com/st-index/这个页面,是星辰变的主页啦。
下面我们来分析一下网页结构:
我用的Chrome浏览器,鼠标选中章节链接后,右键->检查,可以定位到源代码中相应的元素。
如下图所示:

image.png

能够定位到信息了,首先需要做的,是找到所有Chapter对应的地址链接,即上图红框中href部分的内容。

首先把一些基础信息写下,包括目录页面url及请求头,一般比较简单的网站,请求头只把User-Agent写上就可以了,具体值可以去network里随便找一个请求,复制一下自己相应的值。

homepage_url = 'http://www.wuxiaworld.com/st-index/'
headers = {'User-Agent': *******}

获取所有需要爬取的页面链接

接下来我们去获取页面源代码,然后定位到相应元素。

def get_all_url():
    # 获取页面源代码
    request_url = homepage_url
    request = urllib2.Request(request_url, headers=headers)
    response = urllib2.urlopen(request)
    homepage = response.read()

    # 定位到相应元素的根节点  
    homepage_tree = etree.HTML(homepage)
    index_node = homepage_tree.xpath('//*[@id="post-4993"]/div/div[1]/div')
    # print index_node
    # print etree.tostring(index_node) # 打印当前节点中的内容
    
    # 定位到相应链接
    urls = index_node.xpath('.//p/a[starts-with(@href,"http://www.wuxiaworld.com/st-index")]')
    #print [etree.tostring(each) for each in urls]
    print len(urls)

    contentpage_list = []
    for each in urls:
        url = each.xpath('./@href')
        if len(url) == 1:
            contentpage_list.append(url[0])
    return contentpage_list

获取文本内容

已经找到每个章节的对应链接了,下面需要做的是将页面中的文本元素提取出来,保存到txt文件中。

定位页面文本元素

可以看到其实每一段文本都存在<p>元素中,那么我们只要定位到这些<p>元素的根节点,读取<p>元素下所有文本信息,就可以按段保存了。

首先是获取章节页面源代码:

def get_content(contentpage_url, txt):
    request_url = contentpage_url
    request = urllib2.Request(request_url, headers=headers)
    response = urllib2.urlopen(request)
    contentpage = response.read()

然后根据源代码及lxml方法,定位到根节点:

    contentpage_tree = etree.HTML(contentpage)
    content_root_node = contentpage_tree.xpath('//*[@itemprop="articleBody"]')[0]
    #print len(content_root_node)

获取所有<p>节点及文本内容,并存入txt文件中:

    content = content_root_node.xpath(u'./p/text()')
    print content
    fp = open(txt + '.txt', 'w')
    for each in content:
        each = each.decode("utf8")
        fp.write('%s' % each + '\n')
    fp.close()

效果如图:


附:

完整代码如下:

# usr/bin/python
# -*- coding: utf-8 -*-
import re
import urllib2
from lxml import etree
import sys
import os


reload(sys)
sys.setdefaultencoding('utf-8')

homepage_url = 'http://www.wuxiaworld.com/st-index/'
headers = {'User-Agent':
               'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36'}


def get_all_url():
    contentpage_list = []
    # 验证list是否为空
    if len(contentpage_list) != 0:
        raise ValueError("该列表不为空")
    request_url = homepage_url
    request = urllib2.Request(request_url, headers=headers)
    response = urllib2.urlopen(request)
    homepage = response.read()
    homepage_tree = etree.HTML(homepage)
    index_node = homepage_tree.xpath('//*[@id="post-4993"]/div/div[1]/div')
    if len(index_node) == 1:
        index_node = index_node[0]
    else:
        raise ValueError("有不止一个目录节点")
    print index_node
    # print etree.tostring(index_node) # 打印当前节点中的内容
    #urls = index_node.xpath('.//p/a[starts-with(@title,"ST Book")]')       # 第九章开始没有title了,爬不全
    urls = index_node.xpath('.//p/a[starts-with(@href,"http://www.wuxiaworld.com/st-index")]')
    #print [etree.tostring(each) for each in urls]
    print len(urls)
    for each in urls:
        url = each.xpath('./@href')
        if len(url) == 1:
            contentpage_list.append(url[0])
    return contentpage_list


def get_content(contentpage_url, txt):
    request_url = contentpage_url
    request = urllib2.Request(request_url, headers=headers)
    response = urllib2.urlopen(request)
    contentpage = response.read()
    contentpage_tree = etree.HTML(contentpage)
    content_root_node = contentpage_tree.xpath('//*[@itemprop="articleBody"]')[0]
    #print len(content_root_node)
    content = content_root_node.xpath(u'./p/text()')
    print content
    fp = open(txt + '.txt', 'w')
    for each in content:
        each = each.decode("utf8")
        fp.write('%s' % each + '\n')
    fp.close()

    #print etree.tostring(content_root_node[0])



if __name__ == '__main__':
    contentpage_list = get_all_url()
    #print contentpage_list[0]
    #contentpage_list = ['']
    #contentpage_list[0] = 'http://www.wuxiaworld.com/st-index/st-book-1-chapter-1/'
    for each_url in contentpage_list[303::]:
        print each_url
        tmp = re.findall('.*/st-index/st-(.*)/', each_url)
        if len(tmp) == 0:
            tmp = re.findall('.*/st-index/(.*)/', each_url)
        if len(tmp) == 0:
            tmp = re.findall('.*/st-index/(.*)', each_url)
        print len(tmp)
        get_content(each_url, tmp[0])
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,900评论 25 707
  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 13,744评论 1 92
  • 电线杆向着蓝天爬着 遇到白云就变成了小孩手中的棉花糖 他望着电线杆出了神
    紫发阅读 169评论 0 1
  • 初入长投,真的是纯白的小白一枚,之前提到入过的坑,有些人入了坑,以后见坑避开走,避开的有两种,一种依旧是那条路,可...
    往事苍然阅读 341评论 0 0
  • 风急时雨也急 你的羽翼和泥泞粘在一起 俯瞰的水洼变成巨大的池塘 你如同在天空向下望时 那微不足道的渺小一样 所有的...
    宋予屿阅读 805评论 10 17