【python爬虫】Beyond歌词爬取、分析

测试分析

scrawl shell http://www.lrcgc.com/lyric-263-314689.html
得到response 200,可以爬取

写爬虫

本次爬取的目标网站属于双向爬取

  • 横向:主页切换+下一次的URL。目标:yield next_url
  • 纵向:从主页进入子页,获取歌词信息。目标:yield items
    特殊说明:需要明确items,url在parse()方法中的任何位置返回都可以,而且items的多个属性还可以在parse()方法及其调用的son_parse方法中的任意位置提取、返回!本项目中共设置了4个信息字段,其中name album url三个items属性在parse()方法中提取并返回,另外一个lrc歌词属性则在处理子页面信息的son_parse方法中获取,而且parse()、son_parse方法中都需要items = BeyongLrcItem()、yield items。
  1. items.py中,定义四个属性
    name = scrapy.Field()
    album = scrapy.Field()
    url = scrapy.Field()
    lrc = scrapy.Field()
  1. spider.py中,定义parse()、son_parse()两个方法
    2.1定义parse()方法
    提示:别忘了import items,并设置Source Root
    代码核心:谨记两个任务(返回items、next_url)、返回next_url时用if分情况yield
    def parse(self, response):
        items = BeyongLrcItem()
        items["name"] = response.xpath("//div[@class='thread_posts_list']/table/tbody/tr/td[1]/a/text()").extract()
        items["album"] = response.xpath("//div[@class='thread_posts_list']/table/tbody/tr/td[2]").extract()
        items["url"] = response.xpath("//div[@class='thread_posts_list']/table/tbody/tr/td[1]/a/@href").extract()
        now_page_num = response.xpath("//div[@class='pages']/strong/text()").extract()[0]
        # 即使只有一个数字,xpath.extract()返回的是一个list,不能对list用int,必须添加[0]将这个元素取出
        yield items
        print("成功提取到第", now_page_num, "主页中所有歌曲的名称、专辑和链接3个信息")
        for i in range(len(items["url"]) + 1):
            if i < len(items["url"]):
                print("正在进入第", i + 1, "首歌曲的歌词页面")
                next_page = "http://www.lrcgc.com/" + items["url"][i]
                yield scrapy.Request(next_page, callback=self.son_parse)
                print("成功,将发起下一次请求……")
            else:
                offset = int(now_page_num) + 1
                print("当前页面的歌曲信息已经全部提取完成,即将进入第", offset, "个页面")
                next_page = "http://www.lrcgc.com/songlist-263-" + str(offset) + ".html"
                yield scrapy.Request(next_page, callback=self.parse)
                print('-' * 100)

错点提示:

  • 任务一,返回yield items,不是yield items["name"],items["album"],items["url"]
  • response.xpath("").extract()返回的是一个list,不能对list直接进行int()运算。因此,必须添加[0],更正为response.xpath("").extract()[0]
  • 任务二,返回url。通过if判断,进行两种不同的yield url。
    2.2定义son_parse()方法
    代码核心:只有一个任务:yield items,无需yield next_url
    def son_parse(self, response):
        items = BeyongLrcItem()
        items["lrc"] = response.xpath("//p[@id='J_lyric']/text()").extract()
        yield items

Done!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • 项目概况: 龙岗区河道管养三标段管养的河道分布于园山、横岗2个街道,共计17条河流,总长度46.1公里,分属于龙岗...
    H__Zzzzzz阅读 239评论 0 0
  • 连着两日,沈心慈未见到王爷,听芳草说王爷是去查案了,也是,王府出了这等命案,是该好好查查的。 京王府很大,人也不少...
    淡墨卿衫阅读 261评论 0 0
  • 尤越十月份第一次读书打卡,我读的书是《再被狐狸骗一次》里面烈鸟部分92到116页,讲的是“我”抓住了一只漂亮的鹩哥...
    越越1阅读 250评论 0 0