我爬取了汪峰146首歌词,却找不到他的梦想

梦想

最近在学scrapy框架,看了不少大神的代码,还是感觉云里雾里,最好的学习就是实践,于是就有了今天的题目。我爬取了汪峰老师的146首歌词,并对他们进行分词、统计词频,然后用工具进行了可视化。

整个项目分3块:

  • 歌词爬取与下载
  • 歌词分词、统计词频
  • 可视化处理

1.歌词爬取

主要用scrapy框架进行,像素级参照了@LEONYao的文章我爬了咪蒙的278篇文章做词频统计
歌词地址:https://mojim.com/cnh104044-A2.htm
上代码

import scrapy
from bs4 import BeautifulSoup
from ali.items import AliItem
class wang(scrapy.Spider):
    name = 'wang'
    def start_requests(self):
        start_url=['https://mojim.com/cnh104044-A2.htm']
        for url in start_url:
            yield scrapy.Request(url=url,callback=self.parse_getlink)


    def parse_getlink(self,response):
        n=0
        #print response.url
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('div',id='inS'):
            for j in i.find_all('a'):
               url = j.get('href')
               url = 'https://mojim.com' + str(url)
               yield scrapy.Request(url=url, callback=self.parse)
               n+=1
        print n

    def parse(self,response):
        item = AliItem()
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('dd',id='fsZx3'):
            item['content'] = i.get_text()
            yield item 

2.词频统计

主要用jieba模块和停用词表,参照了@_CallMe靠谱叔 用jieba分词提取关键词做漂亮的词云的代码

词频.PNG

3.可视化

你的梦想是什么?
我找不到了ORZ

词云中字体大小是根据词频的大小设置的,通过分析词频,我得到了个惊人的发现,竟然没有找到汪老师的梦想,本来打算洗洗睡的我,顿时垂死梦中惊坐起,发现有点对不起汪老师,于是我拿着放大镜,翻着词频统计最后才在第35位找到了梦想两个字,真是细思恐极啊~

推荐两个小工具:
词云工具 很多人介绍过的 tagul
图云工具 也是一款神器shape collage

另外,词频的统计比较粗糙,没有区分词性,目前还没找到好的解决办法。哪位大神如果有好的办法,望不吝赐教~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 人生苦短,我用Python && C#。 1.引言 最近初学Python,写爬虫上瘾。爬了豆瓣练手,又爬了公司的论...
    圣杰阅读 9,296评论 1 17
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 13,225评论 1 25
  • 在本文中我会尝试如何从0数据开始到获取百万页面,进行用户数据分析、建模,再数据信息化、可视化,生成用户画像分析用户...
    hirainchen阅读 25,627评论 121 689
  • 注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...
    DearIreneLi阅读 11,373评论 1 8
  • 去库存,你们的花招多 八亿农民都进城买房子,房地产商就发了,发了,发了。 更多的农民进城买房子,实现城镇化就更快了...
    欧阳小川阅读 1,715评论 0 2

友情链接更多精彩内容