《大小说家》歌词分词、词频统计及词云图

image.png

《大小说家》是林宥嘉于2012年6月22日发行的第四张专辑,共收录了10首歌曲。

专辑曲目

而后,我整理出了这十首歌曲的歌词放置在YogaLin.txt文件中。并准备用jieba在线词频分析工具图悦进行专辑歌词分词、词频统计与词云图制作。

jieba

首先,需要在云服务器上安装jieba与xlwt。

安装jieba

pip install jieba

安装xlwt

pip install xlwt

jieba5.py代码:

# -*- coding:utf-8 -*-    
  
import sys  
reload(sys)  
  
sys.setdefaultencoding('utf-8')  
  
import jieba  
import jieba.analyse  
import xlwt #写入Excel表的库  
  
if __name__=="__main__":  
  
    wbk = xlwt.Workbook(encoding = 'ascii')  
    sheet = wbk.add_sheet("wordCount")#Excel单元格名字  
    word_lst = []  
    key_list=[]  
    for line in open('YogaLin.txt'):#1.txt是需要分词统计的文档  
  
        item = line.strip('\n\r').split('\t') #制表格切分  
        # print item  
        tags = jieba.analyse.extract_tags(item[0]) #jieba分词  
        for t in tags:  
            word_lst.append(t)  
  
    word_dict= {}  
    with open("wordCount.txt",'w') as wf2: #打开文件  
  
        for item in word_lst:  
            if item not in word_dict: #统计数量  
                word_dict[item] = 1  
            else:  
                word_dict[item] += 1  
  
        orderList=list(word_dict.values())  
        orderList.sort(reverse=True)  
        # print orderList  
        for i in range(len(orderList)):  
            for key in word_dict:  
                if word_dict[key]==orderList[i]:  
                    wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档  
                    key_list.append(key)  
                    word_dict[key]=0  
      
      
    for i in range(len(key_list)):  
        sheet.write(i, 1, label = orderList[i])  
        sheet.write(i, 0, label = key_list[i])  
    wbk.save('wordCount.xls') #保存为 wordCount.xls文件 

在Xshell输入:

python jieba5.py

运行结果如下,含584个词语:


结果文件

txt结果文件

Excel结果文件

然后通过Word Art网站,导入数据后,得到如下词云图。

词云图

我们可以很明显地看出“不要”“可不可以”“好心”“放过”这四个个高频词是出自于《周末夜惊魂》中重复的歌词段落“可不可以请你好心放过我 不要xx”;“有鬼”这个高频词是出自于《4号病房》中反复歌唱的“信我 有鬼”。《周末夜惊魂》《4号病房》这两首单曲,前一个是惊悚题材的快歌,后一个是神经病患者的视角的非常high的摇滚风编曲,都非常的神经质。不论抒情风格抑或是摇滚风格,歌词的多次反复总是一层一层地渲染着情绪,在这种情况下,高频词语的出现便合情合理了。

而一些平常的词语由于运用范围的广泛性,通过在多首曲中多次出现也拔得了头筹。如“大多来自于《周末夜惊魂》与《傻子》的“这样”,来自于《思凡》与《傻子》的“明白”等。

而剩下的一些高频词则是属于一些歌曲中的关键词,如“浪费”“没关系”两次是歌曲《浪费》的中心词,“诱惑”“醉倒”则是歌曲《诱》反复出现的词语,“runaway”也只出现在歌曲《Runaway Mama》中······

在线词频分析工具图悦

在左侧粘贴文本后,点击“分析出图”,即迅速得到了结果。右侧词云图中的高频词与用jieba得出的高频词大体相似。

图悦

但Excel结果中只有151个词语,远少于jieba中的584个词语,说明图悦中的结果并不完善。


图悦Excel结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容

  • 注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...
    DearIreneLi阅读 6,035评论 1 8
  • jieba分词,学习,为了全面了解该模块,,预设学习路线:官方文档——优秀博客文章——实践学习 官方文档部分 (文...
    竹林徒儿阅读 4,105评论 1 12
  • 实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解J...
    _黑冰_阅读 67,491评论 18 66
  • 在中文的文本挖掘中,对海量文本进行准确分词是其中至关重要一步。当前的Python语言下存在多种开源文本分析包,其中...
    拾荒巴菲特阅读 23,280评论 2 16
  • 在接下来的分词练习中将使用到四川大学公共管理学院的一篇新闻进行练习,文本如下: 为贯彻落实党的十九大精神,不断提升...
    nicokani阅读 1,231评论 0 4