观演观众-演出标签 词云分析

找到观看这个项目的观众的所有观演的历史项目后,分析这些项目的标签属性,反推给观众,即这群观众的观演属性。

 笔者的观点:

演出项目的标签可以丰富观演用户的画像属性,用户在观看这场演出时,可以有两个方向,一是用户喜欢这场演出,二是用户看了这场演出之后,对这类演出有了了解,极大可能的产生了兴趣。

以下的工作都是基于这个观点触发的,所以有不同想法的大佬留下建议哈,给您递笔~


历时,2周多吧,真的给每个项目加标签太痛苦了,虽然用的方法算是半自动化,如下。

第一步,给项目添加标签

首先比如拿《茶馆》来说,首先笔者要做的是百度搜索茶馆的介绍,一般都是在票务售卖平台上的官方为主(当然后面如果有评论情感分析就更妙了,笔者技术很渣,给大佬递键盘)

找到时候,存入txt文档,像这样!就这样直接暴力!标签符号,图片什么的不用在乎,直接拉完,复制+粘贴+保存,ok(当然因为所选文本小,为了准确起见,一些艺术家介绍或者和本次演出项目无关的可以小手抖一抖放过它们)

分词

接下来就是给文章分词的时候了!

当然用的孰知的jieba分词。

考虑到演出项目的专属词,和不用于评论性质的分词特点和权重。考虑到训练词频的复杂性,笔者深度学习的大门还没有撬开的情况下,笔者直接用了自己的词库(就是自己模仿jieba中文词库,自己建的)

如果你问后面的“3 n” 是什么,3 代表的是权重,n 是词性,名词(大概理解)

有了自己的词库后,开始统计仅限这张词库表里的词,在文中出现的词频。


上文分析的是一个儿童剧的词频;

统计出来之后再选取词标签添加到项目中,也许你会问为什么不直接添加到标签里呢,还要做进一步筛选,因为我们的分词基数太小了,有很大的不确定性,只能在手动筛选一遍了(当然为了尽可能的减少鼠标点点点,保留笔者一丝计算机妹子的尊严,这里是用代码读取添加保存的)

这里有一个环节是扩建专属词库,这里笔者就用的是jieba分词词库,目的是浏览本文中的词语分布,


当然,jieba分词的词库更全一些,接下来要做的是,选定一些词,判断是否有没有在专属词库里,如果没有则添加(没错,就是这么手动,哭泣~~为了突出主题,这里的代码就不做展示了)

看看最终的效果


第二步,统计标签

来,让我们回想下主题,指定项目的观演观众的标签分析,那现在就是来做标签统计分析了

可以看出这个项目的观众观看的音乐会的比较多,特别是古典音乐以及一些歌剧类音乐演出居多。

为了良好的可视化效果,为了看的更牛逼(好看)一些,笔者用了词云;

好了,项目-观众分析到这里了完成了。

(笔者还是想再唠叨唠叨,这里的标签其实不光可以这样用,还可以针对项目做分析,比如项目间的相似度,再完善一些维度,比说票价,座位数,推广渠道因子等等,是不是就有可能分析出项目的预期票房,好了这是一个大饼,谢谢观看,笔者继续搬砖去了)

在此,非常感谢 王树义老师的 《如何用Python做词云?》https://www.jianshu.com/p/a2924231037c

王树义老师的其他文章也很有意思,有料,推荐大家去康康~~

附上wordcloud的官方指导 https://github.com/windard/Python_Lib/blob/master/content/wordcloud.md

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,175评论 1 25
  • 一:前言 上次把斗鱼弹幕数据抓取搞定后,我就拿来试试用词云分析看看效果,简单学习一下。这是弹幕抓拍去分析的对象是斗...
    梅花鹿数据阅读 2,809评论 3 19
  • 我们常常能听到别人说,或者你自己也曾说过类似这样的假设: “如果之前我多花点时间画画。现在也许已经是一名小有名气的...
    灵清子阅读 1,219评论 0 0
  • 中午洋洋放学回来,照惯例,打开了樊纲读书会,选了一本书给他听,这次选的是翻转式学习。之前觉得孩子处于青春叛逆期,有...
    bdec4e2f6612阅读 540评论 1 50
  • 在想 是不是你过于主动 当你褪去你的主动 看看那都剩下了什么 一个念头 就会想出无数的证明它的小事件 其他的事情就...
    观照生活阅读 145评论 4 0