R语言-15词云图绘制

绘制词云图所用包为worldcloud,

绘制词云图第一步是中文分词,中文分词包中最出名的是Rwordseg和jieBar.

先讲解第一种,Rwordseg依赖于rJava包和Java环境

使用Rwordseg分词绘制词云图

安装Java环境
jdk可到oracle站点下载,下载完成需设置环境变量,在系统变量新建如下变量

1.JAVA_HOME:D:\Java #jdk安装路径
2.ClassPath : .;%JAVA_HOME%\lib(注意前面的.和分号)
3.R_HOME : D:\R-3.3.1 #R安装路径

在系统变量的Path下增加:
%R_HOME%\bin\i386
%R_HOME%\library\rJava\jri
%JAVA_HOME%\jre\bin
%JAVA_HOME%\jre\bin\server或者%JAVA_HOME%\jre\bin\client ,具体看jvm.dll位于哪个子文件
%JAVA_HOME%\bin

安装Rwordseg
安装rJava,直接使用install.packages("rJava")安装即可
安装Rwordseg ,在"http://R-Forge.R.project.org中,安装方式可参考基础指令笔记
还需安装tmcn、tm包

代码

library(xlsx)
data <- read.xlsx("D:/dataset/test.xls", 2, header=T,encoding='UTF-8')
content <- data['content'][1]#可以直接根据列名调用
#文本分析
library(tmcn)
library(Rwordseg)
library(tm)
library(wordcloud)
content <- unlist(content)#excel中的一列通常是list格式,unlist后变成numertic格式
content <- as.character(content)#将其变成字符串格式
insertWords(c("特朗普")) #向词典临时插入特朗普
d.vec <- segmentCN(content, returnType = 'tm') #分词

直接绘制词云图

wc <- getWordFreq(unlist(d.vec), onlyCN = TRUE)
wordcloud(wc$Word,wc$Freq,colors = rainbow(length(wc$Freq)))

处理后再绘制词云图

yuliaoku<-Corpus(VectorSource(d.vec)) #建立语料库
yuliaoku<-tm_map(yuliaoku,stripWhitespace) #去除空白
control<-list(wordLengths=c(1,5),stopwords=stopwordsCN()) #去除停用词
mt<-TermDocumentMatrix(yuliaoku,control = control) #生成包含词频的结构化的词条-文档矩阵
vmt<-as.matrix(mt)
val<-sort(rowSums(vmt),decreasing = TRUE) #按词频排序
df<-data.frame(word=names(val),freq=val)
wordcloud(df$word,df$freq,min.freq = 3,random.order = FALSE,colors = rainbow(length(row.names(vmt))),scale=c(4,.5)) #画词云图

使用jieBar分词绘制词云图

library(xlsx)
data <- read.xlsx("D:/dataset/test.xls", 2, header=T,encoding='UTF-8')
content <- data1['content'][1]
content <- unlist(content)
content <- as.character(content)
content <- sub('#人民的名义#','',content) #删除某个词汇
library(jiebaR)
cutter=worker()
new_user_word(cutter,c("秒拍视频")) #插入词汇
segWords<-segment(content,cutter)
segWords<-filter_segment(segWords,stopwordsCN())
segWords<-gsub("[0-9]+?","",segWords) #删除数字
library(stringr)
segWords<-str_trim(toUTF8(segWords))
library(plyr)
tableWord<-count(segWords)
a <- tableWord[order(tableWord[2],decreasing = TRUE),]
a <- na.omit (a) #去除NA值
wordcloud(a[,1],a[,2],random.order=F,col=                 rainbow(length(a$freq)),scale=c(8,.5),max.word = 200) #展示词频最大的前200个词的词云图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容

  • Part1安装依赖包 http://blog.csdn.net/cl1143015961/article/deta...
    小豆角lch阅读 5,111评论 2 11
  • 1.创建文件夹 !/bin/sh mkdir -m 777 "%%1" 2.创建文件 !/bin/sh touch...
    BigJeffWang阅读 10,046评论 3 53
  • 从老家到我们四个人的岛,有很长很长的火车。天亮,天黑,天亮,天黑,火车里时间格外漫长,睡醒无数次也看不到站点。 不...
    稻香草木中阅读 209评论 0 0
  • 今天接到通知,市效能办会对机关单位的工作电脑进行监督抽查,所以工作时间不要做无关的事情!我去,这什么节奏啊?为什么...
    月上独眠阅读 117评论 1 1
  • 在一个maven项目中,如果存在编译需要而发布不需要的jar包,可以用scope标签,值设为provided。 如...
    Devid阅读 3,055评论 0 1