spark+jieba分词+wordclound生成斗破苍穹词云图

最近学习了spark相关算子, 闲来手痒,就利用spark来计算一下天蚕土豆小说《斗破苍穹》中的词谱

使用到的知识如下:

  • hdfs的基本读写操作
  • spark计算框架
  • jieba中文分词
  • word_cloud词云
  • python基础 pyspark、numpy、Image与matplotlib库

开始

首先下载小说,下载地址此处就不贴了,请自行百度

过滤

下载完的txt中,包含很多特殊字符,这些字不希望出现在最终统计中,因此先过滤

#! /usr/bin/env python3
import re

replace_list = []


# 匹配非中文字符 逐个字符处理
def find_unchinese(file):
    pattern = re.compile(r'[\u4e00-\u9fa5]')
    unchinese = re.sub(pattern, "", file)
    for i in unchinese:
        if i != "\n":
            replace_list.append(i)


# 逐行读取,取出非中文字符
with open("doupo.txt") as f:
    for line in f:
        find_unchinese(line)
# 去重复
replace_list = list(set(replace_list))
print(replace_list, len(replace_list))

with open("doupo_new.txt", "w+") as b:
    with open("doupo.txt") as f:
        for line in f:
            for i in replace_list:
                line = line.replace(i, "", -1)
                line = line.replace(" ", "", -1)
            # 去掉特殊字符
            if line.strip() != "":
                b.writelines(line) if f != "" else ""

过滤完成后的小说就只包含中文部分


过滤后的小说.png

准备停用词表

停用词是一类特殊的词,去除这些词可以提高检索速度,推荐使用哈工大的停用词表,下载地址

存入hdfs中

将处理好的小说和停用词词库置入hdfs中

hdfs dfs -copyFromLocal  doupo_new.txt /doupo_new.txt
hdfs dfs -copyFromLocal  stop_words.txt /stop_words.txt

下载字体

word_cloud默认字体不支持中文,会造成中文乱码,所以需要预先准备字体,此处使用旁门正道字体

旁门正道是个人制作并声明过的永久免费的字体,可以避免很多版权麻烦。

准备背景图

找一张背景为白色的背景图,非白色部分最终会填充上词,从网上找了张,侵删


背景图

下载相关库

需要用到pyspark、jieba、word_cloud、 numpy、matplotlib等python库文件,利用pip提前准备好

利用pyspark编写spark任务

万事俱备,准备编写脚本并生成词图

# -*- coding: utf-8 -*-
import jieba
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
from wordcloud import WordCloud, ImageColorGenerator
from pyspark.sql import SparkSession


# top1 从hdfs中读取文件到textFile中
spark = SparkSession.builder.master("local").config("spark.hadoop.mapreduce.job.run-local", "true").getOrCreate()
context = spark.sparkContext

# 加载停动词词库
stop_word_rdd = context.textFile("hdfs://127.0.0.1:9000/stop_words.txt")
stop_words = set(stop_word_rdd.collect())


# 中文分词 去除停用词 这里使用到了集合运算
def get_word(line):
    return set(jieba.cut(line, cut_all=False)) - stop_words


# 最终结果为(word,num)格式,需要根据num排序
def sort_result(elem):
    return elem[1]


rdd = context.textFile("hdfs://127.0.0.1:9000/c.txt")
new_rdd = rdd.flatMap(lambda line: get_word(line))
result = new_rdd.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y).collect()
result.sort(key=sort_result, reverse=True)

# 取前100个关键词生成画像
words_dict = dict()
for i in result[:500]:
    words_dict[i[0]] = i[1]

 # 引入背景图
color_mask = np.array(Image.open("background.jpeg")) 
cloud = WordCloud(
    font_path="PangMenZhengDaoBiaoTiTi-1.ttf",
    mask=color_mask,
    background_color='white',
    max_words=100,
    min_font_size=10,
    max_font_size=40,
    collocations=False,
    random_state=42
)
wCloud = cloud.generate_from_frequencies(words_dict)
image_colors = ImageColorGenerator(color_mask)
plt.imshow(wCloud, interpolation="bilinear")
plt.axis("off")
plt.savefig("2.jpg")
## 根据背景图,自动设置相似的颜色
plt.imshow(wCloud.recolor(color_func=image_colors), interpolation="bilinear")
plt.axis("off")
plt.savefig("4.jpg")

最终效果

2.jpg
4.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容