【Python爬虫案例】当我们讲冷笑话的时候到底讲了什么？

1. 开发环境

Windows 10 企业版
Pycharm 2019.01 EAP Community Edition
Python 3.7

2. 前言

根据上一个案例中（主页寻找《requests爬取冷笑话合集》）获得的冷笑话，我们接下来将对爬取的结果进行分析。看看冷笑话网站上提供的冷笑话里面都是由什么内容组成的。
以下是爬取的内容案例：（冷笑）

1、“大爷，我现场采访您一下，您这样晨跑锻炼坚持几年了？”
“姑娘别挡道！我尿急！ ”

2、“请问你是做什么工作的？”
“哦。我的工作是杀僵尸。”
“嗯？可是这个世界上没有僵尸啊！ ”
“你以为它们是怎么没有的？”

3、中午去买菜，感觉都不太新鲜了。
老板：早上刚到的，都新鲜的。
我：这菜看着就蔫蔫的啊？！
老板：从早上到现在，它以为没人要自己了，这不垂头丧气么！
我。。。

4、我问他：你今天怎么没上班儿啊？
表弟：那大舌头老板说，让我上班的时候，顺路捎十块钱的“砂纸”，结果我听成了“烧纸”
我：那也不至于开除你啊
表弟又说：老板看我买错了，让拿出去扔了，我跟他说，留着吧，万一再用上呢？

2.准备工作

要完成对冷笑话文字分析的目的，要确定分析的思路。将网络爬虫爬取到的文字保存到.txt文件中，程序自动读取文档中的文字信息，将其读出为字符串。

采用正则表达式对文字进行筛选，去除掉字符串列表中的无关字符，例如“的”，“地”，“得”等等无意义的助词等。

接下来就是工作的核心，将获取的字符分词，采用python的库jieba完成。jieba可以对中文字符串自动分解为自然语言的词语，可以用于对语言中的关键词汇提取。

为了更好的展现冷笑话里出现的高频词汇，将采用词云的方式进行展示。

所有工作用到的库如下：
codecs 由于读取的文本文档是纯中文的，采用python自带的open打开文本的时候容易出错，因此采用该方法。
re 正则表达式的库
jieba 中文分词库
wordcloud 词云库
matplotlib 绘图库

4.结果分析

根据以上过程绘制的词云如下图所示：

冷笑话词云

人物：特朗普老板老公男友姑娘先生女友女朋友哥们
量词：一下，两个，一个，一定，一次，一天，

5.源代码分享

# encoding: utf-8
"""
@version: 1.0
@author: Jarrett
@file: run_word_cloud
@time: 2020/3/20 18:17
"""
import jieba
import codecs
import re
from wordcloud import WordCloud,ImageColorGenerator
import matplotlib.pyplot as plt

filename = "./mytxtfile.txt"
f = codecs.open(filename,encoding='UTF-8')
mytxt = f.read()
f.close()

mytxt = re.sub(r"\d","",mytxt)
mytxt = re.sub(r"、","",mytxt)
mytxt = " ".join(jieba.cut(mytxt))


font_path="msyh.ttc"
wc = WordCloud(
    font_path=font_path,
    background_color='white',  # 背景色
    #mask=image,  # 背景图
    #stopwords=STOPWORDS,  # 设置停用词
    max_words=100,  # 设置最大文字数
    max_font_size=100,  # 设置最大字体
    width=800,
    height=1000,
)

# 生成词云
#image_colors = ImageColorGenerator()
wc.generate(mytxt)

# 使用matplotlib,显示词云图
plt.imshow(wc)  # 显示词云图
plt.axis('off')  # 关闭坐标轴
plt.show()
# 保存图片
wc.to_file('news.png')

6.总结

1.分析冷笑话的内容其实是比较物料的，倒是可以应用在其他的途径中，例如法律文书，小说书籍等等。
3.接下来想做一个做词云的小程序，这样可以本地化运行。
4.合作咨询事宜请私信。【微店】【樱桃智库】。

最后编辑于：2020.03.29 19:51:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,752评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,100评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,244评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,099评论 1赞 286
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,210评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,307评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,346评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,133评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,546评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,849评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,019评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,702评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,331评论 3赞 319
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,030评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,260评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,871评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,898评论 2赞 351