【Python爬虫案例】当我们讲冷笑话的时候到底讲了什么?

1. 开发环境

  • Windows 10 企业版
  • Pycharm 2019.01 EAP Community Edition
  • Python 3.7

2. 前言

根据上一个案例中(主页寻找《requests爬取冷笑话合集》)获得的冷笑话,我们接下来将对爬取的结果进行分析。看看冷笑话网站上提供的冷笑话里面都是由什么内容组成的。
以下是爬取的内容案例:(冷笑)

1、“大爷,我现场采访您一下,您这样晨跑锻炼坚持几年了?”
“姑娘别挡道!我尿急! ”

2、“请问你是做什么工作的?”
“哦。我的工作是杀僵尸。”
“嗯?可是这个世界上没有僵尸啊! ”
“你以为它们是怎么没有的?”

3、中午去买菜,感觉都不太新鲜了。
老板:早上刚到的,都新鲜的。
我:这菜看着就蔫蔫的啊?!
老板:从早上到现在,它以为没人要自己了,这不垂头丧气么!
我。。。

4、我问他:你今天怎么没上班儿啊?
表弟:那大舌头老板说,让我上班的时候,顺路捎十块钱的“砂纸”,结果我听成了“烧纸”
我:那也不至于开除你啊
表弟又说:老板看我买错了,让拿出去扔了,我跟他说,留着吧,万一再用上呢?

2.准备工作

要完成对冷笑话文字分析的目的,要确定分析的思路。将网络爬虫爬取到的文字保存到.txt文件中,程序自动读取文档中的文字信息,将其读出为字符串。

采用正则表达式对文字进行筛选,去除掉字符串列表中的无关字符,例如“的”,“地”,“得”等等无意义的助词等。

接下来就是工作的核心,将获取的字符分词,采用python的库jieba完成。jieba可以对中文字符串自动分解为自然语言的词语,可以用于对语言中的关键词汇提取。

为了更好的展现冷笑话里出现的高频词汇,将采用词云的方式进行展示。

所有工作用到的库如下:
codecs 由于读取的文本文档是纯中文的,采用python自带的open打开文本的时候容易出错,因此采用该方法。
re 正则表达式的库
jieba 中文分词库
wordcloud 词云库
matplotlib 绘图库

4.结果分析

根据以上过程绘制的词云如下图所示:


冷笑话词云

人物:特朗 普老板 老公 男友 姑娘 先生 女友 女朋友 哥们
量词:一下,两个,一个,一定,一次,一天,

5.源代码分享

# encoding: utf-8
"""
@version: 1.0
@author: Jarrett
@file: run_word_cloud
@time: 2020/3/20 18:17
"""
import jieba
import codecs
import re
from wordcloud import WordCloud,ImageColorGenerator
import matplotlib.pyplot as plt

filename = "./mytxtfile.txt"
f = codecs.open(filename,encoding='UTF-8')
mytxt = f.read()
f.close()

mytxt = re.sub(r"\d","",mytxt)
mytxt = re.sub(r"、","",mytxt)
mytxt = " ".join(jieba.cut(mytxt))


font_path="msyh.ttc"
wc = WordCloud(
    font_path=font_path,
    background_color='white',  # 背景色
    #mask=image,  # 背景图
    #stopwords=STOPWORDS,  # 设置停用词
    max_words=100,  # 设置最大文字数
    max_font_size=100,  # 设置最大字体
    width=800,
    height=1000,
)

# 生成词云
#image_colors = ImageColorGenerator()
wc.generate(mytxt)

# 使用matplotlib,显示词云图
plt.imshow(wc)  # 显示词云图
plt.axis('off')  # 关闭坐标轴
plt.show()
# 保存图片
wc.to_file('news.png')

6.总结

1.分析冷笑话的内容其实是比较物料的,倒是可以应用在其他的途径中,例如法律文书,小说书籍等等。
3.接下来想做一个做词云的小程序,这样可以本地化运行。
4.合作咨询事宜请私信。【微店】【樱桃智库】。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容