python爬虫获取微博吴某凡微博热评

2021年的七月,最大的瓜应该就是吴某凡了。

娱乐圈爆瓜,早已不是什么新鲜事,但吴某凡这个瓜,尤其的大!

事情是这样的,一位叫“都某竹”的大一女孩在微博爆料,称与吴某凡恋爱期间遭受冷暴力

并称吴某凡存在“选妃”及“诱骗”未成年女孩的行为

随后,又有多位自称和吴某凡有过关系牵扯的女孩纷纷晒出聊天记录,以佐证吴某凡的行径。

事实真是那样的吗?来看看1000000+网友是怎么说的?

目标确定

我们的目标就是这1000000+条吴某凡微博的下面的网友评论

看看他们是如何评价的 ?

需求分析

我们要获取的数据如有

用户id、作者名称、作者座右铭、发帖时间和发帖内容。

首先我们F12打开浏览器开发者模式:

找到我们的目标url:

https://m.weibo.cn/comments/hotflow?id=4660583661568436&mid=4660583661568436&max_id_type=0

还有防反爬参数headers

我们用浏览器打开链接,发现这是一个标准的json格式的数据集,

我们所要的数据都在这个json数据里面

所以第一步,先获取这个json格式的数据集。

发送请求

目标很清楚了,接下来上代码:

url ='https://m.weibo.cn/comments/hotflow?id=4660583661568436&mid=4660583661568436&max_id_type=0'

print('当前url是:', url)

headers = {

'cookie':'SUB=_2A25NyTOqDeRhGeVG7lAZ9S_PwjiIHXVvMl3irDV6PUJbktB-LVDmkW1NT7e8qozwK1pqWVKX_PsKk5dhdCyPXwW1; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFGibRIp_iSfMUfmcr5kb295NHD95Q01h-E1h-pe0.XWs4DqcjLi--fi-2Xi-2Ni--fi-z7iKysi--Ri-8si-zXi--fi-88i-zce7tt; _T_WM=98961943286; MLOGIN=1; WEIBOCN_FROM=1110006030; XSRF-TOKEN=70a1e0; M_WEIBOCN_PARAMS=oid%3D4648381753067388%26luicode%3D20000061%26lfid%3D4648381753067388%26uicode%3D20000061%26fid%3D4648381753067388',

'referer':'https://m.weibo.cn/detail/4660583661568436',

'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4573.0 Safari/537.36'

}

resp = requests.get(url, headers=headers).json()

wb_info = resp['data']['data']

print(wb_info)

解析页面

上一步已经成功模拟浏览器获取到了数据。

接下来就是如何在其中提取出我们的目标数据

for item in wb_info:

user_id = item.get('user')['id']# 用户id

author = item['user']['screen_name']# 作者名称

auth_sign = item['user']['description']# 作者座右铭

time = str(item['created_at']).split(' ')[1:4]

rls_time ='-'.join(time)# 发帖时间

text =''.join(re.findall('[\u4e00-\u9fa5]', item['text']))# 发帖内容

print(user_id, author, auth_sign, rls_time, text)

'''

6414472816 三时王京 三夜两头刷你的微博 Jul-19-08:06:52 滚

6556281551 金泰妍以律己 你担没拿过大赏还天天贬低大赏的别跟我说话 Jul-19-08:09:16 这文案不会想了一晚没睡吧吃惊

3320924712 Lionright 我喜欢的人都是星星都是光 Jul-19-08:07:06 吐了

1966108801 粥拾玖 美乐蒂想家 Jul-19-08:09:13 急了急了他急了

6300343274 小小小镜子啊 生活是一场又一场  美好事物的追逐 Jul-19-08:08:53 滚出中国

5776571462 削了皮的土豆炖肉 百事可乐 万事芬达 心情雪碧 一周七喜 Jul-19-08:07:21 你信么我不信太开心

5041911786 Liekkas_w 夏天的风我永远记得 Jul-19-08:06:50 滚吧你

2316414853 是傻瓜吗 正义必胜 Jul-19-08:17:02 好看的都在他床上难看的都在控评

5737714811 爱吃酥脆虾饼D 🌫 Jul-19-08:11:56 签子我们相信你泪泪泪泪泪

5366720146 第一眼的意中人  Jul-19-08:13:52 控评严重也就算了你特么自己也给那些说相信你的人点赞让在前排吐了二哈

5599841983 今天呼吸了吗15 国家二级足球运动员 Jul-19-08:18:08 滚出中国吧

3284861767 看银河捕捉星星 我不唱声嘶力竭的情歌 Jul-19-08:07:53 我们在

6446391321 你奈我何-Kris- 我对你们所有人的态度取决于你对吴亦凡的态度。Jul-19-08:06:56 我们一直在心

5225883987 啥也不是kym 看啥呢?我只是素丝。Jul-19-08:06:55 相信你

'''

数据成功获取!

没事咱们来接着分析翻页。先从每一页的url开始。

https://m.weibo.cn/comments/hotflow?id=4660583661568436&mid=4660583661568436&max_id_type=0

https://m.weibo.cn/comments/hotflow?id=4660583661568436&mid=4660583661568436&max_id=27509545759071812&max_id_type=0

https://m.weibo.cn/comments/hotflow?id=4660583661568436&mid=4660583661568436&max_id=11396065415043588&max_id_type=0

https://m.weibo.cn/comments/hotflow?id=4660583661568436&mid=4660583661568436&max_id=5160872412930597&max_id_type=0

相信大家一眼就看出来了,从第二页开始,多了一个max_id的参数。

并且这个max_id是跟随页数随机变化的。

那现在问题就变成了如何获取max_id

通过第一页的链接获取到了第二页的max_id,

然后通过第二页的链接获取到第三页max_id

以此类推,获取到全部数据......

之后接着把内容使用openpyxl保存到Excel文件中,如下图所示。

ws = op.Workbook()

wb = ws.create_sheet(index=0)

wb.cell(row=1, column=1, value='用户id')

wb.cell(row=1, column=2, value='作者名称')

wb.cell(row=1, column=3, value='作者座右铭')

wb.cell(row=1, column=4, value='发帖时间')

wb.cell(row=1, column=5, value='发帖内容')

count =2

wb.cell(row=count, column=1, value=user_id)

wb.cell(row=count, column=2, value=author)

wb.cell(row=count, column=3, value=auth_sign)

wb.cell(row=count, column=4, value=rls_time)

wb.cell(row=count, column=5, value=text)

ws.save('666.xlsx')

先获取50页数据练练手

获取到的部分数据如下:

可视化展示

rcv_data = pd.read_excel('./666.xlsx')

exist_col = rcv_data.dropna()# 删除空行

c_title = exist_col['发帖内容'].tolist()

# 观影评论词云图

wordlist = jieba.cut(''.join(c_title))

result =' '.join(wordlist)

pic ='img1.jpg'

gen_stylecloud(text=result,

icon_name='fab fa-apple',

font_path='msyh.ttc',

background_color='white',

output_name=pic,

custom_stopwords=['你','我','的','了','在','吧','相信','是','也','都','不','吗','就','这','还','说','一个','一直','我们']

)

print('绘图成功!')

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 一、openpyxl介绍安装 1.为什么要学Excel 存测试数据 有时候有大批量的数据,存到TXT文件里面显然不...
    Kingtester阅读 1,768评论 0 1
  • 前段时间在整理爬虫知识体系的时候,本着实践出真理的出发点,特意小试牛刀,写了几个不同类型的爬虫。然而在写微博评论的...
    菇凉爱学习阅读 25,465评论 43 41
  • 1、 5//2=25/2=2.52、全局变量 global foo3、list.index(xx) 没有则引发异...
    SkTj阅读 319评论 0 0
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,520评论 28 53
  • 人工智能是什么?什么是人工智能?人工智能是未来发展的必然趋势吗?以后人工智能技术真的能达到电影里机器人的智能水平吗...
    ZLLZ阅读 3,763评论 0 5