Python爬虫系列19-采集B站视频弹幕数据

序言

种一棵树最好的时间是十年前,其次是现在。
不管自己想做一件什么样的事情,要么全力以赴,要么果断放弃,明确对生活的态度会让一切变得更好简单。
当我们同时做很多件事情的时候,很有可能一件事情都做不好,倒不如专注的做好一件事,来的更好。

实战

image.png

代码源文件

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
 
# 弹幕保存文件
file_name = '冷笑话.csv'
# 获取页面
cid = 161896483
url = "https://comment.bilibili.com/" + str(cid) + ".xml"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
    }
request = requests.get(url=url, headers=headers)
request.encoding = 'utf-8'

# 提取弹幕
soup = BeautifulSoup(request.text, 'lxml')
results = soup.find_all('d')

# 数据处理
data = [data.text for data in results]
# 正则去掉多余的空格和换行 
for i in data: 
    i = re.sub('\s+', '', i)

# 查看数量
print("弹幕数量为:{}".format(len(data)))
 
# 输出到文件 
df = pd.DataFrame(data) 
df.to_csv(file_name, index=False, header=None, encoding="utf_8_sig")
print("写入文件成功")
image.png

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容