-
使用到框架:requests+bs4(BeautifulSoup)+pymysql
requests
: 一个数据抓取框架
bs4
:HTML
解析框架
pymysql
:python
数据库框架 -
框架安装:
- 安装命令:
pip3 install XXX
- 安装命令:
- 开整!
1.导入框架
import requests
from bs4 import BeautifulSoup
2.让我们以抓取糗百首页为例:
r = requests.get("https://www.qiushibaike.com/text")
print(r.text) #此时打印出首页html内容了已经
3.创建bs对象,用于从html中过滤有效内容
q = BeautifulSoup(r.text, 'html.parser')
4.期望从整个html中解析出正文内容example
:<div class="content"> <span> 今天我耍朋友去了 晚上回去 爹妈问 你今天跑哪里去了 我说 我说朋友去了 他们呵呵一声冷笑 就你这样儿还耍的到朋友? 哭了。。。 </span> </div>
1.首先我们要取出所有的
div
节点
2.然后在所有的div
节点中筛选出我们的目标div
divs = q.find_all('div')
for div in divs:
if div['class'] == ['content']: #正文
text = div.span.text
print(text) #自定义存储
- 总结:整理的流程就是:
从页面抓取数据 -> 对数据解析,取出内容 -> 内容存储/分析 -> 展示