爬虫精进(一) ------ requests模块 / html基础 / BeautifulSoup解析数据

一.requests模块

response.status_code :

二.查看网站的robots协议

在网站的域名后加上/robots.txt就可以了。

三.html

元素 : 开始标签+结束标签+中间的所有内容，它们在一起就组成了【元素】

网页头/网页体 :

HTML文档的最外层标签一定是<html>，里面嵌套着<head>元素与<body>元素。<head>元素代表了【网页头】，<body>元素代表了【网页体】，这是最基本的网页结构。
HTML文档和网页的内容一定是一一对应的。只是，【网页头】的内容不会被直接呈现在浏览器里的网页正文中，而【网页体】的内容是会直接显示在网页正文中的。

样式 :

属性 :

3. BeautifulSoup

提取数据对象类型变化 :

import requests # 调用requests库
from bs4 import BeautifulSoup # 调用BeautifulSoup库
res =requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 返回一个response对象，赋值给res
html=res.text
# 把res解析为字符串
soup = BeautifulSoup( html,'html.parser')
# 把网页解析为BeautifulSoup对象
items = soup.find_all(class_='books')   # 通过匹配属性class='books'提取出我们想要的元素
for item in items:                      # 遍历列表items
    kind = item.find('h2')               # 在列表中的每个元素里，匹配标签<h2>提取出数据
    title = item.find(class_='title')     #  在列表中的每个元素里，匹配属性class_='title'提取出数据
    brief = item.find(class_='info')      # 在列表中的每个元素里，匹配属性class_='info'提取出数据
    print(kind.text,'\n',title.text,'\n',title['href'],'\n',brief.text) # 打印书籍的类型、名字、链接和简介的文字

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

爬虫精进(一) ------ requests模块 / html基础 / BeautifulSoup解析数据

爬虫精进(一) ------ requests模块 / html基础 / BeautifulSoup解析数据

一.requests模块

二.查看网站的robots协议

三.html

标签 :

元素 : 开始标签+结束标签+中间的所有内容，它们在一起就组成了【元素】

网页头/网页体 :

样式 :

属性 :

3. BeautifulSoup

相关阅读更多精彩内容

友情链接更多精彩内容