一.Chrome的开发者工具
1.1界面介绍
- 打开快捷键Fn+F12
- Elements: 从浏览器的角度查看渲染的HTML、CSS、DOM对象
- Network: 页面向服务器请求了哪些资源、资源大小以及加载资源的相关信息,HTTP的请求与返回内容。
- 点击name 可以出现【headers】
- 提取URL和最后的【user-agent】
- 如图所示:
- 图片
- sources: 源代码面板 调试JAVAscript
- console:控制台面板:显示各种警告与错误信息,可实现shell在页面上与javascript的交互
- performance:使用可以记录和查看网址生命周期内发生各种事件来提高页面运行时的性能。
- memory:同上还有更多信息,如跟踪内存泄漏
- application:检查加载的所有资源
- security:安全面板,处理证书问题
from lxml import etree
import requests
from lxml.html import fromstring,tostring
url='https://www.python.org/box/supernav-python-about/'
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"}
z1=requests.get(url,headers=headers)
z1.status_code
#http状态码为200(这就是headers的作用)
https://www.jianshu.com/p/3c00d57d0244
10.补充
补充: 在录入url的时候,若是出现URL编码异常需要解码,例如:http://www.bgpc.gov.cn/defaults/news/news/page/2%2Ftid%2F3
在线解码工具地址:http://tool.chinaz.com/Tools/urlencode.aspx
异步频道录入:http://www.gdgpo.gov.cn/queryMoreInfoList.do
1.2.作业
爬取网站:搜狗 源代码html内容,提交: python代码,爬取html内容。
import urllib.request
response=urllib.request.urlopen("https://www.sogo.com")
print(response.read().decode("utf-8"))