爬虫学习1

一.Chrome的开发者工具

1.1界面介绍

打开快捷键Fn+F12
Elements: 从浏览器的角度查看渲染的HTML、CSS、DOM对象
Network：页面向服务器请求了哪些资源、资源大小以及加载资源的相关信息，HTTP的请求与返回内容。
1. 点击name 可以出现【headers】
2. 提取URL和最后的【user-agent】
3. 如图所示：
4. 图片
sources：源代码面板调试JAVAscript
console：控制台面板：显示各种警告与错误信息，可实现shell在页面上与javascript的交互
performance：使用可以记录和查看网址生命周期内发生各种事件来提高页面运行时的性能。
memory：同上还有更多信息，如跟踪内存泄漏
application：检查加载的所有资源
security：安全面板，处理证书问题

from lxml import etree
import requests
from lxml.html import fromstring,tostring
url='https://www.python.org/box/supernav-python-about/'
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"}
z1=requests.get(url,headers=headers)
z1.status_code
#http状态码为200(这就是headers的作用)
https://www.jianshu.com/p/3c00d57d0244

10.补充
补充：在录入url的时候，若是出现URL编码异常需要解码，例如:http://www.bgpc.gov.cn/defaults/news/news/page/2%2Ftid%2F3

在线解码工具地址：http://tool.chinaz.com/Tools/urlencode.aspx

异步频道录入：http://www.gdgpo.gov.cn/queryMoreInfoList.do

1.2.作业

爬取网站：搜狗源代码html内容，提交： python代码，爬取html内容。

import urllib.request
response=urllib.request.urlopen("https://www.sogo.com")
print(response.read().decode("utf-8"))

最后编辑于：2020.11.20 13:18:41

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

爬虫学习1

爬虫学习1

一.Chrome的开发者工具

1.1界面介绍

1.2.作业

相关阅读更多精彩内容

友情链接更多精彩内容