爬虫学习1

一.Chrome的开发者工具

1.1界面介绍

  1. 打开快捷键Fn+F12
  2. Elements: 从浏览器的角度查看渲染的HTML、CSS、DOM对象
  3. Network: 页面向服务器请求了哪些资源、资源大小以及加载资源的相关信息,HTTP的请求与返回内容。
    1. 点击name 可以出现【headers】
    2. 提取URL和最后的【user-agent】
    3. 如图所示:
    4. 图片
  4. sources: 源代码面板 调试JAVAscript
  5. console:控制台面板:显示各种警告与错误信息,可实现shell在页面上与javascript的交互
  6. performance:使用可以记录和查看网址生命周期内发生各种事件来提高页面运行时的性能。
  7. memory:同上还有更多信息,如跟踪内存泄漏
  8. application:检查加载的所有资源
  9. security:安全面板,处理证书问题
from lxml import etree
import requests
from lxml.html import fromstring,tostring
url='https://www.python.org/box/supernav-python-about/'
headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"}
z1=requests.get(url,headers=headers)
z1.status_code
#http状态码为200(这就是headers的作用)
https://www.jianshu.com/p/3c00d57d0244
​

10.补充
补充: 在录入url的时候,若是出现URL编码异常需要解码,例如:http://www.bgpc.gov.cn/defaults/news/news/page/2%2Ftid%2F3

在线解码工具地址:http://tool.chinaz.com/Tools/urlencode.aspx

异步频道录入:http://www.gdgpo.gov.cn/queryMoreInfoList.do

1.2.作业

爬取网站:搜狗 源代码html内容,提交: python代码,爬取html内容。

import urllib.request
response=urllib.request.urlopen("https://www.sogo.com")
print(response.read().decode("utf-8"))
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容