Python 爬虫入门课作业2- 网页基础与结构分析

课堂作业要求

  • 选择简书“解密大数据”专题里面上次爬虫课的作业文档地址作为分析页面
  • 分析并提交该页面的网页结构分析与元素标签位置信息

作业内容

网页地址:http://www.jianshu.com/p/88d0addf64fa
浏览器:Chrome

HTML 基础

对html有一定基础,但有些元素不太熟悉,浏览页面源码时,摘录学习了下:

  • <!DOCTYPE>: 声明文档的类型,以便浏览器知道如何显示该文档。非Html标签。简书的声明是这样的:<!DOCTYPE html>,表示网页至少升级到[HTML5]的第一步。(http://www.w3school.com.cn/html/html5_intro.asp)。
  • HTML <meta> 标签:存放描述文档的元信息,比如作者、关键字、文档类型、编码等。简书的编码:<meta charset="utf-8">,支持各种语言显示。

页面结构

这个页面由三大部分组成:

  1. 顶部导航栏
    包含简书的一些基本功能元素,以及用户信息文章入口

  2. 正文
    包含文章正文,作者及支持部分,作者与读者互动评论部分,以及页边栏

  3. 底部
    包含简书的一些推荐内容

图片.png

页面标签位置

根据页面三大部分,在chrome中通过开发者工具,查看各部分对应源码,分析各页面元素位置:

所有的页面内容均包含在 <body lang="zh-CN" class="reader-black-font">

图片.png
  • 顶部导航栏
    可根据class属性“navbar navbar-default navbar-fixed-top”获取。
<nav class="navbar navbar-default navbar-fixed-top" role="navigation">

如要找到用户标签,可通过下面高亮的路径。


  • 正文
    所有内容均在<div class="note">标签内
图片.png
  • 底部
    所有内容均在<div class="note-bottom">内

全局图:


图片.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 14,706评论 1 92
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,956评论 25 709
  • 第3章 探索Bootstrap组件 在这一章,我们将开始使用Bootstrap的一些非常有用的HTML组件。诸如按...
    海上名月阅读 4,553评论 1 6
  • 第5章 菜单、按钮及导航 一、下拉菜单 小伙伴们注意,在Bootstrap框架中的下拉菜单组件是一个独立的组件,根...
    凛0_0阅读 10,584评论 0 66
  • 1 在我们国家并没有一个官方的成人礼仪式,没有统一模板的十八岁呆萌照来给往后十年,二十年,三十年后...的自己回忆...
    洋葱羽毛阅读 9,560评论 0 49

友情链接更多精彩内容