爬虫第二次作业-0706

感谢曾老师耐心的讲解和细致的回答。

本次课的作业如下：

选择简书“解密大数据”专题里上次爬虫课的作业文档地址作为分析页面，分析并提交该页面的网页结构与元素标签位置信息。

前言

作为一个技术小白，其实还是蛮难分得清F12在各个浏览器上表现的不同的。还好曾老师推荐了Firefox，果然画风亲民，本次课业便拜托它了。

答题前先做题目分解：

1.目标页面：简书“解密大数据”专题里上次爬虫课的作业文档地址（http://www.jianshu.com/p/673b768c6084）

2.分析此页面结构

3.分析元素标签位置信息

4.使用工具：Firefox

1.导入目标页面

目标页面一共有三张截图，请一定要原谅技术小白不会截整页那种长图 /(ㄒoㄒ)/~~

页面结构_1

页面结构_2

页面结构_3

2.分析此页面结构

此页面大体分为5部分，分别是：

①写死不随页面滚动而滚动的 -- 顶部栏、侧边栏

②文章信息部分 -- 此部分共分为三块，一块在顶部（图1的④），包含文章名称和文章基础信息（作者、发表时间、字数、阅读情况）。第二块在中底部（图2的③），包含文章基础信息（作者、发表时间、字数、阅读情况）。第三块在底部（图3的③），包含文章收录情况。

③正文

④评论区

⑤推荐区

3.分析元素标签位置信息

全局顶部导航栏

用<nav></nav>括起来的元素是全局顶部导航栏

其中：，因logo支持链接跳转主页，所以在<img>上面会有<a></a>括起来的链接

全局顶部导航栏

"note"类

“note”类一共分为两个子类 “post” 和 “side-tool” ，分别为文章内容和右侧导航栏。

“note”类

随想：如果想抓取文章的标题，是不是按照 “note” - “post” - “article” - “title” 路径进行抓取就可以了？

小结

本次的作业差不多也就这样了，其实越写到后面思路越清晰，直到在画 “note” 类的树图时才意识到其实第一题在写分块的时候技术白的思想是有多不成熟。不过还是不改了，以此来记录思想进步的过程也不错，哈。本次作业的收获是：眼睛看到的结构并不是真实的结构，还是要先看代码再下判断。嗯。

最后编辑于：2017.12.08 14:25:53

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。