webscrape终于还是遇到了一个有意思的东西,关于网站那些你所看见的,看不见的。
看不见的是架构一个网站的程序,看见的就是程序的表达,也就是你所看到的‘真实’的网页的样子……
既然是找重复,那么[a.title]还有它上方的[div.content]应该都是可以用的是不是?测试一下……
果然,webscrape应该是以class作为抓取目标的锚点的。
可是简书上有个滑动鼠标加载的页面,于是还有一个子元素,那么子元素是否有呢?
结果发现[parent]在源代码里是找不到的,那么是不是所有父元素下面的子元素都是这种类型,或者说,在没有class的情况下就会出现这种情况?那就一个个测试
于是用微博继续测试
于是发现上图有两个可用的class,其中下面的那个就是之前选择的那个……,最后选择子元素的时候发现也是[parent],如果不重复,可不可以呢,直接用上面的那两个class组合一个
于是猜测上面那个class肯定是那几个图标中的一个,我也就认命了——没事抓什么头像图标,醉了……
也就是说,如果抓简书的时候将[div.content]作为父元素,将[a.title]作为子元素应该就会成功了……,于是成功了……
于是,突然发现……
发现了这么一件事……
代码还是那么的好玩,有意思……