webscrape-link

link的抓取主要有3个

一link

直接用link抓取

link

当然这里面的链接是附在标题(文字)上的;
关键词——标题

源代码

二Element attribute

抓取微信公众号文章的时候,link遇到了无奈,首先无法select,于是前面加了一个element的父元素,link是能用了,可是没有结果……

image.png

于是,使用element attribute

使用方法和link基本一样,只是需要在Attribute Name那一栏填写一段东西【hrefs】

它是右键某篇文章,然后点击检查发现的

image.png
image.png

图二中,圆圈中的是Class,方框中的是hrefs=链接内容(link)

某块区域的链接,没有固定的标题附着
关键词——区域,有Class

image.png

源代码(空空如也)
然后使用了右键检查功能

三element attribute +

这里面的🌰用的是大众点评的菜系抓取

源代码
检查

两个基本是相同的格式,网页链接不是分开的,而是集中在一个Class里。

虽然,可以用element attribute把链接抓下来,可是我只想要菜系的,所以考虑用element建立范围限制。

image.png
image.png

总之,在【<a href= ####】这个格式中,链接基本上都抓取下来了

image.png

链接终于抓出来了,可是多了一个没法忽略的搅屎棍,就是那个【收起】/【展开】切换的键,它也是有链接的,于是,如果链接文本一块抓的话,多出来的一行链接就会成为文本与对应链接间的一条鸿沟。

其中的【a】是这段代码的第一个符号,它是关键

关键点——一个CLASS,一群链接

总结

抓取链接的时候,可以考虑观察【检查】或者【源代码】,看是否有链接信息,是分开独立的,还是区域划分。

像简书、知乎,基本上就是一个标题附加一个链接,相互独立。

而像公众号网页历史记录这种链接没有一标题作为载体,是区域负载,所以源代码空空如也,只有检查里才有。

最后,像一些统计类的网页(大众点评),同一区域的小标题链接在一个共同的大Class下,这个时候就得用element attribute +了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,242评论 19 139
  • mean to add the formatted="false" attribute?.[ 46% 47325/...
    ProZoom阅读 2,735评论 0 3
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,366评论 25 709
  • 上一节回顾 繁星似水目录 江左满怀期待的走在崎岖的山路上。前面不远,就是那座山了,今天又是晴天,夜晚的星星一定会很...
    杜木土阅读 995评论 13 3
  • 为什么你越努力,越焦虑? 为什么你追求幸福时,如此急功近利? 为什么你知道很多道理,却依然过不好这一生? 为什么你...
    李小维Livy阅读 966评论 0 7