总体算法

我们可以先不用着急,我们先来看看人工怎么去获取,那么我们针对珍爱网我们应该怎么发现用户呢?

  • 通过城市列表->城市->下一页->用户
  • 用过用户->猜你喜欢
  • 通过已有的id-> +1猜测新的用户id

那么这里大家可能有个疑问,我们我们通过id+1的方式获取用户信息,我们岂不是都可以拿到所有用户的信息了呢?其实我们主要是想通过这个项目,让大家学习更多Go语言的知识,其实我也是一个学习者了,我们有时候也要站在学习者的角度上看待这个问题,(这里随便给大家一个学习的建议,没事逛逛慕课网一门课也不贵,有自己想看的可以试试)我们也可以做的更通用一些,列表页->详情页的模式还是很多的。。。。所以我们第三种方式就不用了!!!
我们首先从http://www.zhenai.com/zhenghun这个网址进入,也就是一个城市列表页,然后点击到达城市的人员列表,点击人员信息可以到达用户的详情页,具体顺序如下。。。。。

city.png

我们这里有个要注意的是如果有回执的链接我们一定要过滤掉,不然就死循环了这肯定不是我们想要的,那么我们这个项目虽说是分布式的,但是我们不能一开始就写分布式,我们要从单机版逐步推进最终掌握分布式爬虫的开发要领。。。。
process.png

OK, 开始操作把!!!!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 177,170评论 25 709
  • 白茴早就记不清自己到底多少次自杀 但这一次,她再也没有醒来 她睡着年少无知的薄凉 安然无事 ...
    叶清然阅读 3,914评论 6 4
  • 源码下载 源码获取有两种渠道:一种是通过Spark官网直接下载,第二种是通过github直接将spark的代码cl...
    零度沸腾_yjz阅读 4,375评论 1 6
  • 功夫不负有心人,的确如此。 原本月初就应该制定出来与公司员签订的协议,却一天一天的拖延。 今天早上终于下定决心把它...
    倪昔武重庆从乐农业阅读 2,361评论 0 0
  • 《奇葩大会》开播了,而且,居然请来了天山童姥何老师加盟!四个有文化又有趣的中老年男神,终于凑成了完整的一桌!感觉朝...
    弥撒猫阅读 3,843评论 0 50

友情链接更多精彩内容