我们可以先不用着急,我们先来看看人工怎么去获取,那么我们针对珍爱网我们应该怎么发现用户呢?
- 通过城市列表->城市->下一页->用户
- 用过用户->猜你喜欢
- 通过已有的id-> +1猜测新的用户id
那么这里大家可能有个疑问,我们我们通过id+1的方式获取用户信息,我们岂不是都可以拿到所有用户的信息了呢?其实我们主要是想通过这个项目,让大家学习更多Go语言的知识,其实我也是一个学习者了,我们有时候也要站在学习者的角度上看待这个问题,(这里随便给大家一个学习的建议,没事逛逛慕课网一门课也不贵,有自己想看的可以试试)我们也可以做的更通用一些,列表页->详情页的模式还是很多的。。。。所以我们第三种方式就不用了!!!
我们首先从http://www.zhenai.com/zhenghun这个网址进入,也就是一个城市列表页,然后点击到达城市的人员列表,点击人员信息可以到达用户的详情页,具体顺序如下。。。。。
我们这里有个要注意的是如果有回执的链接我们一定要过滤掉,不然就死循环了这肯定不是我们想要的,那么我们这个项目虽说是分布式的,但是我们不能一开始就写分布式,我们要从单机版逐步推进最终掌握分布式爬虫的开发要领。。。。
OK, 开始操作把!!!!!