一个网站什么最重要?通常应该就是数据库了。那如何拿到这玩意?爬虫。爬虫是什么?简单说就是把目标网站的网页爬取并解析自己需要的数据保存到本地。比如你希望获取某个网站用户的分布,想要对某个网站的一些数据做分析的时候怎么办?最直接粗暴的就是直接拿到目标网站的数据库,然后想怎么分析就怎么分析,~哈哈~,当然这样就必须非法入侵了。那有没有明目张胆的办法?因为目标网站本来就是开放给用户浏览的,开放的网页就可以理解为目标数据库的另外一种呈现方式。所以如果把目标网站的所有网页全部访问一遍,拿到的数据其实跟直接访问目标数据库已经相差无几了。
传统的大家都会去爬目标网站的http(s)返回的html。网上介绍知乎爬虫的文章非常多,这主要是介绍一个不一样的思路。爬虫不一定非得是爬http,从客户端拿到api从api爬岂不是更高效、简单?
无意中发现知乎的Android客户端是可以不需要登录就能用的。如果不发言的话,不登录和登录没太大区别。先对客户端做下抓包。
api返回是常用的json,这个结构可要比去爬网页轻松多了,这真是爬到的都是瘦肉,没一点肥肉。
实际所有数据都是可以拿到的,这里只是解析了部分数据。