我们用八爪鱼采集器采集简书数据,能够将标题、阅读量、喜欢量、评论量都导出到Excel表格里,再通过Excel的筛选、排序等功能进行对比就方便多了。这个简单的采集技术,对我们收集数据、分析数据,有很大帮助,并且省时省力。
在上一篇里,我们采集了数据,仔细观察会发现,只采集出九篇文章。事实上,当时的文章总数是31篇。
为什么只采集到九条数据?打开简书【我的主页】,虽然向下拖动滚动条可以看到全部31篇文章,但事实上,一页之内的常规显示篇数只有九篇,向下拖动时,九条之后的数据是需要不断加载才能看到的,加载这个动作类似于翻页。当我们在采集数据的时候,默认只显示了一页的数据采集量,所以最终采集到的数据只有九篇。那么怎样解决页面加载的问题,从而把所有文章数据都采集齐全?利用【Ajax加载技术】。
Ajax 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
对于Ajax,我们没有编程基础,如果没有深入学习IT的计划,也不需要了解很深入,只要知道怎么用它就够了。
接下来我们加上Ajax加载技术,用八爪鱼再次采集简书全部文章的标题,阅读数量,喜欢数量,评论数量。
一、建立采集任务
依照上一篇文章的步骤,打开八爪鱼,输入简书【我的主页】网址,保存网址进入下一步,建立采集任务。
二、打开采集流程
采集器右上角有一个【流程】按钮,通常是关闭的,点击它,呈现蓝色,打开流程框,就可以看到网址和操作流程。点击右侧的小箭头,可以看到流程框里的几个操作选项。
三、使用Ajax加载技术
我们之前采集信息不全就是因为页面加载不全造成的,所以我们在【页面加载完成后向下滚动】前面的框框里打钩,这样采集时就默认页面全部加载完成后才开始采集。【滚动次数】我填了4次,因为经过我们上一次采集发现,一个页面默认是九篇文章,我一共有31篇文章,需要翻页4次,也就是要滚动加载4次,才能显示到第31篇文章。【每次间隔】我填5秒,这个地方可以根据个人的网速快慢来填,如果网速快加载快,填1秒也可以,网速慢加载慢,填10秒也可以。【滚动方式】选择【直接滚动到底部】,因为我们要采集简书【我的主页】里所有文章的信息,所以我们需要到最底部(即最末页)才能看到最早的一篇文章。选择完成后,点击右下角【确定】按钮。然后点击【流程】按钮关掉流程框,或者也可以不关闭流程框,直接开始选择标题,开始采集。
需要注意的是,在采集时,选择每一个字段都需要等页面加载完成后再开始动作。
四、采集数据
采集步骤参考上一篇文章如何快速统计简书数据——八爪鱼采集器(一)
采集过程中,我看到对话框中,仍然显示是9条数据,这是因为对话框里显示的是一个页面的数量。我们设置之后已经默认会拖动到页面最底部进行采集(即默认翻页采集)。
执行了Ajax加载技术之后,我们可以看到最后的采集结果是32篇文章的阅读信息全部采集出来了。然后导出数据到Excel表里进行编辑和对比就可以了。
八爪鱼采集器的使用看似麻烦,只是因为我们用的还不熟练,很多动作记不牢。当我们用熟之后,动作自然而然知道要怎么做,不用思考就能用好,就不会觉得难和累。
就像周明达老师讲过的:技术来自于次数,熟练的前提是练熟!