博客园热门文章抓取
一、背景
热门文章对于读者来说是获取信息、学习知识的重要途径,对于博主来说是展示自己的见解和经验、提升影响力的机会。
热门文章通常涵盖了当前热门话题、技术趋势、行业动态等内容,读者可以通过阅读这些文章获取最新的信息和知识。同时,博主通过发布热门文章可以分享自己的见解和经验。
热门文章通常包含有价值的知识和经验,可以帮助读者学习新技能、解决问题,促进知识的传播和交流。一些优质的热门文章可能会给读者带来启发和激励,激发他们对某个领域的兴趣,或者帮助他们解决工作或学习中的困惑。
热门文章往往会吸引大量读者的关注和评论,读者可以通过评论交流看法、提出问题,与其他读者和博主进行互动。博客园的热门文章会被更多的人看到,有助于提升博主的影响力和知名度,同时也可以推广博主的个人品牌或业务。
我目前采用的是“粒元数字员工”。通过这款RPA可以自动抓取,遍历热门文章列表获取信息,存储到Excel中。
二、步骤分解及效果预览
步骤操作如下:
(1).打开浏览器,输入博客园网址。
(2).循环当前页面的文章列表单。
(3).获取到 文章标题,作者,时间,点赞量,评论数,阅读数等信息。
(4).保存到excel中。
三、RPA具体操作步骤:
1.打开rpa客户端,新建应用,选择移动端自动化应用
2.数据是要存到excel的,于是我们先准备好excel 存放的位置及表头。存放的就放电脑桌面文件名就为"博客园48小时热门文章.xlsx",在指令栏操作系统类目下都有相关指令,具体实现看下代码截图。
这代码就初始化好了数据的存放路径及Sheet(日期时间格式)表头的生成。如果运行这些代码桌面的就会有“博客园48小时热门文章.xlsx”文件且存在Sheet(日期时间格式)带有标题、发布时间 、作者、阅读数、评论数、点赞数的表头。
3.接下来就是打开让浏览器打开网址。这里需要让浏览器安装插件,然后获取匹配元素,这样才能保证RPA自动化运行。
4.循环这一页的所有标题
5.循环这一页的所有的作者(发布人)。
6.循环这一页的所有的发布时间(发布人)
7.循环这一页的所有的评论数(发布人)
8.循环这一页的所有的点赞数(发布人)
9.循环这一页的所有的阅读数(发布人)
10.将上面获取的数据写入到excel
把一页中的标题、发布时间 、作者、阅读数、评论数、点赞数写入到excel中,大大节省了数据时间存储时间,从而达到11秒内把三十几条数据抓取到,节省了不少的时间。
11.整体的代码截图。
12.此应用目前已上传到市场
四、使用心得
总体流程搭建其实很简单,就是把人工操作的步骤一步一步用应用脚本代替。需要考虑到的是人工能随时处理各种情况,脚本逻辑是固定的,处理效率上也更快更稳定。所以需要提前考虑到各种异常情况,比如没有搜索结果、网络异常等。找了几款RPA工具, 只有“粒元数字员工”的能力比较全面,感兴趣的朋友可以看看。