爬虫应用示例--puppeteer数据抓取的实现方法

一、背景

软件机器人自动化(RPA)技术近两年来应用越来越广泛,市面上也有比较多成熟的RPA产品。

利用puppeteer实现的RPA,可以实现远程数据自动抓取的爬虫应用功能。

二、需求描述

在一个指定的远程网站上,通过RPA输入查询条件执行查询后显示出结果清单,获取这个清单中的数据后执行翻页,直至取到全部数据为止。

三、实现思路

Puppeteer 是一个node库,内含了一个chrome浏览器(正是因为包含了这个导致安装非常麻烦),以及一组用来操纵Chrome的API。因此基于Puppeteer实现RPA就非常简单了,有了RPA我们就可以模拟手工操作进行远程数据的自动抓取,而这恰恰就是网络爬虫要实现的功能。

实现以上思路的基本流程为:
1、打开内含的chrome浏览器
2、进入指定的网站
3、找到条件输入框,输入查询条件(查询条件包括input、select,所以识别和处理方式并不相同)
4、点击查询按钮,执行查询,结果以分页方式显示
5、取到第一页的全部数据
6、检测是否有下一页数据,如果有则点击下一页的按钮
7、重复5、6两步直至结果的所有页面都获取完毕
8、多获取到的数据进行后续加工处理

四、代码示例

import puppeteer from 'puppeteer'    //引入puppeteer组件
。。。。。。
puppeteer.launch({启动参数}).then(async browser => {
    let page = await browser.newPage();      //在chrome中打开一个标签页
    await page.setJavaScriptEnabled(true);   
     await page.goto("远程网络地址");         //在该标签页上打开指定网址,如www.baidu.com
     let companyName = await page.$("#aa");    //输入条件是一个input,id="aa"
      await companyName.focus();          
      await page.keyboard.type("华为");     //在该input中输入查询条件,如"华为"
      await page.waitFor('#bb');              //输入条件是一个select,id="bb"
      await page.select('#bb','11');          //select的列表中有一个选择项value=11,自动选择value=11的选择项作为该输入条件的值
      let btnSearch = await page.$("#cc");    //执行查询的按钮是一个button,id="cc"
      await btnSearch.click();                     //自动点击该按钮,触发该按钮的click事件
       let btnNext = {} ;                             //下面开始处理结果集合
       do{          
           await page.waitFor('#table1');     //结果结合显示在一个table中,其id="table1"
           let data1 = await page.$$eval('# table1 tr', tds => tds.map((tr) => {
                 return tr.innerText.split('\t');
            }));      //当前页得所有数据都保存在data1中, data1是一个二维数组,data1[i]存储每一行数据,data1[i][j]存放第1行得第j列数据。
           btnNext = await page.$eval("#btnNext",obj => obj.href);   //下一页放在一个id=btnNext的a中,这个功能是获取下一页这个超链的跳转地址,如果还有下一页则结果就是跳转地址,如果没有下一页,则返回空
            if(btnNext){                 //有下一页的处理
                 btnNext = await page.$("#btnNext");   
                 await btnNext.click();          // 自动点击下一页的a,触发该a的click事件
             };
          } while(btnNext) ;
       。。。。。处理采集的数据
       await browser.close();    //关闭浏览器
});

五、后续

以上实现思路好理解,具体实现代码是个难点,不过通过上面的代码示例就可以轻松解决这个难点。

遗留的另外一个难点就是puppeteer组件的安装问题,具体另文再详细讲解。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容