如何使用Puppeteer在Node JS服务器上实现动态网页抓取

亿牛云代理

### 导语

动态网页抓取是指通过模拟浏览器行为,获取网页上的动态生成的数据,如JavaScript渲染的内容、Ajax请求的数据等。动态网页抓取的难点在于如何处理网页上的异步事件,如点击、滚动、等待等。Puppeteer是一个基于Node JS的库,它提供了一个高级的API,可以控制Chrome或Chromium浏览器,实现动态网页抓取。本文将介绍如何使用Puppeteer在Node JS服务器上实现动态网页抓取,并给出一个简单的案例。

### 概述

Puppeteer的核心功能是提供了一个Browser类,它可以启动一个Chrome或Chromium浏览器实例,并返回一个Browser对象。Browser对象可以创建多个Page对象,每个Page对象对应一个浏览器标签页,可以用来加载和操作网页。Page对象提供了一系列的方法,可以模拟用户的各种行为,如输入、点击、滚动、截图、PDF等。Page对象还可以监听网页上的事件,如请求、响应、错误、加载等。通过这些方法和事件,可以实现对动态网页的抓取。

### 正文

要使用Puppeteer进行动态网页抓取,首先需要安装Puppeteer库。可以通过npm或yarn来安装:

```javascript

// 使用npm安装

npm i puppeteer

// 使用yarn安装

yarn add puppeteer

```

安装完成后,就可以在Node JS代码中引入Puppeteer库,并使用它来启动浏览器和创建页面:

```javascript

// 引入puppeteer库

const puppeteer = require('puppeteer');

// 启动浏览器并创建页面

(async () => {

  // 启动浏览器,可以传入一些选项,如无头模式、代理等

  const browser = await puppeteer.launch({

    headless: false, // 是否无头模式,默认为true

    args: ['--proxy-server=http://username:password@domain:port'] // 设置代理服务器,使用亿牛云爬虫代理的域名、端口、用户名、密码

  });

  // 创建页面

  const page = await browser.newPage();

})();

```

创建页面后,就可以使用page对象的方法来加载和操作网页。例如,可以使用page.goto(url)方法来访问一个网址,并等待网页加载完成:

```javascript

// 访问一个网址,并等待网络空闲(即没有超过500ms的请求)

await page.goto('https://www.example.com', {waitUntil: 'networkidle0'});

```

然后,可以使用page.evaluate(pageFunction, ...args)方法来在浏览器中执行一些JavaScript代码,并返回结果。例如,可以获取网页上的某个元素的文本内容:

```javascript

// 获取网页上的h1元素的文本内容

const h1Text = await page.evaluate(() => {

  return document.querySelector('h1').textContent;

});

```

除了evaluate方法外,page对象还提供了一些其他的方法来获取和操作网页上的元素,如page.$(selector)、page.$$(selector)、page.click(selector)、page.type(selector, text)等。例如,可以模拟用户在搜索框中输入关键词,并点击搜索按钮:

```javascript

// 在搜索框中输入关键词

await page.type('#search-input', 'puppeteer');

// 点击搜索按钮

await page.click('#search-button');

```

有时候,我们需要等待一些异步事件发生后再进行下一步操作,如等待某个元素出现、等待某个请求完成等。这时候,我们可以使用page.waitFor(selectorOrFunctionOrTimeout, options, ...args)方法来设置等待条件。例如,可以等待搜索结果的列表出现后再获取其内容:

```javascript

// 等待搜索结果的列表出现

await page.waitFor('#search-results');

// 获取搜索结果的列表的文本内容

const resultsText = await page.evaluate(() => {

  return document.querySelector('#search-results').textContent;

});

```

最后,当我们完成了对网页的抓取,我们可以使用page.screenshot(options)或page.pdf(options)方法来保存网页的截图或PDF文件。例如,可以将网页保存为png格式的图片:

```javascript

// 将网页保存为png格式的图片

await page.screenshot({path: 'example.png'});

```

当我们不再需要浏览器和页面时,我们可以使用browser.close()方法来关闭浏览器:

```javascript

// 关闭浏览器

await browser.close();

```

### 案例

下面给出一个简单的案例,使用Puppeteer在Node JS服务器上实现动态网页抓取。该案例的目标是访问百度首页,输入关键词“puppeteer”,点击搜索按钮,等待搜索结果出现,并将搜索结果的第一条链接的标题和网址保存到一个文件中。

```javascript

// 引入puppeteer库和fs库(用于文件操作)

const puppeteer = require('puppeteer');

const fs = require('fs');

// 定义一个异步函数,用于执行动态网页抓取

(async () => {

  // 启动浏览器,设置代理服务器为亿牛云爬虫代理的域名、端口、用户名、密码

  const browser = await puppeteer.launch({

    args: ['--proxy-server=http://16YUN:16IP@www.16yun.cn:3100']

  });

  // 创建页面

  const page = await browser.newPage();

  // 访问百度首页,并等待网络空闲

  await page.goto('https://www.baidu.com', {waitUntil: 'networkidle0'});

  // 在搜索框中输入关键词“puppeteer”

  await page.type('#kw', 'puppeteer');

  // 点击搜索按钮

  await page.click('#su');

  // 等待搜索结果的列表出现

  await page.waitFor('#content_left');

  // 获取搜索结果的第一条链接的标题和网址

  const firstResult = await page.evaluate(() => {

    // 获取第一条链接的元素

    const firstLink = document.querySelector('#content_left .result.c-container a');

    // 返回标题和网址

    return {

      title: firstLink.innerText,

      url: firstLink.href

    };

  });

  // 将标题和网址保存到一个文件中

  fs.writeFileSync('result.txt', `${firstResult.title}\n${firstResult.url}`);

  // 关闭浏览器

  await browser.close();

})();

```

### 结语

本文介绍了如何使用Puppeteer在Node JS服务器上实现动态网页抓取,并给出了一个简单的案例。Puppeteer是一个强大而灵活的库,可以用来处理各种复杂的动态网页抓取场景。使用Puppeteer进行动态网页抓取时,需要注意以下几点:

- 设置合适的代理服务器,以避免被目标网站屏蔽或限制。可以使用亿牛云爬虫代理提供的高质量的代理IP,提高爬虫效果。

- 设置合适的等待条件,以确保网页上的异步事件完成后再进行下一步操作。可以使用page.waitFor方法来设置等待条件,如元素、函数、时间等。

- 设置合适的异常处理,以应对可能发生的错误或异常。可以使用try...catch语句来捕获和处理错误或异常。

希望本文对你有所帮助,如果你有任何问题或建议,请在下面留言。谢谢!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容

  • 1、puppeteer 配置反爬策略,抓取动态网页内容2、本demo需使用npm安装kafka-node与pupp...
    峨眉剑客阅读 1,201评论 0 0
  • 前面爬取的网页均为静态网页,这样的网页在浏览器中展示的内容都位于HTML源代码中。但是由于主流网站使用JavaSc...
    影子_7a25阅读 813评论 0 0
  • 一、静态网页资源 1.静态网页资源介绍 在网页设计上,纯粹HTML格式的网页(可以包含图片、视频、JS(前端功能实...
    藏鋒1013阅读 1,384评论 0 2
  • 静态网页资源 什么是静态网页资源?静态网页资源是开发者编写的,放在服务器上看到的是什么显示的就是什么,一旦编写完成...
    阿昊v阅读 844评论 0 1
  • 大家在做数据爬虫时一般会遇到这几个问题: 如何解析动态网页 如弹窗 、通过Ajax异步请求渲染页面; 深度爬取 ,...
    郭彦超阅读 3,062评论 0 1