如何使用Puppeteer进行新闻网站数据抓取和聚合

亿牛云代理

## 导语

Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。

## 概述

数据抓取是指从网页中提取所需的数据,如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起,形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景,它可以帮助我们获取最新的信息,分析舆情,发现趋势等。

使用Puppeteer进行数据抓取和聚合的基本步骤如下:

1. 安装Puppeteer库和相关依赖

2. 创建一个Puppeteer实例,并启动一个浏览器

3. 打开一个新的页面,并设置代理IP和请求头

4. 访问目标网站,并等待页面加载完成

5. 使用选择器或XPath定位元素,并获取元素的属性或文本

6. 将获取的数据存储到本地文件或数据库中

7. 关闭页面和浏览器

## 正文

### 安装Puppeteer库和相关依赖

要使用Puppeteer,我们首先需要安装Node.js环境,以及Puppeteer库和相关依赖。我们可以使用npm命令来安装,如下所示:

```javascript

// 在命令行中执行以下命令,安装Puppeteer库

npm install puppeteer

// 安装http-proxy-agent模块,用于设置代理IP

npm install http-proxy-agent

// 安装cheerio模块,用于解析HTML文档

npm install cheerio

```

### 创建一个Puppeteer实例,并启动一个浏览器

接下来,我们需要创建一个Puppeteer实例,并启动一个浏览器。我们可以使用puppeteer.launch方法来实现,该方法接受一个可选的配置对象作为参数,其中可以设置浏览器的各种选项,如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如:

```javascript

// 引入puppeteer模块

const puppeteer = require('puppeteer');

// 创建一个异步函数,用于执行爬虫任务

(async () => {

  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面

  const browser = await puppeteer.launch({ headless: false });

})();

```

### 打开一个新的页面,并设置代理IP和请求头

然后,我们需要打开一个新的页面,并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象,该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头,以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP,以避免被目标网站屏蔽或限制。例如:

```javascript

// 引入http-proxy-agent模块,用于创建代理对象

const HttpProxyAgent = require('http-proxy-agent');

// 创建一个异步函数,用于执行爬虫任务

(async () => {

  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面

  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面

  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为

  await page.setExtraHTTPHeaders({

    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

    'User-Agent':

      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',

  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码

  await page.authenticate({

    username: '16YUN',

    password: '16IP',

    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),

  });

})();

```

### 访问目标网站,并等待页面加载完成

接下来,我们需要访问目标网站,并等待页面加载完成。我们可以使用page.goto方法来访问一个URL,该方法返回一个Promise对象,表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决,或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成,该方法接受一个可选的配置对象作为参数,其中可以设置等待的事件类型、超时时间等。例如:

```javascript

// 创建一个异步函数,用于执行爬虫任务

(async () => {

  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面

  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面

  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为

  await page.setExtraHTTPHeaders({

    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

    'User-Agent':

      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',

  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码

  await page.authenticate({

    username: '16YUN',

    password: '16IP',

    agent: new HttpProxyAgent('http://www.16yun.cn:9020'),

  });

  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发

  await page.goto('https://news.163.com/', {

    waitUntil: 'networkidle2',

  });

})();

```

### 使用选择器或XPath定位元素,并获取元素的属性或文本

然后,我们需要使用选择器或XPath定位元素,并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数,表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码,并返回执行结果。我们可以使用这个方法来获取元素的属性或文本,或者进行其他操作。例如:

```javascript

// 创建一个异步函数,用于执行爬虫任务

(async () => {

  // 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面

  const browser = await puppeteer.launch({ headless: false });

  // 打开一个新的页面

  const page = await browser.newPage();

  // 设置请求头,模拟正常的浏览器行为

  await page.setExtraHTTPHeaders({

    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',

    'User-Agent':

      'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',

  });

  // 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码

  await page.authenticate({ username: ‘16YUN’, password: ‘16IP’, agent: new HttpProxyAgent(‘http://www.16yun.cn:9020’), });

  // 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发

  await page.goto(‘https://news.163.com/’, { waitUntil: ‘networkidle2’, });

  // 使用选择器获取杭州亚运会相关的新闻列表,返回一个元素数组

  const newsList = await page.$$(‘.news_title h3 a’);

  // 创建一个空数组,用于存储新闻数据

  const newsData = [];

  // 遍历新闻列表,获取每个新闻的标题、链接、时间和来源

  for (let news of newsList) {

    // 获取新闻的标题,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果

    const title = await page.evaluate((el) => el.innerText, news);


    // 获取新闻的链接,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果   

    const link = await page.evaluate((el) => el.href, news);

    // 获取新闻的时间和来源,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果

    const timeAndSource = await page.evaluate(

    (el) => el.parentElement.nextElementSibling.innerText,news);

    // 将新闻数据添加到数组中

    newsData.push({

      title,

      link,

      timeAndSource,

    });

    }

// 打印新闻数据

console.log(newsData); })();                                                                                       

```

## 案例

运行上述代码,我们可以得到如下输出:

```javascript

[

  {

    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'

  },

  {

    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'

  },

  {

    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'

  },

  {

    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'

  },

  {

    title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',

    link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',

    timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'

  }

]

```

这样,我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

## 结语

本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库,它可以让我们轻松地控制浏览器,实现各种自动化任务。通过使用代理IP,我们可以提高爬虫的效果,避免被目标网站屏蔽或限制。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容