Linux-Centos安装puppeteer(避免所有的坑)
之前已经讲过如何安装nodejs,点击链接进行查看
Linux-Centos安装NodeJs
1、首先使用cd命令切到项目所在目录(随意)(一定要使用root角色)
2、执行
mkdir puppeteerproject
创建项目文件夹
3、直接输入(不下载浏览器)以下指令安装puppeteer
npm i puppeteer@18.0.3 --ignore-scripts
4、进入puppeteer安装目录(node安装目录/bin下的node_modules)
cd node_modules
cd puppeteer
5、打开package.json文件查看puppeteer所对应的浏览器版本号
(1)打开文件
vi package.json
(2)使用键盘方向键查找puppeteer参数的位置
(3)记录下chromium_revision的版本号
https://storage.googleapis.com/chromium-browser-snapshots/Linux_x64/%d/chrome-linux.zip
将上链接地址中的%d替换成具体的版本号,例如上图所示的版本号
https://storage.googleapis.com/chromium-browser-snapshots/Linux_x64/756035/chrome-linux.zip
(4)在当前目录下,下载对应版本号的谷歌浏览器
wget https://storage.googleapis.com/chromium-browser-snapshots/Linux_x64/756035/chrome-linux.zip
(5)解压压缩包到当前目录下(也可解压到自定义目录),并且不会覆盖已有文件
unzip -n chrome-linux.zip
若提示bash: unzip: command not found,则先运行下面代码,之后再执行即可
yum install -y unzip zip
6、安装两个必须依赖
依赖
yum install pango.x86_64 libXcomposite.x86_64 libXcursor.x86_64 libXdamage.x86_64 libXext.x86_64 libXi.x86_64 libXtst.x86_64 cups-libs.x86_64 libXScrnSaver.x86_64 libXrandr.x86_64 GConf2.x86_64 alsa-lib.x86_64 atk.x86_64 gtk3.x86_64 -y
字体
yum install ipa-gothic-fonts xorg-x11-fonts-100dpi xorg-x11-fonts-75dpi xorg-x11-utils xorg-x11-fonts-cyrillic xorg-x11-fonts-Type1 xorg-x11-fonts-misc -y
7、js文件编写(###重中之重)
使用vi t.js创建一个node执行文件
放到服务器上的js文件和在本地windows或mac上运行的文件,有些基本配置会有所不同
以下代码效果是等待4.5s加载数据,返回360搜索页面的所有代码
puppeteer = require('puppeteer');
(async()=>{
const browser = await puppeteer.launch({executablePath: "/root/node-v12.18.1-linux-x64/bin/node_modules/puppeteer/chrome-linux/chrome",headless: true,args: ['--no-sandbox', '--disable-setuid-sandbox'], dumpio: false,timeout:60000});
const page = await browser.newPage();
await page.goto('https://www.so.com');
console.log('加载中*****');
//等待加载时间,测试可删除
await page.waitForTimeout(3000);
const temp = await page.$eval('body',el=>el.innerHTML);
console.log(temp);
await browser.close();
})()
(1)executablePath: "/root/node-v12.18.1-linux-x64/bin/puppeteerproject/node_modules/puppeteer/chrome-linux/chrome"
executablePath参数,是第5步解压谷歌浏览器的路径,可以使用pwd查看当前目录(全路径)
(2)args: ['--no-sandbox', '--disable-setuid-sandbox']
参数必须是禁用沙盒的
(3)如果增加该属性ignoreHTTPSErrors: true,会导致linux服务器上不执行代码
8、执行查看效果
node t.js