phantomJS服务
phantomjs 是 一个基于 webkit 内核的无头浏览器,没有 UI 界面。它就是一个浏览器,只是内部的点击、翻页等人为相关操作需要程序设计实现。提供了 javascript API 接口,可以通过 js 直接与 webkit 内核交互,提供了 windows、linux、mac 等不同 OS 的安装使用包。
phantomjs官网:http://phantomjs.org/
GitHub地址:https://github.com/ariya/phantomjs
phantomjs使用方法
phantomjs安装方式很简单,直接官网下载解压以后就可以使用,例如windows版本
bin目录下就是phantomjs.exe
examples目录下是官网给我们使用的常用js
运行方式命令详情:phantomjs [options] somescript.js [arg1 [arg2 [...]]]
options是命令部分选项,需要可以自行查询~
cmd示例:.\bin\phantomjs.exe .\examples\rasterize.js http://www.baidu.com baidu.png
后边两个参数分别为你需要截图的地址(如果是网络地址必须包含http), 截图后生成图片目录
phantomjs核心模块
如你所见使用phantomjs最重要的是编写js,而js中引用它的部分api,下边伪代码讲讲最重要的几个模块
核心模块webpage:
var webPage = require('webpage');
var system = require('system'); //主要是来获取命令后边接收的args
var fs = require('fs'); //主要是操作文件
var page = webPage.create(); //创建新的page页
page.open(sourceUrl, function(status) { //sourceUrl为你需要截图的页面,在服务器中可以使用服务器html绝对地址(file://'+ROOT_PATH+'fill.html?)
if (status === "success") {
//格式支持jpg、gif、jpeg、pdf
page.render(imagePath, {format: 'jpg', quality: '65'}) //format 表示输出的格式,quality表示输出图片质量
//page.renderBase64() //将截图编码成base64格式字符串输出
} else {
console.log(“fail”);
}
phantom.exit(0);
);
Java调用phantomjs服务
Runtime rt = Runtime.getRuntime();
Process p = rt.exec(cmd); //cmd为上边phantomjs命令
InputStream is = p.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is));
StringBuffer sbf = new StringBuffer();
String tmp = "";
while((tmp = br.readLine())!=null){
sbf.append(tmp);
}
phantomjs实际使用优化
1、phantomjs单服务提供的能力有限,实际使用时可以部署多个phantomjs服务通过redis的incr命令均匀调用部署的每个服务
2、如果实际使用场景下需要处理的图片比较多,可以使用多线程分批调用phantomjs服务
Puppeteer
Puppeteer(中文翻译”木偶”) 是 Google Chrome 团队官方的无界面(Headless)Chrome 工具,它是一个 Node 库,提供了一个高级的 API 来控制 DevTools协议上的无头版 Chrome 。也可以配置为使用完整的 Chrome。
github地址: https://github.com/GoogleChrome/puppeteer
puppeteer使用方法
puppeteer安装:https://segmentfault.com/a/1190000012606616
puppeteer如同phantomjs一样命令方式: node example.js [arg1 [arg2 [...]]]
js示例伪代码:
const puppeteer = require('puppeteer');
(async () => {
const browser = await puppeteer.launch({
executablePath: './chrome-win/chrome.exe', //手动安装的chrome插件地址
headless:true //无界面模式,如果false本地会打开chrome浏览器
}
);
const page = await browser.newPage();
await page.goto('https://example.com');
await page.screenshot({path: 'example.png'});
//await page.pdf({path: 'example.pdf'}); //生成pdf时headless必须为true,否则会报错
await browser.close();
})();
最后phantomjs vs puppeteer的比较
这个哥们总结的很好我这里就不赘述了: