node.js实现简单的爬虫---爬取图片

一、什么是爬虫

爬虫又称网络爬虫(网页蜘蛛、网络机器人)：是按照是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。可以用于获取网页数据、获取保存自己想要的数据、抢票、刷数据流量等等

二、使用node.js实现自动爬取图片

1、初始化项目：在对应的项目文件夹下执行npm init来初始化一个package.json文件

初始化

2、安装需要用到的依赖包

npm install -save selenium-webdriver; npm install -save download

cheerio的功能是用来操作dom元素的，它可以把request返回来的数据转换成可供dom操作的数据，cheerio的api跟jquery一样，用$来选取对应的dom结点进行相应的dom操作

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE，Mozilla Firefox，Safari，Google Chrome，Opera，Edge等。(注：在不同的浏览器上运行要有不同的安装要求)

3、具体代码：

相关 selenium的api:

let driver = await new Builder().forBrowser("MicrosoftEdge").build();//指定浏览器获取driver 对象

driver.get("url"):打开想要的网址 driver.quit():表示关闭浏览器 driver.close() 表示关闭当前窗口

driver.getPageSource().then(function(souce) {console.log(souce);//获取代码

driver.getTitle().then(a=>{console.log(a)});//获取网页标题

driver.getCurrentUrl().then(a=>{console.log(a)});//获取当前url

driver.findElement({css:css}).sendKeys('txt');//输入input

具体的代码

运行前：img文件为空

运行后:

运行

img文件

若有不对之处还希望指正为谢！@~@