node.js实现简单的爬虫---爬取图片

一、什么是爬虫

爬虫又称网络爬虫(网页蜘蛛、网络机器人):是按照是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。可以用于获取网页数据、获取保存自己想要的数据、抢票、刷数据流量等等

二、使用node.js实现自动爬取图片

1、初始化项目:在对应的项目文件夹下执行npm init来初始化一个package.json文件

初始化

2、安装需要用到的依赖包

  npm install -save selenium-webdriver;    npm install -save download

cheerio的功能是用来操作dom元素的,它可以把request返回来的数据转换成可供dom操作的数据,cheerio的api跟jquery一样,用$来选取对应的dom结点进行相应的dom操作

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。(注:在不同的浏览器上运行要有不同的安装要求)

3、具体代码:

相关 selenium的api:

let driver = await new Builder().forBrowser("MicrosoftEdge").build();//指定浏览器获取driver 对象

driver.get("url"):打开想要的网址  driver.quit():表示关闭浏览器   driver.close() 表示关闭当前窗口

driver.getPageSource().then(function(souce) {console.log(souce);//获取代码

driver.getTitle().then(a=>{console.log(a)});//获取网页标题

driver.getCurrentUrl().then(a=>{console.log(a)});//获取当前url

driver.findElement({css:css}).sendKeys('txt');//输入input 

暂时列举这些,更多可进入官网获取The Selenium Browser Automation Project | Selenium

具体的代码

运行前:img文件为空

运行后:


运行


img文件

若有不对之处还希望指正为谢!@~@

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容