express+request实现-图夫在线爬取网页

先奉上图夫地址:https://tufu.xkboke.com

GIT开源地址:git地址(欢迎star)

懒惰驱动Idea

有时候在站酷或者UI中国看到很好的图片和作品都会想收藏下来学习一下,但是每次右击另存为都很麻烦,而且有的还要放大后才有原图可以下载;作为一个伪全栈怎么能忍呢,然后就想着扒扒他们网站的源码看,这一看发现图片原图存放的位置都有着规律,这就很高兴啦,哈哈!

雏形诞生

浪起来!!很快完成了第一个小脚本,顺利把需要的图片下载了下来,但只是最简单的爬取图片,后来优化了一下,把每次下载的图片都放到不同文件夹。但是转头一想,独乐乐不如众乐乐,就想着干脆把这个脚本工具化,做一个可以兼容多个网站的爬虫工具,并且可以批量下载原图,想法很快被付诸实践,经过不断的改版后,终于我的图夫出来了第一版。

迭代优化

一开始只支持站酷和UI中国,而且对其他的网站都兼容的不是很好,没关系,先做出第一版,接着慢慢迭代,后来根据反馈又添加了涂鸦王国,设计癖,视觉ME等网站,最近几天在逛贴吧,发现贴吧的一些图片也是很漂亮,有很多可以当壁纸的图片,但是要下到原图需要三四次步骤,而且一次只能下载一个,所以呢,我又把它加入我的图夫工具中了,哈哈!我的图夫又慢慢壮大起来了!先放一张图展示一下我的图夫


image

技术栈

其实原理大家都知道的,就是爬虫,只是我把爬虫可视化做成了一个工具,方便日常使用而已,这里主要使用的是express,库的话用的是request,compressing用来压缩文件夹,node-uuid用来生成随机hash;放一张目录结构

image

部分代码

index.js 主要请求文件,其他文件就移步git查看吧

const path = require('path');
const fs = require('fs');
const analyze = require('./analyze');
const tarTool = require('./tarTool')
const uuid =require('node-uuid')
/**
 * 根据hash值创建文件夹
 * @param path
 */
function write(path) {
  fs.exists(path, function (exists) { //path为文件夹路径
    if (!exists) {
      fs.mkdir(path, function (err) {
        if (err) {
          console.log('创建失败');
          return false;
        } else {
          console.log('创建成功');
        }
      })
    }
  })
}
/**
 * 请求图片地址
 * @param response
 * @param req
 * @param next
 */
function start(req,response,next) {
  const hash = uuid.v1().replace(/-/g, "")
  const imgDir = path.join(path.resolve(__dirname, '..'), 'output/img/'+hash);
  write(imgDir)
  // 发起请求获取 DOM
  console.log('请求地址',req.url);
  request(req.url, function(err, res, body) {
    if (!err && res) {
      console.log('start');
      // 将 downLoad 函数作为参数传递给 analyze 模块的 findImg 方法
      analyze.findImg(body,req.type,imgDir,downLoad,req.url);
      response.json({head: {code: 0, msg: 'ok'}, data: hash})
    }else {
      response.json({head: {code: 1000, msg: err}, data: ''})
    }
  });
}


/**
 * 获取到 findImg 函数返回的图片地址后,利用 request 再次发起请求,将数据写入本地。
 *
 * @param {*} imgUrl
 * @param {*} i
 * @param {*} imgDir
 */
function downLoad(imgUrl, i,imgDir) {
  console.log('图片地址',imgUrl);
  let ext = imgUrl.split('.').pop();
  // 再次发起请求,写文件
  request(imgUrl).pipe(fs.createWriteStream(path.join(imgDir, i + '.' + ext), {
    'encoding': 'utf8',
  }));
}
/**
 * 下载图片到本地后,利用tar压缩成一个压缩包,并返回路径
 * @param {*} req
 * @param {*} response
 * @param {*} next
 */
function tarFile(req,response,next) {
  console.log('接收',req);
  tarTool.tarTool(req.path,response)
}
module.exports= {
  getImg:start,
  tarTool:tarFile
}

使用方法

当然既然是工具,就必须非常简单啦,你只需复制你要下载页面的URL链接,然后粘贴到我的输入框中就可以,然后选择网站类型(当然悄悄告诉你,不选也没关系,我做了一个校验),然后就是点击搜索了,接下来就是耐心的等待...loading....(因为服务器的带宽只有1M,所以会下载有点慢,如果你愿意打赏一下,我也是不介意的,哈哈),执行完毕后,会出现下载按钮,你只需要点击下载即可下载打包完毕的文件了。

image

image

image

image

已支持网站

  • 站酷
  • UI中国
  • 涂鸦王国
  • 设计癖
  • 视觉ME
  • 百度贴吧
  • ...(等待你的意见)

声明

本工具仅作为技术交流工具,不得用于任何商业用途或获利。本网站不存储任何图片,所有内容均通过爬虫工具爬取网页上存在的内容。通过本网站下载的任何图片不代表你拥有商用的权利或者授权,如需授权或商用请联系原网站作者或平台,谢谢理解!

最后,奉上我的开源GIT地址:https://github.com/gengchen528/imgSpider
图夫网站地址:https://tufu.xkboke.com

如果喜欢的话,请给个star,如果有什么想法的话可以提issues,也可以微信联系我,欢迎交流,也可在评论中留下你想采集的网站链接,我会不定期更新图夫完全支持的网站

往期文章

mpvue小程序《校友足迹》成长记(一)

使用node脚本全自动删除豆瓣评论与帖子(这个最近正在更新,也会上线可视化操作,敬请关注)

基于mongodb+express+vue+axios+bootstrap的掘金最热文章收藏评论分析

个人博客:www.xkboke.com

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容