NodeJs从零构建代理ip池(一)介绍

《原文地址》

本系列主要讲解如何从零实现一个简单的代理 IP 池,教你从 Node 爬虫入门到融会贯通。

跟着本系列教程,将会学到一个完整 NodeJs 项目的开发到部署的一整套流程。

零、项目介绍

目标:维护一个相对稳定,长期可用的免费代理 IP。

采用定时爬虫,不停的去各大免费代理 IP 网站,爬取代理 IP 数据,并定时清洗数据存入数据库。
因为免费的代理 IP 非常不稳定,可能现在可以用,一个小时后就无法使用。因此还需要每隔一段时间,去校验代理 IP 是否可用,清理不可用的代理 IP,保证数据库中,存在一堆相对稳定可用的代理 IP。

项目预览地址: http://ip.izhongxia.com
项目源码地址: simple-proxy-pool

image

一、文章目录

  1. 项目框架介绍与搭建
  2. 爬虫抓取数据 [TODO]
  3. 清洗数据,并保存到 MySql 数据库 [TODO]
  4. 定时抓取数据和清洗数据 [TODO]
  5. 定时校验代理 IP 的可用性 [TODO]
  6. 使用 BootStrap 实现数据展示页面 [TODO]
  7. 使用 PM2 进行项目部署 [TODO]

二、为什么写这个系列

在一次爬虫数据抓取的过程中,IP 被封了。 虽然以前知道有代理 IP 这个东西,但是由于爬虫的量很小,并且没有高频次的抓取,因此没有用到代理 IP。刚好这次碰到了这个问题,那么就自己维护一个相对稳定的免费代理 IP 池。

然后采用 Eggjs 为基础框架,用来两个周末的时间,完成了这个代理 IP 池。

乘着还清楚的记得,开发的各大过程,思路,以及开发中遇到的坑, 就准备编写一下这个系列《NodeJs 从零实现代理 IP 池》的文章。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,638评论 25 708
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 12,993评论 2 59
  • 分列步骤---数据---分列---分隔符号-- 分列主要对大数据的分析与分开 一,按照固定的宽度:选中需...
    回_940阅读 1,639评论 0 2
  • 独杯寂饮着泪 只因岁月把怀 于是学着原谅 哪怕泪满寂杯
    秋小主阅读 207评论 1 1
  • 这是关于canvas的第三个小节,还记得在第一小节中完成了哪些操作么?是的,关于直线的绘制。那么本小节,就做一件有...
    Sugar_Ye阅读 301评论 0 0