Node.js cheerio + request 爬虫实战

项目简介:

使用 Nodes.js (以下简称Node) 完成

  1. 爬取一个传统静态网站, 用 cheerio 库做页面解析
  2. 爬取一个网络API接口数据
  3. 使用JSON文件保存所需数据
  4. 导出到 excel 或数据库

1. 使用模块如下:

"dependencies": {
    "cheerio": "^1.0.0-rc.2",
    "dateformat": "^3.0.2"
  }

此外, 使用了 Node 内置模块 fs request

2. 执行: 切换到项目目录

npm test
// 或者
node index.js

3. 项目地址 https://github.com/wiviwiv/web-crawler


流程

构造URL ===> 爬取检查 robots.txt ===> 清洗数据 ===> 存储文件

未完待续 。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 网络爬虫开发 第1章 课程介绍 什么是爬虫 爬虫的意义 课程内容 前置知识 什么是爬虫 可以把互联网比做成一张“大...
    强某某阅读 4,179评论 0 1
  • 1.基础知识 爬虫爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对...
    JunChow520阅读 4,187评论 0 1
  • 自从Node横空出世后,很快有人就用它来开发爬虫,网上也常见Node爬虫教程。然而,很难看到一个通用的、功能丰富的...
    pockry阅读 14,770评论 3 10
  • 在中医院那十字路口等红绿灯时,曾遇过不下十次这样的情况。 明明骑着电动自行车停在自行车道上,而且还特别靠右的了,后...
    sunny烨儿阅读 3,701评论 9 20
  • (前言) 在当今“功名为先”的时代中,成功是每个人内心所期望的,然而高考一分一千人,大学生找不到工作的现象都在告诉...
    木梓可可阅读 1,432评论 0 1

友情链接更多精彩内容