node 写爬虫

1. 爬虫 ---- 小公司数据采集之必备

node 写爬虫的优势

  • 你只需要一个前端工程师 (最重要的一点)
  • 你不需要重新学习一门语言
  • node 的异步很适合处理IO密集型应用场景
  • node 有很多npm包帮助你更加轻松的完成爬虫业务

爬虫的基本操作

  • 怎么去爬取网页的内容(爬虫的hello world)

环境搭建 (具体搭建方法请自行google)

    node 建议安装 8.4 以上 支持async await --- 贼爽 
    chrome 浏览器 
    vscode 贼好用的编辑器
    postman 模拟http请求
    charles 抓包工具 (app应用的http请求抓取)

爬虫之hello world

   mkdir spider //创建spider目录
   cd spider //切到spider目录下
   npm init //用npm初始化项目 会产生一个package.json文件
   npm i  cheerio node-fetch --save // 安装依赖
   touch index.js //创建一个index.js文件 
   vim index.js //用vim 进行编辑  按 I 进入编辑模式
   进入编辑模式后
   输入代码:
    console.log('hello word --- 之爬虫');
    const fetch = require('node-fetch');
    fetch('https://www.baidu.com',{
        method:'GET'
    }).then(async res=>{
          let html = await res.text(); //url是html
          // let json = await res.json();//url 是json文件
          console.log(html);
    })
    按ESC 退出编辑模式 按 SHIFT +  : 输入wq! 回车 保存代码退出vim编辑器
    然后用node index.js 运行代码.在终端你就可以看到百度的源码HTML 的文本了
    

爬虫就是这么简单

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,527评论 25 709
  • Node.js是目前非常火热的技术,但是它的诞生经历却很奇特。 众所周知,在Netscape设计出JavaScri...
    w_zhuan阅读 8,977评论 2 41
  • 总结一: [node.js总结](http://www.cnblogs.com/Darren_code/archi...
    xiumeiii阅读 5,920评论 0 14
  • 今天的阅读让我的思路有些混乱,在去上海喜马拉雅美术馆观看贝利尼家族与文艺复兴特展展的途中和观展后...
    云卷云舒0412阅读 1,306评论 0 0
  • 今天遇到的问题是,直接托上去一个2g的压缩包,居然托完了,找不到文件夹。后来拖个1g多的可以,我就奇怪了,无语
    一句诺言阅读 1,683评论 0 0