node爬虫初体验

1.安装node

2.新建一个文件夹,文件夹里新建一个game.js

3.安装模块

在命令行输入安装模块命令:

npm i

npm install cheerio sync-request --save

4.这里以taptap网站排行榜为例:taptap排行榜

5.想爬这个排行榜的榜单名字,检查元素发现dom结构如下

4.js文件代码如下

var request = require('sync-request');//获取网页内容

var cheerio = require('cheerio');//筛选网页内容

url = 'https://www.taptap.com/top/download';//爬虫网站

var html = '';

html = request('GET', url).getBody().toString(); 

var $ = cheerio.load(html);

var gameName = $('.top-card-middle>a>h4').text();//获取游戏名称

console.log(gameName); 

5.然后在文件夹路径下运行node game.js,结果如下


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • cmd命令: ./ 当前目录 ../ 上一级 dir 查看当前目录 ls 查看当前目录下文件 win...
    3hours阅读 556评论 0 1
  • 上篇文章介绍了爬虫的基本概念和基本原理,这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。 在下面爬虫的栗...
    特慈阅读 319评论 0 0
  • 如果你不会Python语言,正好又是一个node.js小白,看完这篇文章之后,一定会觉得受益匪浅,感受到自己又新g...
    祈澈菇凉阅读 1,161评论 1 9
  • 时间管理/健康管理/精学/泛学/提升/理财/工作/人际/其他 时间管理:起 8 : 50 睡 23: 00 午休x...
    我的鱼儿阅读 265评论 0 0
  • “你站在桥上看山,我却在山上看你”用这句话来形容宝石山和西湖断桥,再恰当不过了。 西湖美景甚多,不过,我最喜欢的,...
    云逸公子阅读 424评论 5 5