(1)使用superagent和cheerio构建简单爬虫

构建爬虫需要两步：

我们准备构建一个爬虫来摘取简书网页中的数据。

简书.png

首先查看一下简书主页返回的html文件：

jianshu_html.png

可以看到其中的文章列表格式为：

<h4 class="title">
  <a target="_blank" href="/p/6d7d50a12e58">简书晚报160720——《说到吃，明代皇帝口味有多重？》</a>
</h4>

代码如下：

crawler_code.png

操作结果：

crawler_result.png

最后编辑于：2017.12.03 13:56:37

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 179,366评论 25赞 708
[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,726评论 10赞 199

空城
空空如是的城不用谁来懂抽离了心肝脾肺身体是一座空城拿走了喜怒哀乐灵魂是一座空城冷风萧萧遗落在角落残忆...
二两酒仙阅读 208评论 4赞 26
开始聊得好，后面反倒聊不起来了？看我如何两招逆袭
导语： Kris导师! 我通过附近的人加了一个妹子，开始聊得好好的后面反倒聊不起来了这是什么原因？这是很典型的测...
恋爱有法阅读 695评论 0赞 0
市场这里就是底部！底部！底部！（重要事情说三遍）
周三股指低开震荡，临近尾盘。放量上涨，很多个股普涨表现较强，重回2900点，但补缺前量能仍然欠缺。行情分析：随...
稳中有升阅读 299评论 0赞 0

赞1赞

赞赏

手机看全文