puppeteer爬取house365租房数据

很简单, 就是用css选择器扒

1. puppeteer安装依赖

1. 新建项目

$ mkdir house365
$ cd house365
$ npm init
$ npm install puppeteer --save

2. 安装上的相关问题

  • 网络问题
    使用淘宝镜像
$ npm config set registry https://registry.npm.taobao.org
$ npm config set disturl https://npm.taobao.org/dist
$ npm config set puppeteer_download_host https://npm.taobao.org/mirrors
  • windows下node-gyp相关问题
$ npm install -g node-gyp
$ npm install --global --production windows-build-tools

2. 观察

  1. 观察要爬的页面, 最简单的列表型, 我们爬每个的链接


  2. 看分页, 第二页开始一一对应


    image.png
  3. 输入一个比较大的数字, 看看总页数


    image.png
  4. 观察内容页, 这些都用选择器选就是了


    image.png

3.开爬

具体代码: https://github.com/klren0312/puppeteer-study/tree/master/house365

4.结果

image.png
image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1.puppeteer简介 puppeteer是一个node库,是Google chrome团队官方的无界面(he...
    伊人风采_690d阅读 12,266评论 0 11
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 14,206评论 4 61
  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 13,802评论 1 32
  • 睛好天气转凉,一日北风沙尘吹晃着葡萄藤架的风铃,摇摇晃晃发出脆音一刻不得闲。 取了医院活检报告,抛物线插曲趋于平静...
    归茶小筑阅读 1,534评论 0 0
  • 好了,上回说到有个女供应商横空杀出。 我们今天来认识下这位女士。 这位女士姓李,自身并不是手艺人,不会做蔑活儿。但...
    钱多多在简书阅读 3,192评论 1 16