node爬虫之天猫数据(二)

前面第一节,我们把node的框架搭好了,这一节,我们去天猫上爬数据
首先,这里我们需要用到node的几个库

npm install request iconv-lite cheerio bluebird --save

我来介绍一下
request是网络请求库
iconv-lite编码转换库
cheerio是html处理库,可以使用jquery来查找dom元素
bluebird是Promise库
安装完以后,创建一个http.js文件,这个文件是我们处理网络请求的库,我们对request进行封装一下

'use strict'

import request from 'request'
import Promise from 'bluebird'
import iconv from 'iconv-lite'

export default function requestAsync(url, encode){
    return new Promise((reslove, reject) => {
        request.get({url, encoding: null}, function(error, response, body){
            if(error){
                reject(error)
            }
            //判断是否需要编码转换
            if(encode){
                let data = iconv.decode(body, encode)
                reslove(data)
            }else{
                reslove(body)
            }
        })
    })
}

接下来,我们在main.js中加入

'use strict'

import requestAsync from './http'

const url = 'https://list.tmall.com/search_product.htm?spm=a220m.1000858.0.0.Im2OsQ&s=60&q=19.9&sort=s&style=g&from=mallfp..pc_1_searchbutton&active=2&type=pc#J_Filter';

(async() => {
        try{
            const html = await requestAsync(url, 'gbk')
            console.log(html)
        }catch(error){
            console.log(error)
        }
})();

运行一下

npm start

看,控制台应该就有天猫网站的html数据输出了
接下来就是处理html数据了
再创建一个parse.js文件,这里我们放入处理天猫的逻辑

'use strict'

import Promise from 'bluebird'
import cheerio from 'cheerio'

export default function tmallParse(html){
    return new Promise((resolve, reject) => {
        try{
            //产品列表
            var products = []
            var $ = cheerio.load(html, {decodeEntities: false})
            $('.product').each(function(){
                var _title = $(this).find('.productTitle').text().trim()
                var _url = $(this).find('.productTitle a').attr('href')
                var _img = $(this).find('.productImg-wrap img').attr('data-ks-lazyload')
                //判断是否有图片地址,没有就换个地方取
                if(!_img){
                    _img = $(this).find('.productImg-wrap img').attr('src')
                }
                var _price = $(this).find('.productPrice em').attr('title')
                
                //产品信息
                var product = {
                    title: _title,
                    url: _url,
                    img: _img,
                    price: _price
                }

                //放入产品列表
                products.push(product)
            })
            resolve(products)
        }catch(error){
            reject(error)
        }
    })
}

好了,处理逻辑写完,我们来试试对不对
在 main.js中加入

....
import tmallParse from './parse'

...
(async() => {
        try{
            const html = await requestAsync(url, 'gbk')
            const products = await tmallParse(html)
            console.log(products)
        }catch(error){
            console.log(error)
        }
})();

运行一下

npm start

如果没有报错的话,应该有像我以下这样的数据

[ { title: '官网乐扣乐扣保鲜盒耐热玻璃便当盒水果饭盒LLG205 19.9低价换购',
    url: '//detail.tmall.com/item.htm?id=19255882590&skuId=30422954199&user_id=1024055617&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: undefined,
    price: '41.80' },
  { title: '小柄钻直柄钻头19.1 19.2 19.3 19.4 19.5 19.6 19.7 19.8 19.9',
    url: '//detail.tmall.com/item.htm?id=45709408163&skuId=87371450407&user_id=919575892&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: undefined,
    price: '53.80' },
  { title: '【第二件19.9】佳利麦墨西哥牛油果智利牛油果新鲜水果160g*3个装',
    url: '//detail.tmall.com/item.htm?id=7366904296&skuId=4611686025794292200&user_id=496514980&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: undefined,
    price: '19.90' },
  { title: 'BSO小魔怪2016新品夏季女装圆领短袖T恤 19.9包邮女装款',
    url: '//detail.tmall.com/item.htm?id=533799375853&skuId=3184954928617&user_id=2284318191&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: undefined,
    price: '19.90' },
  { title: '包邮 横开口 金属铁网状 资料收纳架 多层随意叠加文件盘19.9元层',
    url: '//detail.tmall.com/item.htm?id=16074699708&skuId=4611686034502087612&user_id=857093887&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: undefined,
    price: '19.90' },
  { title: '【包邮19.9】男士职业红色商务正装6CM结婚新郎领带蓝色条纹',
    url: '//detail.tmall.com/item.htm?id=520167716998&skuId=3100802610661&user_id=1699787468&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: '//img.alicdn.com/bao/uploaded/i4/TB1VFpNIpXXXXXsXVXXXXXXXXXX_!!0-item_pic.jpg_b.jpg',
    price: '25.00' },
  { title: '3包19.9网尚新奥尔良腌料140克微辣烧烤烤鸡翅油炸猪排烤肉烧烤料',
    url: '//detail.tmall.com/item.htm?id=41131848051&skuId=4611686059559235955&user_id=1696169910&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: '//img.alicdn.com/bao/uploaded/i3/TB1YVtsLXXXXXbWXVXXXXXXXXXX_!!0-item_pic.jpg_b.jpg',
    price: '8.80' },
  { title: '【19.9元换购】韩国HOLIKA 天然92%芦荟沐浴凝露55ml三只装',
    url: '//detail.tmall.com/item.htm?id=539864655275&skuId=3199916890481&user_id=2820479942&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: '//img.alicdn.com/bao/uploaded/i2/TB1mvAkOXXXXXcYXXXXXXXXXXXX_!!0-item_pic.jpg_b.jpg',
    price: '19.90' },
  { title: '逸佳户外 烧烤炉烧烤工具套装 19.9元基础套餐',
    url: '//detail.tmall.com/item.htm?id=520184728205&skuId=4611686538612116109&user_id=1705256849&cat_id=2&is_b=1&rn=84b2fa84dbb5923100950f78d786559e',
    img: '//img.alicdn.com/bao/uploaded/i2/TB18dGcIpXXXXaTXpXXXXXXXXXX_!!0-item_pic.jpg_b.jpg',
    price: '19.90' },
   ...

好了,这一章的处理写完了,下一章我们把这些数据存到mongodb数据库里

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,633评论 18 139
  • Node.js是目前非常火热的技术,但是它的诞生经历却很奇特。 众所周知,在Netscape设计出JavaScri...
    w_zhuan阅读 3,610评论 2 41
  • Node.js是目前非常火热的技术,但是它的诞生经历却很奇特。 众所周知,在Netscape设计出JavaScri...
    Myselfyan阅读 4,066评论 2 58
  • 昨晚睡前看了一会儿电视,类似于纪录片的电视节目,叫《急诊室的故事》。其中讲一对老夫妻,妻子卧床,不能动不能说话,处...
    郭小镁aegean阅读 692评论 0 51
  • 【轻愁】 联想到一个词,轻奢。 愁也是一种奢侈吧。 赶六点五十的火车,麻麻五点四十喊我。我哼唧了两声往被窝里钻。 ...
    木筱茜阅读 172评论 3 3