nodejs爬虫

const http=require('https')
const fs=require('fs')
const cheerio=require('cheerio')
let url='https://www.baidu.com'
http.get(url,(res)=>{
    const {statusCode}=res;
    const contentType=res.headers['content-type'];
    console.log(statusCode,contentType);
    let error;
    if (statusCode !== 200) {
      error = new Error('Request Failed.\n' +
                        `Status Code: ${statusCode}`);
    } else if (!/^text\/html/.test(contentType)) {
      error = new Error('Invalid content-type.\n' +
                        `Expected application/json but received ${contentType}`);
    }
    if (error) {
      console.error(error.message);
      // Consume response data to free up memory
      res.resume();
      return;
    }
    let rawData=''
    res.on('data',(chunk)=>{
        console.log('--------')
        rawData+=chunk,toString('utf8')
        console.log(chunk.toString('utf8'))
    })
    res.on('end',()=>{
        fs.writeFileSync('./bibi.html',rawData)
        console.log('数据传输完毕')
        let $=cheerio.load(rawData)
        $('img').each((index,el)=>{
            console.log($(el).attr('src'))
        })
    })
})

const cheerio=require('cheerio');
let $=cheerio.load('');
$('img').each((index,el)=>{
    console.log($(el).attr('src'))
})
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。