使用puppeteer爬取知乎文章,评论

初始的一些准备

    const browser = await puppeteer.launch({
        executablePath: '/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome',
        headless: true,
        args: ['--no-sandbox']
    });
    const page = await browser.newPage();
    await page.setUserAgent('Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36');

先拿到browser实例;拿到page对象,并设置userAgent请求头,不然userAgent请求头中是会带有headless字样的。

要爬取知乎的内容,首先要解决登陆问题

我们通过设置cookie来解决登陆问题:
首先我们自己手动登陆知乎
进入到开发者模式后,刷新知乎,在network栏看请求信息

获取cookie

直接把整个cookie复制下来
puppeteer设置cookie的方法是

page.setCookie(options)

options 里需要有key,value,domain。这是设置cookie的基本要求
这里我写了一个方法,快速设置cookie,将刚刚复制的cookie放进去

async function addCookies(cookies_str: string, page: puppeteer.Page, domain: string){
    let cookies = cookies_str.split(';').map(pair=>{
        let name = pair.trim().slice(0,pair.trim().indexOf('='))
        let value = pair.trim().slice(pair.trim().indexOf('=')+1)
        return {name,value,domain}
    });
    await Promise.all(cookies.map(pair=>{
        return page.setCookie(pair)
    }))
}

好了,现在page.goto('https://www.zhihu.com')就可以直接进去了,不会弹登陆页面;
这里登陆之后我们可以使用await page.waitFor('div.Card');来等待页面的指定元素加载完成;

如果要模拟人的行为,我们可以await page.waitFor(2000);等待个几秒什么的,还可以模拟滚轮滑动

 for(let i = 0; i < 30; i++){
        await page.evaluate((i)=>{
            window.scrollTo(0,i*15)
        },i);
        await timeout(50);
    }

这里page.evaluate方法就是在浏览器中植入javaScript代码,这些代码都是在浏览器里执行的,比如你在evaluate方法中执行console.log('puppeteer'),你在你的执行终端是看不到输出的,你需要在浏览器的console那去看。

好的,现在不管怎么说已经进入到知乎首页
现在呢,我想把我收藏的高赞的收藏夹更新的高赞回答爬下来,怎么做呢?

首页

首先我们要找到“我的收藏”这个元素,

    const collection = await page.$('div.GlobalSideBar > div > div.Sticky > div.Card > ul.GlobalSideBar-navList > li.GlobalSideBar-starItem > a');

这里我们就通过page.$()方法,如同jquery一样通过选择器得到这个元素;
得到后我们就可以通过点击事件,进入到“我的收藏”的列表里了;
我们可以直接await collection.click();不过有时候会失灵,没有效果,我也不太清楚原因,而且这样的点击会打开一个新的page,也就是说和我们目前一直使用的这个page没有关系,比较麻烦,还需要通过如browser.pages等方法找到新打开的page,所以我们换一个思路

await page.evaluate((collection)=>{
        collection.setAttribute('target','_self');
        collection.click();
    },collection)

我们直接进入浏览器js环境去执行setAttribute方法改变新页面出现方式,再click; 要注意这里传入的参数collection必须得通过作为evaluate方法的参入辗转传进去

现在我们进入到如下页面


collection

这里呢,我们同样使用page.evaluate方法点击"不需要解释"的这个收藏夹;

await page.evaluate(()=>{
        let box = document.querySelector('#zh-favlist-following-wrap');
        if(box){
            let as = box.querySelectorAll('div.zm-item > h2 > a');
            for(let a of as){
                if(a.getAttribute('href') == '/collection/38887091'){
                    a.click();
                }
            }
        }
    })

到此,作为一个'人',puppeteer要休息一下await page.waitFor(5000);休息5秒缓一缓;
好的现在我们正式进入到高赞回答列表了

列表

现在我们开始做爬取评论的准备操作
监听page的response事件

    function response(Obj: any){
        let _Obj = Obj;
        return async function abc(response: puppeteer.Response){
            if( response.url().indexOf('/comments') > 0 ){
                console.log('装载一个知hu的评论s')
                let comments = JSON.parse(await response.text())
                let res_comments = comments.data.slice(0,10).map((data:any)=>{
                    //console.log({ name: data.author.name, content: data.content, like: data.likesCount })
                    return { name: data.author.name, content: data.content, like: data.likesCount }
                })
                _Obj.data = res_comments;
            }
        }
    }
    page.on('response', response(Obj) )

这里我们使用一个obj对象来装一个回答的前十条热评,我们通过监听response,在知乎调用'评论api'的时候,将其数据直接获取;待会我们模拟点击“展开评论”的时候,就能触发response事件并获取评论数据了

获取文字内容的代码比较多,我直接在代码里注释

for(let answer of answerlist){ //这个answerlist就是page.$$('选择器')获得的元素列表
        let data = await page.evaluate((answer)=>{
            //这个一个html转码方法  如: 
//&lt;script&gt;alert(2);&lt;/script&gt =>   <script>alert(2);</script>
            function HTMLDecode(text:string) { 
                let temp = document.createElement("div"); 
                temp.innerHTML = text; 
                let output = temp.innerText || temp.textContent; 
                return output; 
            } 
            //以下就是通过选择器,获得各种元素,然后得到我们想要的数据
           //如作者,回答内容,标题,多少个赞 等等
            let comment = answer.querySelector('div.zm-item-fav > div.zm-item-answer > div.answer-actions > div > a.toggle-comment');
            //这里我们点击评论按钮,response事件发生,我们的函数执行,收集数据
            comment.click();

            let title = answer.querySelector('.zm-item-title > a').innerHTML;

            let author = answer.querySelector('div.zm-item-fav > div.zm-item-answer > div.answer-head > div > span.name');
            let author_link = '';
            if(!author){
                author = answer.querySelector('div.zm-item-fav > div.zm-item-answer > div.answer-head > div > span > span > a.author-link').innerHTML;
                author_link = 'https://www.zhihu.com'+answer.querySelector('div.zm-item-fav > div.zm-item-answer > div.answer-head > div > span > span > a.author-link').getAttribute('href');
            }else{
                author = author.innerHTML;
            }
       
            let content = answer.querySelector('div.zm-item-fav > div.zm-item-answer > div.zm-item-rich-text > textarea.content').innerHTML;
 
            content = HTMLDecode(content);
            let like = answer.querySelector('div.zm-item-fav > div.zm-item-answer > div.zm-item-vote > a').innerHTML;

            return { title, author, content, like ,author_link}
           
        },answer)
        await timeout(2000);
        if(Obj.data.length == 1){
            await timeout(2000);
        }
        console.log(Obj.data)
        await timeout(1000)
        data.content = handler_content(data.content)
        data.comments = Obj.data;
        //这里我们就完成了一个回答的收集了
        datas.push(data);
        Obj.data = [];
        console.log(data.title)
    }
    //保存到数据库
    for(let data of datas){
        let comments = data.comments;
        delete data.comments;
        let res = await db.insert( {table: 'zhihu', data} );
        if(res  ){
            console.log(res)
            for(let c of comments){
                c.zhihu = res.insertId;
                await db.insert({table: 'zhihu_comment', data: c})
            }
        }
    }

这里其实我还有一个亮点,就是将知乎的内容那,是有不少的图片的,如果我们直接将内容显示在我们自己的网站上,这些图片是从知乎那请求不到的,会报403错误,所以我们将所有图片的src改变了一下,变成访问我的服务器,我的服务器去请求知乎的图片,再返回给我的网站,这样就ok了

最后爬的结果就在我的网站http://www.weidongwei.com/zhihu

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352