实现笑话爬虫并自动回复

实现笑话爬虫并自动回复

一、课程介绍

目前,我们的微信公众号只支持文本接收和倒序回复,略单调。本节课将糗百网站的笑话爬取过来,自动回复给用户。因此本节首先需要实现一个爬虫,并把爬取的数据按照上一节实现的方式回复给用户。

二、实现爬虫

我们选择爬取的目标是糗事百科的纯文本内容,地址为 糗事百科-纯文,下面这个是这个链接的纯文内容页面,一页共20条记录,注意中间会有一段广告。

然后呢,放上对应的爬虫代码,这里用到的库是 lxml,lxml 是解析 XML 的库。XML 和 HTML 是极其类似的,所以这样是可以用。

代码中的实现原理比较简单,从 URL 获取页面内容,使用 lxml 的 etree 提取页面信息,详细步骤可以见代码注释:

import requests
from random import randint
from lxml import etree

r = requests.get(url)
tree = etree.HTML(r.text)
contentlist = tree.xpath('//div[contains(@id, "qiushi_tag_")]')
#匹配div的标签,如果id中含有'qiushi_tag_',则存入list列表中,最后返回【从该页的HTML中能拿到包含20个结果的List列表】
jokes = []#最后存储结果的列表

for i in contentlist:
#这个for循环呢,就是从每个含有笑话的代码块,提出我们需要的笑话的具体内容
    content = i.xpath('div[@class="content"]/text()')
    #因为content和number得到的是list列表,只含有一个元素的list列表,join提出,明白了吧
    contentstring = ''.join(content)
    #然后就是去掉两端的换行符,就得到了我们需要的笑话内容了
    contentstring = contentstring.strip('\n')
    jokes.append(contentstring)
    #最后插入到jokes列表中,就得到了我们需要的笑话集合

return jokes[randint(0,len(jokes))]
#最后呢返回jokes的其中一条内容,返回就可以了

爬虫抓取笑话的整个过程,就是这些,现在可以准备回复微信消息了。

回复消息的方法请参考上一节的实现内容。

三、可运行的代码

附上本节可运行代码 wechat.py,一起运行试试,运行不成功,检查错误报告,查看是否未安装需要的库。

实验楼的环境中需要安装下面的库后才可以运行:

$ sudo apt-get install python-lxml
$ sudo pip install flask

详细的代码如下:

import requests
from random import randint
from lxml import etree
from flask import Flask, request, make_response
import hashlib

app = Flask(__name__)

@app.route('/shiyanlou')
def hello():
    return "Python Say: Hello Shiyanlou"

@app.route('/',methods=['GET','POST'])
def wechat_auth():
    if request.method == 'GET':
        print 'coming Get'
        data = request.args
        token = '*******************'
        signature = data.get('signature','')
        timestamp = data.get('timestamp','')
        nonce = data.get('nonce','')
        echostr = data.get('echostr','')
        s = [timestamp,nonce,token]
        s.sort()
        s = ''.join(s)
        if (hashlib.sha1(s).hexdigest() == signature):
            return make_response(echostr)
    if request.method == 'POST':
        xml_str = request.stream.read()
        xml = ET.fromstring(xml_str)
        toUserName=xml.find('ToUserName').text
        fromUserName = xml.find('FromUserName').text
        createTime = xml.find('CreateTime').text
        msgType = xml.find('MsgType').text
        if msgType != 'text':
            reply = '''
            <xml>
            <ToUserName><![CDATA[%s]]></ToUserName>
            <FromUserName><![CDATA[%s]]></FromUserName>
            <CreateTime>%s</CreateTime>
            <MsgType><![CDATA[%s]]></MsgType>
            <Content><![CDATA[%s]]></Content>
            </xml>
            ''' % (
                fromUserName, 
                toUserName, 
                createTime, 
                'text', 
                'Unknow Format, Please check out'
                )
            return reply
        content = xml.find('Content').text
        msgId = xml.find('MsgId').text
        if u'笑话' in content:
            r = requests.get(url)
            tree = etree.HTML(r.text)
            contentlist = tree.xpath('//div[contains(@id, "qiushi_tag_")]')
            jokes = []

            for i in contentlist:
                content = i.xpath('div[@class="content"]/text()')
                contentstring = ''.join(content)
                contentstring = contentstring.strip('\n')
                jokes.append(contentstring)


            joke =  jokes[randint(0,len(jokes))]
            reply = '''
                    <xml>
                    <ToUserName><![CDATA[%s]]></ToUserName>
                    <FromUserName><![CDATA[%s]]></FromUserName>
                    <CreateTime>%s</CreateTime>
                    <MsgType><![CDATA[%s]]></MsgType>
                    <Content><![CDATA[%s]]></Content>
                    </xml>
                    ''' % (fromUserName, toUserName, createTime, msgType, joke)
            return reply
        else:
            if type(content).__name__ == "unicode":
                content = content[::-1]
                content = content.encode('UTF-8')
            elif type(content).__name__ == "str":
                print type(content).__name__
                content = content.decode('utf-8')
                content = content[::-1]
            reply = '''
                    <xml>
                    <ToUserName><![CDATA[%s]]></ToUserName>
                    <FromUserName><![CDATA[%s]]></FromUserName>
                    <CreateTime>%s</CreateTime>
                    <MsgType><![CDATA[%s]]></MsgType>
                    <Content><![CDATA[%s]]></Content>
                    </xml>
                    ''' % (fromUserName, toUserName, createTime, msgType, content)
            return reply
if __name__ == "__main__":
    app.run(host='0.0.0.0', port=8080)

微信公众平台的开发,已经完成

四、总结

本次实验课,主要是对微信公众平台进行一个简单开发,并添上了逆序回复和回复笑话等功能。涉及到的知识点有 Python、flask,爬虫等知识点,较难的有第一节的服务通信、第二节的编码,第三节的正则匹配爬虫。

一个完整的项目,难得不仅仅是深度,更是广度 --Hello World

这节课只是打了个地基,房子怎么盖还是看自己的爱好,可以发挥你的想象力扩展出更有趣的功能。


!放在最后

以上就是本篇文章的全部介绍内容了

如果文章中有什么错误或者建议修改的地方,欢迎留言纠正和回复

如果你喜欢本篇文章,不妨关注一下我们的公众号,每周更新两篇原创技术文档,都是干货

微信公众号二维码美化图001.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容