实现笑话爬虫并自动回复
一、课程介绍
目前,我们的微信公众号只支持文本接收和倒序回复,略单调。本节课将糗百网站的笑话爬取过来,自动回复给用户。因此本节首先需要实现一个爬虫,并把爬取的数据按照上一节实现的方式回复给用户。
二、实现爬虫
我们选择爬取的目标是糗事百科的纯文本内容,地址为 糗事百科-纯文,下面这个是这个链接的纯文内容页面,一页共20条记录,注意中间会有一段广告。
然后呢,放上对应的爬虫代码,这里用到的库是 lxml,lxml 是解析 XML 的库。XML 和 HTML 是极其类似的,所以这样是可以用。
代码中的实现原理比较简单,从 URL 获取页面内容,使用 lxml 的 etree 提取页面信息,详细步骤可以见代码注释:
import requests
from random import randint
from lxml import etree
r = requests.get(url)
tree = etree.HTML(r.text)
contentlist = tree.xpath('//div[contains(@id, "qiushi_tag_")]')
#匹配div的标签,如果id中含有'qiushi_tag_',则存入list列表中,最后返回【从该页的HTML中能拿到包含20个结果的List列表】
jokes = []#最后存储结果的列表
for i in contentlist:
#这个for循环呢,就是从每个含有笑话的代码块,提出我们需要的笑话的具体内容
content = i.xpath('div[@class="content"]/text()')
#因为content和number得到的是list列表,只含有一个元素的list列表,join提出,明白了吧
contentstring = ''.join(content)
#然后就是去掉两端的换行符,就得到了我们需要的笑话内容了
contentstring = contentstring.strip('\n')
jokes.append(contentstring)
#最后插入到jokes列表中,就得到了我们需要的笑话集合
return jokes[randint(0,len(jokes))]
#最后呢返回jokes的其中一条内容,返回就可以了
爬虫抓取笑话的整个过程,就是这些,现在可以准备回复微信消息了。
回复消息的方法请参考上一节的实现内容。
三、可运行的代码
附上本节可运行代码 wechat.py
,一起运行试试,运行不成功,检查错误报告,查看是否未安装需要的库。
实验楼的环境中需要安装下面的库后才可以运行:
$ sudo apt-get install python-lxml
$ sudo pip install flask
详细的代码如下:
import requests
from random import randint
from lxml import etree
from flask import Flask, request, make_response
import hashlib
app = Flask(__name__)
@app.route('/shiyanlou')
def hello():
return "Python Say: Hello Shiyanlou"
@app.route('/',methods=['GET','POST'])
def wechat_auth():
if request.method == 'GET':
print 'coming Get'
data = request.args
token = '*******************'
signature = data.get('signature','')
timestamp = data.get('timestamp','')
nonce = data.get('nonce','')
echostr = data.get('echostr','')
s = [timestamp,nonce,token]
s.sort()
s = ''.join(s)
if (hashlib.sha1(s).hexdigest() == signature):
return make_response(echostr)
if request.method == 'POST':
xml_str = request.stream.read()
xml = ET.fromstring(xml_str)
toUserName=xml.find('ToUserName').text
fromUserName = xml.find('FromUserName').text
createTime = xml.find('CreateTime').text
msgType = xml.find('MsgType').text
if msgType != 'text':
reply = '''
<xml>
<ToUserName><![CDATA[%s]]></ToUserName>
<FromUserName><![CDATA[%s]]></FromUserName>
<CreateTime>%s</CreateTime>
<MsgType><![CDATA[%s]]></MsgType>
<Content><![CDATA[%s]]></Content>
</xml>
''' % (
fromUserName,
toUserName,
createTime,
'text',
'Unknow Format, Please check out'
)
return reply
content = xml.find('Content').text
msgId = xml.find('MsgId').text
if u'笑话' in content:
r = requests.get(url)
tree = etree.HTML(r.text)
contentlist = tree.xpath('//div[contains(@id, "qiushi_tag_")]')
jokes = []
for i in contentlist:
content = i.xpath('div[@class="content"]/text()')
contentstring = ''.join(content)
contentstring = contentstring.strip('\n')
jokes.append(contentstring)
joke = jokes[randint(0,len(jokes))]
reply = '''
<xml>
<ToUserName><![CDATA[%s]]></ToUserName>
<FromUserName><![CDATA[%s]]></FromUserName>
<CreateTime>%s</CreateTime>
<MsgType><![CDATA[%s]]></MsgType>
<Content><![CDATA[%s]]></Content>
</xml>
''' % (fromUserName, toUserName, createTime, msgType, joke)
return reply
else:
if type(content).__name__ == "unicode":
content = content[::-1]
content = content.encode('UTF-8')
elif type(content).__name__ == "str":
print type(content).__name__
content = content.decode('utf-8')
content = content[::-1]
reply = '''
<xml>
<ToUserName><![CDATA[%s]]></ToUserName>
<FromUserName><![CDATA[%s]]></FromUserName>
<CreateTime>%s</CreateTime>
<MsgType><![CDATA[%s]]></MsgType>
<Content><![CDATA[%s]]></Content>
</xml>
''' % (fromUserName, toUserName, createTime, msgType, content)
return reply
if __name__ == "__main__":
app.run(host='0.0.0.0', port=8080)
微信公众平台的开发,已经完成
四、总结
本次实验课,主要是对微信公众平台进行一个简单开发,并添上了逆序回复和回复笑话等功能。涉及到的知识点有 Python、flask,爬虫等知识点,较难的有第一节的服务通信、第二节的编码,第三节的正则匹配爬虫。
一个完整的项目,难得不仅仅是深度,更是广度 --Hello World
这节课只是打了个地基,房子怎么盖还是看自己的爱好,可以发挥你的想象力扩展出更有趣的功能。
!放在最后
以上就是本篇文章的全部介绍内容了
如果文章中有什么错误或者建议修改的地方,欢迎留言纠正和回复
如果你喜欢本篇文章,不妨关注一下我们的公众号,每周更新两篇原创技术文档,都是干货