很久没有看电影了,近日国产科幻大片《流浪地球》正在火速登上荣耀榜,而在不久前拿下奥斯卡最佳影片奖的《绿皮书》在国内上映后迅速赢得口碑票房双丰收。
不如看看最近正在热映的电影有哪些吧,顺便看看评分和电影内容,有时间的话就去电影院欣赏一下。
开发环境
- python3.7
- requests模块
- re模块
- pymongo
获取分析
通过查看源代码发现猫眼电影近日正在热映的电影能直接请求源代码来解析,这减少了很大的难度。
这里用正则表达式来解析近日正在热映电影页面。
#获取猫眼电影正在热映页面信息
response = requests.get(url,headers = headers).text
category = re.findall(r'<li >.*?<a .*?href="\?catId.*?>(.*?)</a>.*?</li>',response,re.DOTALL) #匹配href为catid开头的
titlename = re.findall(r'<div class="channel-detail movie-item-title".*?"(.*?)">.*?<a.*?>',response,re.DOTALL)
grades = re.findall(r'<div class="channel-detail movie-item-title".*?>.*?<div class="channel-detail channel-detail-orange">(.*?)</div>',response,re.DOTALL)
最后存入MongoDB数据库。
#入库操作
client = pymongo.MongoClient('127.0.0.1',port=27017)
dbaa = client.maoyan0
coll = dbaa.movie
coll.insert({'name':movie,'score':score,'content0':content0})