python爬虫之猫眼电影,近日正在热映的电影

很久没有看电影了,近日国产科幻大片《流浪地球》正在火速登上荣耀榜,而在不久前拿下奥斯卡最佳影片奖的《绿皮书》在国内上映后迅速赢得口碑票房双丰收。
不如看看最近正在热映的电影有哪些吧,顺便看看评分和电影内容,有时间的话就去电影院欣赏一下。

开发环境

  • python3.7
  • requests模块
  • re模块
  • pymongo

获取分析

通过查看源代码发现猫眼电影近日正在热映的电影能直接请求源代码来解析,这减少了很大的难度。
这里用正则表达式来解析近日正在热映电影页面。

#获取猫眼电影正在热映页面信息
    response = requests.get(url,headers = headers).text
    category = re.findall(r'<li >.*?<a .*?href="\?catId.*?>(.*?)</a>.*?</li>',response,re.DOTALL) #匹配href为catid开头的
    titlename = re.findall(r'<div class="channel-detail movie-item-title".*?"(.*?)">.*?<a.*?>',response,re.DOTALL)   
    grades = re.findall(r'<div class="channel-detail movie-item-title".*?>.*?<div class="channel-detail channel-detail-orange">(.*?)</div>',response,re.DOTALL)    

最后存入MongoDB数据库。

#入库操作
    client = pymongo.MongoClient('127.0.0.1',port=27017)
    dbaa = client.maoyan0
    coll = dbaa.movie
    coll.insert({'name':movie,'score':score,'content0':content0})

结果展示:

部分电影数据
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容