浅析豆瓣电影TOP250榜单——C1 概要

豆瓣网是一个国内用户分享交流电影、书籍等文化活动的社交平台。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,无论描述还是评论都由用户提供(User-generated content,UGC),是Web 2.0网站中具有特色的一个网站。

豆瓣电影评分的定位相当于中国国内的IMDb(互联网电影数据库),而其针对了国内用户区别于国外的文化差异、人群受众、网络交流环境等各方面因素在电影评价上产生了一定的差异,能更贴切地反映国人对于电影的理解。
本文为豆瓣电影TOP250榜单的分析以及展示数据背后的意义。

目标网页地址

https://movie.douban.com/top250

项目流程如下:

  • 数据收集 —— 运用Pythonrequests, lxml等库抓取豆瓣网页数据,并导出为csv文件作为数据库。
  • 数据处理 —— 使用PythonNumpy, Pandas库整理数据。
  • 分析与展示 —— 根据处理后的数据做分析,并使用matplotlibsklearn库做相应的可视化展示与回归分析,使得文章更直观反映数据背后的意义。
  • 总结 —— 作出结论。

其中数据收集、处理这两部分的文章内容主要侧重于技术实现,分析与展示这部分的内容则相对侧重可视化表现以及数据背后的意义。


下一章: C2 数据收集

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,004评论 25 709
  • 最基本的读书方法有八种: 一注音,二解字,三句读,四释意,五连篇,六涵泳,七辩论,八开讲。 当年作者父亲教书时,《...
    sly61阅读 3,772评论 0 2
  • 目录 第十五章回顾 偌大的客厅里只剩下张悦宁和夏雨涵两个人面对面坐着,彼此的气息循环在氤氲的空气中。 仿佛这是一场...
    端木婉清阅读 3,452评论 3 6
  • 还是把本分做好 对得起之前的承诺 二十多岁了都 太渣了怎么过日子 少看直播少打游戏 看看书看看综艺都不为过 要活的...
    Gas阅读 1,891评论 0 0
  • 福彩313期 毒6次9 绝杀78 五码复式69057 69248 012478等于01 3569等于23 体彩31...
    涠洲记忆阅读 1,917评论 0 0