[ml-100k电影数据] 2 按月统计观影人数和各星评价数

3.1 数据集 ml-100k

3.2 分析过程

  1. 建表,日期为 ‘2019-04-01 23:33:08’ 格式。create table u_data_ymdhms (userid INT, movieid INT, rating INT, strtime date);

  2. 转化时间到新表。insert overwrite table u_data_ymdhms select userid, movieid, rating, from_unixtime(int(unixtime), 'yyyy-MM-dd HH:mm:ss') from u_data

  3. 按月份统计每个月观影人数。select month(strtime),count(1) from u_data_ymdhms group by month(strtime);

    month count
    1 14237
    2 10946
    3 13034
    4 8839
    9 6863
    10 10313
    11 24137
    12 11631
  4. 统计每个月1--5星评价的数目。列传行,将数据转化为 month, star1, star2,.., star5.
    注意:保存到本地文件夹中,一定要新建一个空文件夹!!!!否则会覆盖所有文件!!!!

    create table u_monthstar (month int, star1 int, star2 int, star3 int, star4 int, star5 int);
    
    insert into table u_monthstar
    select month(strtime),
    sum(case rating when 1 then 1 else 0 end),
    sum(case rating when 2 then 1 else 0 end),
    sum(case rating when 3 then 1 else 0 end),
    sum(case rating when 4 then 1 else 0 end),
    sum(case rating when 5 then 1 else 0 end)
    from u_data_ymdhms
    group by month(strtime);
    
    # 保存到本地文件
    insert overwrite local directory '/home/badou/data/terminated_fields' row format delimited fields terminated by '\t'
    select * from u_monthstar;
    
    
  5. python中用dataframe读取,画图,观察每个月份1 -- 5星评价比例分布。


    movie_groupby_monthstar.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,270评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,489评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,630评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,906评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,928评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,718评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,442评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,345评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,802评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,984评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,117评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,810评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,462评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,011评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,139评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,377评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,060评论 2 355

推荐阅读更多精彩内容

  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,457评论 0 13
  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,334评论 0 10
  • MYSQL 基础知识 1 MySQL数据库概要 2 简单MySQL环境 3 数据的存储和获取 4 MySQL基本操...
    Kingtester阅读 7,818评论 5 116
  • Lua 5.1 参考手册 by Roberto Ierusalimschy, Luiz Henrique de F...
    苏黎九歌阅读 13,812评论 0 38
  • 人是一片有生命的芦苇荡 捧着茶杯的滚烫 冷却满心的迷离心殇 契合幻灭的晨曦探进窗 淹没在猎场的长吁短叹呼啸乱窜 如...
    懒人阿八阅读 330评论 4 1