第三周/第三周实战作业: 分析二手商品行情

1. 引言

Paste_Image.png
Paste_Image.png

2. 分析

  • 定义生成日期的函数
  • 筛选哪些帖子在指定日期内, 统计该日期内指定区域的所有帖子
  • 筛选哪些帖子在指定日期内, 统计该日期内指定成色的所有帖子数量和总价格

3. 实现部分

In [1] :
from pymongo import MongoClient
from datetime import timedelta, date
import charts

Server running in the folder /home/wjh at 127.0.0.1:52450


In [2] :
client = MongoClient('10.66.17.17', 27017)
database = client['ganji']
item_info = database['item_info']

In [3] :
# 查看下源数据
[i for i in item_info.find().limit(30)]
Out [3] :
[{'_id': ObjectId('5698f524a98063dbe9e91ca8'),
  'area': ['朝阳', '高碑店'],
  'cates': ['北京58同城', '北京二手市场', '北京二手家电', '北京二手冰柜'],
  'look': '-',
  'price': 450,
  'pub_date': '2016.01.12',
  'time': 0,
  'title': '【图】95成新小冰柜转让 - 朝阳高碑店二手家电 - 北京58同城',
  'url': 'http://bj.58.com/jiadian/24541664530488x.shtml'},
 {'_id': ObjectId('5698f525a98063dbe4e91ca8'),
  'area': ['朝阳', '定福庄'],
  'cates': ['北京58同城', '北京二手市场', '北京二手家电', '北京二手洗衣机'],
  'look': '-',
  'price': 1500,
  'pub_date': '2016.01.14',
  'time': 2,
  'title': '【图】洗衣机,小冰箱,小冰柜,冷饮机 - 朝阳定福庄二手家电 - 北京58同城',
  'url': 'http://bj.58.com/jiadian/24349380911041x.shtml'},
 {'_id': ObjectId('5698f525a98063dbe7e91ca8'),
  'area': ['朝阳', '望京'],
  'cates': ['北京58同城', '北京二手市场', '北京二手台式机/配件'],
  'look': '-',
  'price': 1500,
  'pub_date': '2015.12.27',
  'time': 3,
  'title': '【图】三星 A5 白色 没有打开过 - 朝阳望京台式机/配件 - 北京58同城',
  'url': 'http://bj.58.com/diannao/24475337853109x.shtml'}]

In [4] :
# 定义生成日期列表函数
def date_gen(date1, date2):
    # 起始日期
    one_day = date(int(date1.split('.')[0]), int(date1.split('.')[1]), int(date1.split('.')[2]))
    # 结束日期
    end_day = date(int(date2.split('.')[0]), int(date2.split('.')[1]), int(date2.split('.')[2]))
    # 日期增长步伐
    step = timedelta(days=1)
    # 生成日期列表
    while one_day <= end_day:
        # 每次日期列表生成位置从上次结束位置开始
        yield one_day.strftime('%Y.%m.%d')
        # 日期增长一天
        one_day += step
# 输出看下结果        
[i for i in date_gen('2015.12.01', '2015.12.05')]
Out [4] :
['2015.12.01',
 '2015.12.02',
 '2015.12.03',
 '2015.12.04',
 '2015.12.05']

TOP3图表

In [5] :
# 定义图表数据生成函数, 指定区域, 图表类型, 起始日期, 结束日期
def area_count_gen(area, types, date1, date2):
    # 管道模型, 带入起止日期, 区域
    pipeline = [
        # 引用日期生成函数生成日期列表, 代入区域变量, 实现数据筛选
        {'$match': {'$and': [{'pub_date': {'$in': [i for i in date_gen(date1, date2)]}}, {'area': area}]}},
        # 以数据中区域字段的第3位来分组, 并统计数量
        {'$group': {'_id': {'$slice': ['$cates', 2, 1]}, 'counts': {'$sum': 1}}},
        # 降序排列
        {'$sort': {'counts': -1}},
        # 只显示前3条, 即TOP3
        {'$limit': 3},
    ]
    # 定义类型列表
    cate = []
    # 定义数量列表
    count = []
    # 定义存放类型和数量的列表
    cate_count = []
    # 利用管道模型循环筛选出类型即数量
    for i in item_info.aggregate(pipeline):
        # 类型存入类型列表
        cate.append(i['_id'][0])
        # 类型存入数量列表
        count.append(i['counts'])
    # 生成数据字典
    data = {
        'name': area,
        'type': types,
        'data': count,
    }
    # 将类型列表存入要返回的列表中, 在图表参数options中作引用
    cate_count.append(cate)
    # 将数据字典存入要返回的列表中, 作为图表的数据
    cate_count.append(data)
    # 返回列表数据以作引用
    return cate_count
# 输出数据看下
print(area_count_gen('朝阳', 'column', '2015.12.01', '2015.12.30'))

[['北京二手服装/鞋帽/箱包', '北京二手家电', '北京二手母婴/儿童用品'], {'type': 'column', 'name': '朝阳', 'data': [800, 784, 583]}]


In [6] :
# 定义图表参数
options = {
    'chart': {'zoomType': 'xy'},
    'title': {'text': '某段时间北京二手物品发帖量对比'},
    'subtitle': {'text': '2015.12.01 ~ 2015.12.30该区域分类发帖量TOP3'},
    # 分类引用图表数据生成函数的返回列表中的第1位
    'xAxis': {'categories': area_count_gen('丰台', 'column', '2015.12.01', '2015.12.30')[0]},
    'yAxis': {'title': {'text': '数量'}},
}
# 数据引用图表数据生成函数的返回列表中的第2位, 这里指定区域的名字则生成相应的数据
serises = area_count_gen('丰台', 'column', '2015.12.01', '2015.12.30')[1]
# 生成图表
charts.plot(serises, show='inline', options=options)
Out [6] :
Paste_Image.png

价格对比图表

In [7] :
# 定义所有包含所有成色的列表
levels = ['全新', '99成新', '95成新', '9成新', '8成新', '7成新及以下']

In [8] :
# 定义价格图表生成函数, 传入图表类型, 成色列表, 起止日期
def price_gen(types, levels, date1, date2, cates):
    # 定义价格列表
    nums = []
    # 循环获取各成色物品的平均价格
    for level in levels:
        pipeline = [
            # 引用日期生成函数生成列表, 传入成色筛选数据
            {'$match': {'$and': [{'pub_date': {'$in': [i for i in date_gen(date1, date2)]}}, {'look': level}, {'cates': {'$all': cates}}]}},
            # 以成色分组, 统计总价, 统计单一成色条目数
            {'$group': {'_id': '$look', 'prices': {'$sum': '$price'}, 'counts': {'$sum': 1}}},
        ]
        # 筛选出数据结果
        data_all = [i for i in item_info.aggregate(pipeline)]
        # 看下筛选出来的数据
        print(data_all)
        # 将平均价逐一添加至价格列表中
        nums.append(data_all[0]['prices'] // data_all[0]['counts'])
    # 生成数据字典
    data = {
        'name': '价格',
        'type': types,
        'data': nums,
    }
    # 返回数据字典
    return data
# 输出看下结果        
s = price_gen('line', levels, '2015.11.01', '2016.1.30', ['北京二手手机'])
print(s)
Out [8] :
[{'counts': 133, '_id': '全新', 'prices': 255698}]
[{'counts': 158, '_id': '99成新', 'prices': 265731}]
[{'counts': 210, '_id': '95成新', 'prices': 468619}]
[{'counts': 232, '_id': '9成新', 'prices': 248964}]
[{'counts': 117, '_id': '8成新', 'prices': 74176}]
[{'counts': 13, '_id': '7成新及以下', 'prices': 7260}]
{'type': 'line', 'name': '价格', 'data': [1922, 1681, 2231, 1073, 633, 558]}

In [9] :
# 生成图表的参数
options = {
    'chart': {'zoomType': 'xy'},
    'title': {'text': '北京城区二手物品价格走势图'},
    'subtitle': {'text': '2015.11.01 ~ 2016.1.30时间段内各成色二手物品的平均价格'},
    # X轴用成色分类
    'xAxis': {'categories': levels},
    'yAxis': {'title': {'text': '价格'}},
}
# 引用价格图表函数生成图表数据
serises = price_gen('line', levels, '2015.10.01', '2016.1.30', ['北京二手手机'])
# 输出图表
charts.plot(serises, show='inline', options=options)
Out [9] :
Paste_Image.png

4. 总结

  • 图表数据里的data字段数量要和options里的数量相同
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容