Python爬虫实战笔记_3-2

统计各类商品的发贴量,画出柱状图。

从url中获取商品类别
table = mongoset('ganji', 'itemurls') # 访问数据表itemurls
dict = {}
datadict = []
for i in table.find():
    # 有部分url 指向zhuanzhuan商品,把它们都筛出去
    itemclass = i['itemurl'].split('/')[3] # itemclass = 'sh.ganji.com'
    # 下面判断 itemclass 是否为'sh.ganji.com', 是则保留,否则丢弃
    if len(itemclass)<20 and itemclass != 'Mzhuanzhuan':
        data = {
            'iclass' : itemclass,
            'url': i['itemurl']   
        }
        datadict.append(data)
classlist = []
for i in datadict:
    #print(i)
    classlist.append(i['iclass'])
classidx = list(set(classlist))
print(classidx)

classidx打印如下

['fushixiaobaxuemao', 'jiadian', 'shouji', 'xuniwupin', 'zixingchemaimai', 'ruanjiantushu', 'bangong', 'shoucangpin', 'jiaju', 'xianzhilipin', 'nongyongpin', 'yingyouyunfu', 'meironghuazhuang', 'shuma', 'diannao', 'motuoche', 'baojianpin', 'laonianyongpin', 'rirongbaihuo']

[itemurls]表中的部分数据

{'_id': ObjectId('57786d9084a5fd53c0c0b2a6'), 'itemurl': 'http://sh.ganji.com/shouji/2170757686x.htm'}
{'_id': ObjectId('57786d9084a5fd53c0c0b2a7'), 'itemurl': 'http://sh.ganji.com/shouji/2091775260x.htm'}
{'_id': ObjectId('57786d9084a5fd53c0c0b2a8'), 'itemurl': 'http://sh.ganji.com/shouji/2154806461x.htm'}
{'_id': ObjectId('57786d9084a5fd53c0c0b2ac'), 'itemurl': 'http://sh.ganji.com/shouji/2156209920x.htm'}
统计各类别商品的发贴数量
classamount = []
for i in classidx:
    #print(i)
    classamount.append(classlist.count(i))
    #print(classamount)
print(classamount)

classamount打印如下

[1744, 2858, 1773, 867, 1664, 2729, 4569, 3276, 1656, 3490, 468, 1638, 1377, 907, 2157, 270, 982, 1377, 1770]
将数据转换成用于highcharts 绘图的格式
def chartformat(name, data, typestr):
    # 将数据转换成highcharts 格式的标准数据
    series = []
    for n,d in zip(name, data):
        item = {
            'name': n,
            'data': [int(d)],
            'type': typestr
        }
        series.append(item)
    print(series)
    return series

data = chartformat(classidx, classamount, 'column')
charts.plot(data, show='inline')
各类目发贴量统计柱状图

看上去发贴量最大的是家具类目

Screen Shot 2016-07-05 at 10.35.04 PM.png
总结
  • 学习jupyter 与higncharts的使用,很赞的绘图工具
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容