天池新人实战赛之[离线赛](转)

import pandas as pd

import re 

# pandas 读取商品子集(P)train_item=pd.read_csv('tianchi_fresh_comp_train_item.csv') 

# 查看商品子集数据的数量 

train_item['item_id'].count()# 查看商品子集前10条的数据 

train_item.head(10) 

 # 读取用户商品交互数据(D)train_user=pd.read_csv('tianchi_fresh_comp_train_user.csv') 

# 查看用户商品交互数据数量 

train_user['user_id'].count() 

# 查看用户商品交互数据的前10条train_user.head(10) 

 # 查看每一列的异常值 

train_user.apply(lambda x : sum(x.isnull()))

 # 查看日期和行为数据 

train_user['time'].value_counts()train_user['behavior_type'].value_counts()

# 筛选出 behavior_type==3,即加入购物车数据 

train_user = train_user[train_user['behavior_type']==3]

train_user['behavior_type'].value_counts()

 # 筛选出12月18日一天的数据

regex = re.compile(r'^2014-12-18+ \d+$')

def date(column): 

           if re.match(regex,column['time']): 

                  date,hour = column['time'].split(' ')  

                  return date 

           else: return 'null'

train_user['time'] = train_user.apply( date , axis=1)

train_user = train_user[(train_user['time'] == '2014-12-18')]train_user.head(10)

 # 删除掉多余项 

train_user = train_user.drop(['user_geohash'] , axis=1)train_user = train_user.drop(['item_category'] , axis=1)train_user = train_user.drop(['behavior_type'] , axis=1)train_user = train_user.drop(['time'],axis=1)

 # 查看结果数据集 

train_user['item_id'].count() 

# 生成sample_submission.csv 文件,保存train_user.to_csv('sample_submission.csv',index=False)print('completed!')


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容