数据竞赛/kaggle/数据分析入门汇总

以下为参加各种比赛时,涉及各种过程的代码汇总。主要使用一下python模块:

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from tensorflow.python.keras.preprocessing.sequence import pad_sequences
import seaborn as sns 
%matplotlib inline 
import os
import pickle

读取和保存数据

#从csv加载dataframe
data = pd.read_csv('自己的路径', header=None, sep='\t')
data.columns = ['id','feature1','feature2','...']  # 设置行索引
#从pkl加载dataframe
data = pickle.load(open("data/data_feature.pkl",'rb'))
data.columns = ['id','feature1','feature2','...']  # 设置行索引

建议统一采用以下的方式读取数据,即在第一次打开时保存为pkl(读取pkl文件速度快,特别在文件较大时,中间的特征也需要采用pkl保存):

def save_feature(data,names,file): #names为需要保存的列名list
    data = data[names]
    output = open(file, 'wb')
    pickle.dump(data, output)
    output.close()

names = 'u_id,gender,key_word'.split(",") #自定义列名 list

file = 'data/member_info_0926.pkl'
usingSaved = os.path.exists(file)
#读取item
if not usingSaved:    
    data = pd.read_csv('data/member_info_0926.txt', sep='\t', names = names)
    save_feature(data,data.columns,file)
else:
    data = pickle.load(open(file, 'rb'))
    
data.head()

测试集和训练集的拼接与分离

一般来说,归一化、label encoding、离散化等处理特征的方法需要测试集和训练集一块处理。

length = len(train)
data = pd.concat([train, test], axis=0, sort=True)
#-------------------------
对data进行特征处理
#-------------------------
#train和test的拆分
train_features = ['fea1','fea2','fea3'] #真正需要送入模型的特征名
train = data[train_features][0:length]
test = data[train_features][length:]

特征工程常用函数

离散特征(例如用户id),最常见的编码方法,label encoding, count vec 和mean encoding

name = ['性别','邀请创建时间-hour','邀请创建时间-week','用户多分类特征d','用户多分类特征c','用户多分类特征a']
'''
label encoding
data: 整个dataframe
feats: 需要进行label encoding的特征名称
在embedding 前需要进行label encoding,比较稀疏时作为lightgbm的输入意义不大
'''
def ge_label_encoding(data,features):
    encoder = LabelEncoder()
    for feat in name:
        col_name = '{}_label_enc'.format(feat)
        data[feat+"_count"] = data[feat].map(data[feat].value_counts().astype(int))
        data.loc[data[feat+"_count"] < 2, feat] = "-1" # 对出现次数为1的进行截断,可自定义阈值
        encoder.fit(data[feat])
        data[col_name] = encoder.transform(data[feat])
    return data
'''
count vec 
data: 整个dataframe
feats: 需要进行count vec的特征名称
可直接作为lightgbm的输入
'''
def get_count_vec(data,feats):
    for feat in feats:
        col_name = '{}_count_vec'.format(feat)
        data[col_name] = data[feat].map(data[feat].value_counts().astype(int))
        data.loc[data[col_name] < 2, feat] = -1 # 对出现次数为1的进行截断,可自定义阈值
        data[feat] += 1
        data[col_name] = data[feat].map(data[feat].value_counts().astype(int))
        data[col_name] = (data[col_name] - data[col_name].min()) / (data[col_name].max() - data[col_name].min())
    return data
'''
expand meaning encoding
data: 整个dataframe
feats: 需要进行meaning encoding的特征名称
target: 分类的目标标签
可直接作为lightgbm的输入
'''
def get_expand_meaning_encoding(data,feas,target):
    for fea in feas:
        cumsum = data.groupby(fea)[target].cumsum() - data[target]
        cumcnt = data.groupby(fea).cumcount()
        data[fea+"_mean_encoding"] = cumsum / cumcnt
    return data

多值离散特征的处理,需要变成定长的特征,因此需要截断和填补,对于其长度,根据具体情况可使用多值离散特征的平均长度,最长长度的一半,最长长度。

#对多值离散特征进行编码
def get_var_feature(data,names,nums):
    encoding_list = []
    key2index = {}
    for i,feat in enumerate(names):
        def __split(x):
            key_ans = x.split(',') #多值离散特征通常在同一列,并使用某种分隔符分割
            for key in key_ans:
                if key not in key2index:         
                    key2index[key] = len(key2index) + 1
            return list(map(lambda x: key2index[x], key_ans))
        genres_list = list(map(__split, data[feat].values))
        genres_length = np.array(list(map(len, genres_list)))
        max_len = nums[i]
        #注意选择填充和截断的位置在前还是在后
        genres_list = pad_sequences(genres_list, maxlen=max_len, padding='post',truncating='pre' )
        data_topic = pd.DataFrame(genres_list)
        #生成列名字
        data_topic.columns = [feat+str(i) for i in range(max_len)] if max_len>1 else [feat+'_enc']
        encoding_list.append(data_topic)
    print("fea length {}".format(len(key2index)+1))
    data = data.reset_index(drop= True)
    data = pd.concat([data]+encoding_list, axis=1)
    return data
data = get_var_feature(data,['问题绑定话题','关注话题','用户上次回答话题'],[6,11,6])
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容