数据预处理时用pandas
做了一个科比的投篮预测,数据集在kaggle上可以找到,我们对flag(投中与否)进行预测的时候,选择了一下的参数:
改为onehot格式的时候出现了一个很大的bug。
很显然的,顺序变了,第一列肯定不是combined_shot_type了,而是变成了period。
why?
原因是处在了pd.get_dummies(data)上,下面是中间过程:
也就是说,get_dummies在处理数据的时候,优先处理了本身是数字的数据,然后把文字描述类的改成了onehot格式。所以,我们在选择最后的目标的时候,得看着些了。