最近在使用mlxtend,里面有个
it transforms the input dataset (a Python list of lists) into a one-hot encoded NumPy boolean array:
一开始没理解这个one-hot是啥,看了下文知道,就是True-False形式的数据,那种0、1 的格式。
one-hot code 又称为1位有效编码
这个一般在机器学习中提到的比较多,在数据预处理的过程中使用较多,一般特征值使用0、1来表示会方便很多,而且效率高。
像性别,一般有男、女,转为one-hot,就是[10,01],如果再加上个未知,那就是[100,010,001]
感觉这里需要注意的就是将所有的特征值转换为0,1,有几个特征值,就转换为几位编码。
这里也不介绍啥复杂高深的机器学习概念了,我也还没掌握呢,记录下这么个方法,以后会用到的。在pandas中好像也有方法可以转换,等我学习下,再过来分享。
补充