one-hot code 独热编码

最近在使用mlxtend,里面有个

it transforms the input dataset (a Python list of lists) into a one-hot encoded NumPy boolean array:

一开始没理解这个one-hot是啥,看了下文知道,就是True-False形式的数据,那种0、1 的格式。

one-hot code 又称为1位有效编码

这个一般在机器学习中提到的比较多,在数据预处理的过程中使用较多,一般特征值使用0、1来表示会方便很多,而且效率高。

像性别,一般有男、女,转为one-hot,就是[10,01],如果再加上个未知,那就是[100,010,001]

感觉这里需要注意的就是将所有的特征值转换为0,1,有几个特征值,就转换为几位编码。

这里也不介绍啥复杂高深的机器学习概念了,我也还没掌握呢,记录下这么个方法,以后会用到的。在pandas中好像也有方法可以转换,等我学习下,再过来分享。


补充

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容