方法签名:
pandas.factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None)
将Series或类似的数据结构映射为一组数字,相同的值映射为相同的数字,适用于同样的几个值反复出现的列。
它返回一个元祖,第一个元素是映射的数字,第二个是Index类型,就是原来的值去重。
参数:
- values:一维sequence,不是pandas对象的sequence在执行这个函数之前会被强制转换为ndarrays
- sort:bool,默认False,对uniques排序,并且将labels 重组,来维持关联
- na_sentinel:int。默认-1,用于标记找不到的值
- size_hint:int,可选,hint哈希表的sizer
返回:
labels:ndarray
uniques:ndarray。Index,或者Catagorical