关于OrdinalEncoder 、OneHotEncoder 、get_dummies、LabelEncoder的用法与作用

OrdinalEncoder / OneHotEncoder /get_dummies 三个方法都能够将离散的类别特征转换成由数字代表的类别特征.但是三者的特征又不尽相同

不扩展特征个数

OrdinalEncoder (与LabelEncoder用法 效果都是一致的,这里就不再单独说明LabelEncoder)
  • scikit-learn中提供的方法;可以将每一个类别的特征转换成一个新的整数(0到类别数n-1之间),即并非0或1
    • 传入的对象必须要求是2D的数据结构
    • 并不会增添特征的维度,只是对该特征类别值进行一个映射,这与One_Hot Encoder有明显的转换上的不同
    • 但是这种方法并不是对所有的scikit-learn估计器都适用
In: MSSubClass_data = train_df.MSSubClass.astype(str)    #在所有操作前,将特征转换成字符串是必须的操作
In: label_encoder = preprocessing.LabelEncoder()
In: MSSubClass_data_encoded = label_encoder.fit_transform(MSSubClass_data)

扩展特征个数

OneHotEncoder
  • Scikit-Learn OneHotEncoder
    • OneHotEncoder是一种能够被scikit-learn的估计器使用的类别特征转换函数
    • 原理是将有n个类别的值转换成n个二分特征属性,属性值取0或者1
    • 因此,One-Hot Encoder是会根据特征取值的类别改变数据特征数目的
    • 因为扩展了特征的个数,并返回二值类别数值,势必会造成稀疏矩阵.参数spare可以用来设置是否返回稀疏矩阵
    • 传入的对象必须要求是2D的数据结构
    • 需要注意的是,如果用来fit的数据并不包含所有的潜在类别,那么在传参时需要传入ignore,即忽略没有拟合的类别,否则会报错enc = preprocessing.OneHotEncoder(handle_unknown='ignore'). 如果要求识别出所有类别必须指明:
>>> genders = ['female', 'male']
>>> locations = ['from Africa', 'from Asia', 'from Europe', 'from US']
>>> browsers = ['uses Chrome', 'uses Firefox', 'uses IE', 'uses Safari']
>>> enc = preprocessing.OneHotEncoder(categories=[genders, locations, browsers])
>>> # Note that for there are missing categorical values for the 2nd and 3rd
>>> # feature
>>> X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
>>> enc.fit(X) 
OneHotEncoder(categorical_features=None,
       categories=[...],
       dtype=<... 'numpy.float64'>, handle_unknown='error',
       n_values=None, sparse=True)
>>> enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()
array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])
  • 对array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])的解读:
    • 前两位1,0是对genders的分类编码.即扩展出的两个特征(因为gender下一共就两种类别)gender_female特征下的值为1, gender_male特征下的值为0
    • 中间四位0,1,0,0是对locations的分类编码.即locations_from_Africa = 0,locations_from_Asia= 1,
      locations_from_Europe= 0, locations_from_US= 0,
    • 最后四位1,0,0,0是对browsers的分类编码.原理与上述一致,不再赘述.
最基本的用法:
In: enc = preprocessing.OneHotEncoder()
In: result = enc.fit_transform(MSSubClass_data.values.reshape(-1,1))
get_dummies
  • get_dummies 是pandas中提供的方法
    • 原理与OneHotEncoder基本一致
最基本的用法:
In: all_df.MSSubClass = pd.get_dummies(all_df['MSSubClass'],prefix='MSSubClass')
转换前.png
转换后.png

关于怎么使用Encoder方法改变原数据集?

在写这篇文章的时候,其实最困扰我的问题是如何利用Encoder接口实现对原数据集的有针对性的更改.后来在Scikit-Learn官网上找到一段代码,也算是能解答这个问题.下面贴出来:

from __future__ import print_function

import pandas as pd
import numpy as np


from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split,GridSearchCV


np.random.seed(0)

# Read data from Titanic dataset.
titanic_url = ('https://raw.githubusercontent.com/amueller/'
               'scipy-2017-sklearn/091d371/notebooks/datasets/titanic3.csv')
data = pd.read_csv(titanic_url)

# We will train our classifier with the following features:
# Numeric Features:
# - age: float.
# - fare: float.
# Categorical Features:
# - embarked: categories encoded as strings {'C', 'S', 'Q'}.
# - sex: categories encoded as strings {'female', 'male'}.
# - pclass: ordinal integers {1, 2, 3}.

# We create the preprocessing pipelines for both numeric and categorical data.
numeric_features = ['age', 'fare']
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant',fill_value = 'missing')),
    ('onehot',OneHotEncoder(handle_unknown = 'ignore'))]

categorical_features = ['embarked', 'sex', 'pclass']
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(                  # 这一步实现对数值型数据和类别数据的分别更改
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

# Append classifier to preprocessing pipeline.
# Now we have a full prediction pipeline.
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', LogisticRegression(solver='lbfgs'))])

X = data.drop('survived', axis=1)
y = data['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

clf.fit(X_train, y_train)
print("model score: %.3f" % clf.score(X_test, y_test))</pre>

源代码网址:https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer_mixed_types.html#sphx-glr-auto-examples-compose-plot-column-transformer-mixed-types-py

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,192评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,858评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,517评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,148评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,162评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,905评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,537评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,439评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,956评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,083评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,218评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,899评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,565评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,093评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,201评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,539评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,215评论 2 358