sklearn库-特征工程

sklearn作为python机器学习的一个常用库,可以用来做特征工程,算法的调用,模型的评估

特征工程

特征工程包含特征选择,特征处理两个阶段

特征选择

特征。。在数据库或者excel表里应该是被称作是字段的吧,在编程语言里,应该是一个类的属性吧。
特征的选择,可以从两个方面来考虑(默认具有时效性,且已经完成数据的整合)
1。结合别人和自己的意见选取对自己业务有用的特征
2。有时候人的判断不准确,让函数方法来选择特征
(1)靠信息增益来表示自变量和目标变量之间的关联
(2)学习器自动选择特征,决策树,深度学习,正则化

特征处理

1。缺失值的处理

(1) 可以用该特征的平均值填充


(2)将特征分组或排序,每个组缺失值拿该组的平均值填充
(3)函数方法填充,自己选择

2。数据集的切割

做机器学习的时候一般将数据集切分成两块,分成训练集和验证集,将训练集训练出来的模型在验证集上进行评估,来判断模型的优劣

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(‘训练集/数组’,'验证集/列表',test_size=0.3,random_state='常数/随机数标签,用他就可以产生一样的随机数')

3。数据的离散化

(1)连续型特征,可以将该数据离散化,离散化的区间可以用自己判断,也可以来算法来选择
(2)类别型特征,可以将自己变成0和1的格式(one-hot编码)

from sklearn.feature_extraction import DictVectorizer

measurements = [{'city':'Beijing','temperature':33.},{'city':'London','temperature':12.},{'city':'San Fransisco','temperature':18.}]
vec = DictVectorizer(sparse=False/(为了输出是一个数组,如果不加是scipy库的一个类))

dict = DictVectorizer(sparse=False)
#输出转化后的特征矩阵
#to_dict(orient="records")dataframe变成了字典嵌套在列表里面
x = dict.fit_transform(pd.to_dict(orient="records"))
#输出转化后的特征矩阵
print(type(vec.fit_transform(measurements)))
print(vec.get_feature_names())

4。数据的标准化(数据值减平均值/标准差)

(1)数据的标准化是因为不同维度的数据间量级相差较大,a列1w八千的,b列0.8,0.9,进行模型拟合的时候,会带动模型的差错,标准化之后就是可以在同一个层次上进行比较

from sklearn.preprocessing import StandardScaler
# 需要标准化处理对于特征值处理
std_x = StandardScaler()

x_train = std_x.fit_transform(x_train)
x_test = std_x.fit_transform(x_test)
# print(x_train)

# 对于目标值进行标准化
std_y = StandardScaler()

y_train = std_y.fit_transform(y_train)
y_test = std_y.transform(y_test)

5。数据的降维
(1)使用pca方法进行数据降维,可以理解成将数据经过一个投影到低维度上,但是他们相应的位置关系不变,所以他们包含的信息还
(2)主要目的是在不丢失原有数据信息的情况下降低机器学习算法的复杂度,及资源消耗。

sklearn.decomposition.PCA(n_components=“维度数或者保留数/int,string”, copy=True“默认T在副本上运算,f在原来数据集上运算”, whiten=False)

6。数据的归一化(不推荐,受异常值影响太大)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容