不败给名词! 了解特征工程

机器学习

基本概念:

人工智能 > 机器学习 > 深度学习

机器学习:

机器学习是从数据中自动分析获得规律(模型), 并利用规律对未知数据进行预测.

  • 根据用户喜好信息, 智能推荐商品(淘宝首页推荐)
  • 分析客服问答模型, 替代人工客服(JD客服)
  • 分析客户信用数据, 计算信贷额度(蚂蚁金服)

特征

对于人类个体而言姓名,年龄,性别,都是其自身的特征

特征值, 目标值

判定男女
  • 特征值(已知的): 身高, 体重, 头发长度, 体征(很多)
  • 目标值(未知的): 男, 女

样本

如果对全班学生成绩进行分析,一个学生就是一个样本


特征工程:

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性

  • 特征抽取
  • 特征预处理
  • 特征降维

1.特征抽取

1.1 字典特征抽取: 万能的0和1之字典特征抽取 (one-hot编码)

1.2 文本特征抽取: 对自然语言进行情感分析(CountVectorizer, TfidfVectorizer)

  • one-hot编码(字典,列表类型均可)
    机器会将所有样本中, 出现过的特征统统列举出来,然后每个样本挨个比对所有特征,如果存在对应的特征则取1, 不存在则取0
one-hot
from sklearn.feature_extraction.text import CountVectorizer
import jieba

# 肖申克影评
xsk_text = """
豆瓣有人问,为啥肖申克评价这么高?他是不是只是从一个满是泥泞的臭水沟的监牢逃出而已?其实救赎是对自己的破茧成蝶,每个人眼前都有一个模版,一个完美的人的样子,很美,很有灵魂,很有姿态,得到很多人爱。为什么自己总是做不好,自己总是不美?自己总是如此多的陋习?但是最后这一个人还是只能从自己的茧里面冲破而出,或许学会了飞,或许意境忘了怎么飞,但这个速度的快慢不会影响最早的结果,最终你还是要学会怎么从丑陋变得自信和自强~ 接受一个事实,在某个层面上,在三维时空看起来,蝴蝶都是一样的美,蝴蝶其实根本上长得一样~ 
"""
# 中文分词
xsk = jieba.cut(xsk_text)
xsk_list = [x for x in xsk]
# 实例化文本特征抽取
countvec = CountVectorizer()
# 填充并转换数据
data = countvec.fit_transform(xsk_list)
# 打印抽取的特征名
print(countvec.get_feature_names())
# 将数据以类one_hot编码方式展示
print(data.toarray())

2.特征预处理

通过特定的统计方法(数学方法)将数据转换成算法要求的数据

2.1 归一化

将某一列类型的数据,缩放到特定的范围(一般为缩放到0至1之间),相当于把满分为100分转换成满分为1分,原来百分制能考95分,现在只能算作0.95分

原始数据 归一化后
[0, 0, 10] [0, 0, 0]
[3, 3, 13] [0.3, 0.15, 0.3]
[5, 5, 15] [0.5, 0.25, 0.5]
[8, 8, 18] [0.8, 0.4, 0.8]
[10, 20, 20] [1, 1, 1]
from sklearn.preprocessing import MinMaxScaler

# 创建实例
mm = MinMaxScaler()
# 原始数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 为实例填充并转换数据
data = mm.fit_transform(lee)
# 打印转换后的结果
print(data)
归一化

缺点: 如果最大值过大最小值过小异常, 就容易影响准确性

2.2标准化

  • 通过对原始数据进行变换,把数据变换到均值为0,方差为1范围内
rom sklearn.preprocessing import StandardScaler

# 标准化实例化对象
std = StandardScaler()
# 创建数据
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 填充并转换数据
data = std.fit_transform(lee)
# 打印转换后的数据
print(data)
均值为0, 方差小于等于1
  • 填充缺失值
import numpy as np
from sklearn.preprocessing import Imputer

# 实例化填补缺失值的对象
imp = Imputer(missing_values="NaN",strategy="mean", axis=0)
# 创建存在缺失值的数据
lee = [[np.nan, 8, 4],[8, 9, np.nan], [2, 8, 1]]
# 填充并转换数据
data = imp.fit_transform(lee)
# 打印转换结果
print(data)
填补缺失值

3. 数据降维

3.1 特征选择: 将某些低于特定方差的特征值过滤掉(特征较少时采用)

from sklearn.feature_selection import VarianceThreshold

def var():
    """
    数据降维
    """
    
    var_thr = VarianceThreshold()

    # 第一列和第四列数据方差均为0, 会被消除
    lee = [
        [0, 2, 0, 10],
        [0, 1, 400, 10],
        [0, 1, 100, 10]]
    data = var_thr.fit_transform(lee)
    # 默认降维效果
    print("消除方差为0的特征列之后:")
    print(data)


    # 实例化variancethreshold,消除方差小于10的特征列
    var_thr2 = VarianceThreshold(threshold=10)
    # 填充并转换数据
    data2 = var_thr2.fit_transform(lee)
    # 打印结果
    print("消除方差小于10的特征列之后:")
    print(data2)

if __name__ == '__main__':
    var()
过滤式降维

3.2主成分分析(PCA)特征较多时采用

用低维度表示高维度,例如用二维的照片表现出三维世界的立体感(尽可能损失较少的信息)

from sklearn.decomposition import PCA

def my_pca():
    lee = [[10, 15, 20, 25],
           [11, 16, 21, 26],
           [20, 25, 30, 35]]
    # n_components为整数时,表示结果保留的特征数量, n_components为小数时,表示保留的特征信息的百分比
    i_pca = PCA(n_components=2)

    data1 = i_pca.fit_transform(lee)
    print("保留两个特征的结果为:")
    print(data1)

    f_pca = PCA(n_components=0.95)

    data2 = f_pca.fit_transform(lee)
    print("保留95%信息的结果为:")
    print(data2)


if __name__ == '__main__':
    my_pca()
PCA
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容