机器学习入门——实战篇之深度学习

这是本篇文章是《机器学习入门》系列文章的第四篇,该系列有如下文章:
《机器学习入门——基础篇》
《机器学习入门——实战篇之监督学习》
《机器学习入门——实战篇之非监督学习》
《机器学习入门——实战篇之深度学习》
《机器学习入门——实战篇之强化学习》

深度学习和神经网络几乎是目前最流行的一种机器学习的模式。这个部分也自然是最有嚼劲的。

先简单看一下,神经网络是怎么来的:

11-深度学习-感知器神经网络.jpg

这就是神经网络的原型,输入一对数,经历某种感知器分类以后,再加上一个逻辑计算器,就有了某一种输出。当然了,这个神经网络没有什么用处,太简单了。可是基于这个简单的想法,我们有了多层的神经网络,如下:

13-深度学习-多级神经网络.jpg

可以简单的理解为,这是多个感知器层的一种叠加。当然实际上,这个模型是可以变得非常复杂的。我们一步一步来看看怎么用这个模型,也可以看看它的真面目。

我们在《机器学习入门——基础篇》中已经提及神经网络,这里我们再回顾一下关键点,比如,某一个数值经过神经网络一些列计算以后,最后得到一个分类的结果,这个过程其实有一个官方的名字“前向传播”,不必在意这个名字,他的意思很明白,就是把一个样本分类;

它的公式长这个样子:

P(Y) = WX + b

W是权重向量
X是输入向量
b 随便加一个数

另一方面,分类结束以后,总有一个对错,如果分得不好,那么我们就要分析原因,于是咋整呢,先整一个描述误差的函数,再看看怎么算误差吧:

E(W) = -(\frac 1 m) \times \sum^{i \to m} y_i \log_2(p(y)) + (1-y_i)\log_2(1-p(y_i))

上面的怪东西足够复杂了,我们不去看它,只知道它是针对这些权重的向量W的就行了。
那么回到刚才说的误差概念上,有了误差,总要追究,怎么追究呢,就是拿E(W)试问,E(W)也很无辜,它说自己就是有W向量组成的,于是,在向量的每个分支上求偏导数:

\frac {\partial E} {\partial W}

求导的话,只有一个难处了,那就是分类用的感知器经常给出不连续的函数,无法求导,这就是为什么我们引入Sigmoid函数,把跳变函数变得平滑。
好了,不难为大家了,我们是写实战的,赶紧进入主题,这些个东西都在Python的库里面给实现了,不用自己手写,想要了解细节的,可以去看看专著。先看一个小小的神经网络的例子:

import numpy as np

# 引入一大堆的keras库
from keras.utils import np_utils
from keras.models import Sequential
from keras.layers.core import Dense, Activation

# 宇宙终极奥秘答案42,参考《银河系漫游指南》
# 这里我们只要用42来做一个随机数种子,可谓大材小用
np.random.seed(42)

# 这是我们的假数据输入一个向量数组,输出一个分类数组
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]]).astype('float32')
y = np.array([[0], [1], [1], [0]]).astype('float32')

# 热独编码
y = np_utils.to_categorical(y)

# 这里就是真的构建我们的模型啦
xor = Sequential()
xor.add(Dense(32, input_dim=2))
xor.add(Activation("softmax"))
xor.add(Dense(2))
# 我们注意这里用了sigmoid函数
xor.add(Activation("sigmoid"))

xor.compile(loss="categorical_crossentropy",
            optimizer="adam", metrics=['accuracy'])

# 训练就是一个fit
history = xor.fit(X, y, epochs=1000, verbose=0)

# 评分吧,看看准确率
score = xor.evaluate(X, y)
print("准确率: ", score[-1])

# 预测
print("预测:")
print(xor.predict_proba(X))

我们可以用summary()方法来看看这个网络的样子:

Layer (层) Output Shape(形状) Param 参数
dense_1 (Dense) (None, 32) 96
activation_1 (Activation) (None, 32) 0
dense_2 (Dense) (None, 2) 66
activation_2 (Activation) (None, 2) 0

Total params: 162
Trainable params: 162
Non-trainable params: 0


它拥有两个Dense层和两个激活层。

当然了代码中输出的准确率1.0也就是100%的意思,是比较假的。也只是个示意。

下面我们来练习一个相对真实的东西,就是通过IMDB电影数据库的数据来做电影分类,具体代码如下:

# 导入一大堆库
import numpy as np
import keras
from keras.datasets import imdb
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.preprocessing.text import Tokenizer

# 老样子,设置随机数的种子
np.random.seed(42)

# IMDB库的数据被分成两类,用来训练和测试
# 为什么要分开两类,就是为了防止过拟合
# 过拟合就是考试前看了答案,那考的自然好,但是没有任何卵用
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=1000)

# 数据预处理,Tokenizer是一个典型的方法
# 它把单词放在一个字典一样的东西里对应起来计数,算单词的频率
tokenizer = Tokenizer(num_words=1000)
x_train = tokenizer.sequences_to_matrix(x_train, mode='binary')
x_test = tokenizer.sequences_to_matrix(x_test, mode='binary')

# 然后吧,我们为了方便计算,把单词变成了热独编码
# 啥是热独编码,就是如果有个数4,那么就在第四个bit位上置1,其余位置0
num_classes = 2
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

# 建模了建模了,注意Python里面不鼓励下面两行代码的位置
# import之类的代码要放在文件开头才好,不过为了清除期间,在这里先写下
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation

# 构建模型,Dense就是全连接的意思,刚才上个例子我们见过了
# 意思就是这一层的每个节点都跟上一层的每个节点相连,故而为全连接
# 后面选的activation就是激活函数,我们选了relu分类,然后又用了sigmoid求一个概率
model = Sequential()
model.add(Dense(1024, activation='relu', input_dim=1000))
model.add(Dense(512, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(2, activation='sigmoid'))


# 生成这个模型,指定损失函数categorical_crossentropy
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 一怒之下训练10次,其实可以多一点的
model.fit(x_train, y_train, epochs=10, batch_size=100)

# 最后算一个分数,看看好坏
score = model.evaluate(x_test, y_test, verbose=0)

各位亲,大家可以自己改一改参数,看看模型都能达到多少评分。

好了,本次我们对于深度神经网络的实战就简单介绍到这里了,希望大家玩得开心 :)

这是本篇文章是《机器学习入门》系列文章的第四篇,该系列有如下文章:
《机器学习入门——基础篇》
《机器学习入门——实战篇之监督学习》
《机器学习入门——实战篇之非监督学习》
《机器学习入门——实战篇之深度学习》
《机器学习入门——实战篇之强化学习》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容