知识图谱学习笔记（二）——机器学习基础

机器学习基础

1. 机器学习基础理论与概念

1.1 机器学习概要

机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。

机器学习主要是研究如何使计算机从给定的数据中学习规律，从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对未知或无法观测的数据进行预测。

在这里插入图片描述

训练数据：

模型：
$线性方法：y = f(x) = w^Tx + b$
$非线性方法：神经网络$

优化：
$损失函数：L(y, f(x))$
$经验风险最小化：Q(\theta) = \frac{1}{m}\sum_{i=1}^mL(y_i, f(x_i, \theta))$
$正则化：||\theta||^2$

优化目标函数：
$Q(\theta) + \lambda||\theta||^2$

1.2 机器学习问题类型

回归（Regression）：y是连续值， $f(x)$ 的输出也是连续值。这种类型的问题就是回归问题。对于所有已知或未知的（x, y），使得 $f(x, \theta)$ 和y尽可能地一致。损函数通常定义为平方误差。
分类（Classification）：y是离散的类别标记（符号），就是分类问题。损失函数一般用0-1损失函数或负对数似然函数等。在分类问题中，通过学习得到的决策函数 $f(x,\theta)$ 也叫分类器。

1.3 机器学习算法类型

有监督学习：利用一组已知输入x和输出y的数据来学习模型的参数，使得模型预测的输出标记和真实标记尽可能一致。
半监督学习：利用少量已知输入x和输出y的数据以及未标注的样本，来学习模型的参数。
无监督学习：用来学习的数据不包含标注信息，需要学习算法自动学习到一些有价值的信息，例如聚类（clustering）

在这里插入图片描述

2. 深度学习和神经网络基础

传统的机器学习：人工特征工程+分类器

机器学习

深度学习：自动学习多尺度的特征表示

深度学习

2.1 感知机 Perceptron

感知机是对生物神经细胞的简单数学模拟，是最简单的人工神经网络，只有一个神经元。

在这里插入图片描述

感知机参数学习：

2.2 前馈神经网络 Feed Forward Neural Networks

在这里插入图片描述

前馈计算

$L表示神经网络的层数$
$n^l表示第l层神经元的个数$
$f_l(z)表示第l层的激活函数$
$w^l表示第l层的权重$
$b^l表示第l层神经元的偏置$
$z^l表示第l层神经元的状态$
$y^l表示第l层神经元的输出$
$z^l = w^l y^{l-1} + b^l$
$y^l = f_l(z^l)$
$z^l = w^l f_l(z^{l-1}) + b^l$

在这里插入图片描述

2.3 卷积神经网络 Convolutional Neural Network

卷积神经网络是一种前馈神经网络。局部链接，权值共享，采样。具有平移、缩放和扭曲不变形的特点。

在这里插入图片描述

全连接存在的问题：权重矩阵参数非常多，训练效率低下。数据不足时，欠学习。

一维卷积

二维卷积

为了增强卷几层的表示能力，可以使用K个不同的滤波器来得到K组输出。每一组输出都共享一个滤波器。如果我们把滤波器看成一个特征提取器，每一组输出都可以看成是输入图像经过一个特征抽取后得到的特征。因此，在卷积神经网络中每一组输出也叫做一组特征映射。

关于CNN的具体讲解，推荐学习一下这篇博文一文让你彻底了解卷积神经网络里面的基础知识讲解的还是蛮细致的，就是反向传播的过程讲的有些突兀。

下面通过一个例子来了解一下CNN在图像处理中的应用。
LeNet-5提出时间比较早，是一个非常成功的神经网络模型。基于LeNet-5的手写数字识别系统在90年代被美国很多银行使用。该网络一共有7层。

在这里插入图片描述

输入层：输入图像大小为32 X 32 = 1024.
C1层：这一层是卷积层。滤波器的大小是55=25，共有6个滤波器，不使用全0填充，步长为1。得到6组大小为2828=784的特征映射。因此，C1层的神经元个数为6784=4704.可训练参数个数为625+6=156（其中包括6个偏置bias）。连接数为156*784=122304。
S2层：这一层为子采样层，也称为池化层。由C1层每组特征映射中的22邻域点次采样为1个点（4个数的平均值），长和宽的步长均为2，所以本层的输出矩阵大小为1414*6。
C3层：这一层为卷积层。使用16组，共60个滤波器，打下为55=25。滤波器与S2层特征的映射连接关系如下表所示：

在这里插入图片描述

本层不使用全0填充，步长为1，得到16组大小为1010=100的特征映射，输出矩阵为161010。可训练参数个数为6025+16 = 1516。连接数为1516100 = 151600。
S4层：这一层是子采样层，由22邻域点次采样为1个点，步长为2.本层的输出矩阵大小为55*16。
C5层：这是一个卷积层，得到120组大小为11的特征映射。每个特征映射与S4层的全部特征映射相连。有12016=1920个滤波器，大小为55=25，C5层的神经元个数为120，可训练参数个数为192025+120=48120。
F6层：全连接层，有84个神经元，可训练参数个数为84*（120+1）=10164个。
输出层：全连接层，输出层由10个欧式径向基函数组成。

2.4 循环神经网络 Recurrent Neural Network

前馈神经网络和CNN存在如下问题：
1.连接存在于层与层之间，每层的节点之间是无连接的。
2.输入和输出的维数是固定的，不能任意改变。无法处理变长的序列数据。
3.假设每次输入都是独立的，也就是说每次网络的输出只依赖于当前的输入。

循环神经网络通过使用自带反馈的神经元，能够处理任意长度的序列。

在这里插入图片描述

循环神经网络一个非常重要的概念就是时刻。其会对每一个时刻的输入结合当前模型的状态给出一个输出。
在RNN中，每一个时刻会有一个输入，然后根据RNN当前的状态提供一个输出。而RNN当前的状态是根据上一个时刻的状态和当前的输入共同决定的。RNN最擅长解决的问题是与时间序列相关的。RNN要求每一个时刻都有一个输入，但是不一定每个时刻都需要有输出。
更直观的，我们可以得到如下图所示的循环神经网络：

在这里插入图片描述

RNN包括了输入层、隐藏层和输出层。假设时刻t时，输入为，隐层状态为。不仅和当前时刻的输入相关，也喝上一个时刻的隐层状态相关。一般可以使用如下函数：

这里，是非线性函数，可以为sigmod函数或者tanh函数。

长短时记忆神经网络：LSTM ：Long Short-Term Memory Neural Network

LSTM是RNN的一个变体，可以有效解决简单循环神经网络的梯度爆炸或消失问题。LSTM的关键是引入了一组记忆单元，允许网络可以学习何时遗忘历史信息，何时用新信息更新记忆单元。在时刻t时，记忆单元 $c_t$ 记录了当前时刻为止的所有历史信息，并受三个“门”控制：输入门 $i_t$ ，遗忘门 $f_t$ 和输出门 $o_t$ 。三个门的元素的值在[0，1]之间。
下图本别是RNN和LSTM的示意图：

在这里插入图片描述

粉色的圈表示逐点（pointwise）操作，例如向量的和，黄色的矩阵表示学习到的神经网络层。

LSTM核心思想

在这里插入图片描述

表示细胞的在时刻t的状态，水平线则表示细胞的状态信息，它类似于一条传送带，直接在整个链上运行，只有一些少量的线性交互。信息在上面流转保持不变会很容易。
若只有上面的那条水平线是无法实现添加或者删除信息的。

在这里插入图片描述

LSTM中的门可以选择性的控制信息的流动，通常由一个sigmoid神经网络层和一个point wise(或者叫element wise)的乘法操作组成。sigmoid层输出（一个向量）的每个元素都是一个0和1之间的实数，表示让对应信息通过的权重。
LSTM中主要包含三种门：遗忘门、输入门和输出门。
遗忘门

在这里插入图片描述

遗忘门的作用是让LSTM忘记之前没有用的信息。该结构会根据当前的输入、上一时刻的状态和上一时刻的输出共同决定哪一部分记忆需要被遗忘，表示sigmoid函数。

输入门
在LSTM忘记了部分之前的状态后，它还需要从当前的输入补充最新的记忆，这个过程就是输入门完成的。实现这个需要两个步骤：首先，一个叫做“input gate layer”的sigmoid层决定哪些信息需要更新；一个tanh层生成一个向量，也就是备选的用来更新的内容 $\widetilde{C_t}$ 。

在这里插入图片描述

把遗忘门和输入门的结果进行整合，对cell的状态进行更新，可以得到当前时刻的状态。

在这里插入图片描述

输出门

在这里插入图片描述

最终，我们需要确定输出什么值。首先，通过sigmoid层来确定细胞状态的哪个部分输出出去。接着，我们把cell状态通过tanh进行处理（得到一个-1到1之间的值）并将它和sigmoid门的输出相乘，输出结果。

LSTM的变种

在这里插入图片描述

GRU（Gated Recurrent Unit）门限循环单元。是LSTM的简化版本，只有两个门：重置门和更新门。在这个结构中，把细胞状态（记忆单元）和隐藏状态（神经元活性）进行了合并。
更新门z：用来控制当前的状态需要遗忘多少信息和接受多少新信息。
重置门r：用来控制候选状态中有多少信息是从历史信息中得到的

还有双向循环神经网络：

在这里插入图片描述

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,589评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,615评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,933评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,976评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,999评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,775评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,474评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,359评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,854评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,007评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,146评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,826评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,484评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,029评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,153评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,420评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,107评论 2赞 356

知识图谱学习笔记（二）——机器学习基础

机器学习基础

1. 机器学习基础理论与概念

1.1 机器学习概要

1.2 机器学习问题类型

1.3 机器学习算法类型

2. 深度学习和神经网络基础

2.1 感知机 Perceptron

2.2 前馈神经网络 Feed Forward Neural Networks

2.3 卷积神经网络 Convolutional Neural Network

2.4 循环神经网络 Recurrent Neural Network

长短时记忆神经网络：LSTM ：Long Short-Term Memory Neural Network

LSTM核心思想

推荐阅读更多精彩内容