深層学習の数理 by Taiji Suzuki(原文链接)
深度学习的数学原理(日文翻译)
原文:
機械学習と人工知能の歴史
1946: ENIAC,高い計算能力 フォン・ノイマン「俺の次に頭の良い奴ができた」
1952: A.Samuelによるチェッカーズプログラム
翻译:
机器学习和人工智能的历史
1946年,ENIAC的高运算能力,1.冯·诺依曼评价道:“我有了个聪明的好伙伴”。
1952年,IBM公司的塞缪尔编写的跳棋程序。
1.冯·诺依曼(John von Neumann)出生于匈牙利的美国籍犹太人数学家,现代电子计算机与博弈论的重要创始人。
原文:
統計的学習
1957:Perceptron,ニューラルネットワークの先駆け
第一次ニューラルネットワークブーム
1963:線形サポートベクトルマシン 線形モデルの限界
1980年代:多層パーセプトロン,誤差逆伝搬, 畳み込みネット
第二次ニューラルネットワークブーム
1992: 非線形サポートベクトルマシン (カーネル法) 非凸性の問題
1996: スパース学習 (Lasso)
2003: トピックモデル (LDA)
2012: Supervision (Alex-net)
第三次ニューラルネットワークブーム データの増加 +計算機の強化
翻译:
统计学习
1957年,感知器,神经网络的先行者。
第一次神经网络热潮
1963年,线性支持向量机(SVM) 线性模型的极限
20世纪80年代,多层感知器(MLP),反向传播算法(BP),卷积神经网络(CNN)
第二次神经网络热潮
1992年,非线性支持向量机(内核法)解决非凸性问题
1996年,L1范数正则化(Lasso回归)
2003年,文本主题模型(1.隐含狄利克雷分布)
2012年,监督学习(Alex-net)
第三次神经网络热潮 数据量的增加+运算能力的上升
1.隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)
文本主题模型之LDA(一) LDA基础
LDA(Latent Dirichlet allocation)主题模型
原文:
ルールベース
1960年代前半: ELIZA(イライザ), 擬似心理療法士
1980年代: エキスパートシステム
人手による学習ルールの作りこみの限界 「膨大な数の例外」
Siri1.などにつながる
翻译:
规则库
20世纪60年代前半,2.ELIZA,模拟心理咨询师
20世纪80年代,专家系统
人工制作学习规则的极限:“数量庞大的异常”
Siri等诸如此类
1.などにつながる:などに表示等等,つながる表示接连不断地。
2.ELIZA,世界上第一个真正意义上的聊天机器人。
原文:
諸分野への波及
ロボット
[タオル畳み、サラダ盛り付け 「指動く」ロボット初公開,
ITMedia:http://www.itmedia.co.jp/news/articles/1711/30/news089 .html]
量子化学計算,分子の物性予測
[Niepert, Ahmed&Kutzkov: Learning Convolutional Neural Networks for Graphs, 2016]
[Gilmer et al.: Neural Message Passing for Quantum Chemistry, 2017]
[Faber et al.:Machine learning prediction errors better than DFT accuracy, 2017.]
医療
医療分野における「深層学習」 を用いた論文数 [Litjens, et al. (2017)]
人を超える精度 (FROC73.3% -> 87.3%)
悪性腫瘍の場所も特定 [Detecting Cancer Metastases on Gigapixel Pathology Images: Liu et al., arXiv:1703.02442, 2017]
翻译:
涉及到的各个领域
机器人
能折叠毛巾,制作沙拉拼盘的“指动 ”机器人首次公开
ITMedia:http://www.itmedia.co.jp/news/articles/1711/30/news089.html
量子化学计算,分子的物理性预测
[Niepert, Ahmed&Kutzkov: Learning Convolutional Neural Networks for Graphs, 2016]
[Gilmer et al.: Neural Message Passing for Quantum Chemistry, 2017]
[Faber et al.:Machine learning prediction errors better than DFT accuracy, 2017.]
医疗
医疗领域引用“深度学习”的论文数[Litjens, et al. (2017)]
精度已超过人为判断(FROC73.3% -> 87.3%)
查明恶性肿瘤的位置 [Detecting Cancer Metastases on Gigapixel Pathology Images: Liu et al., arXiv:1703.02442, 2017]
原文:
深層学習の構造
基本的に「線形変換」と「非線形活性化関数」の繰り返し.
活性化関数は通常要素ごとにかかる.Poolingのように要素ごとでない非線形変換もある.
ReLU (Rectified Linear Unit):
シグモイド関数:
翻译:
基本上是“线性变换”和“非线性激活函数”的重复
激活函数通常与每个要素相关,但像池化那样与每个要素无关的非线性变换的也有
1.ReLU线性整流函数
2.Sigmoid函数
1.ReLU线性整流函数: 是一种人工神经网络中常用的激励函数,通常指代以斜坡函数及其变种为代表的非线性函数。
2.Sigmoid函数: Sigmoid函数得名因其形状像S字母,一种常见的S函数是logistic函数。
原文:
訓練誤差と汎化誤差
パラメータ :ネットワークの構造を表す変数
損失関数 :パラメータがデータをどれだけ説明しているか
汎化誤差:損失の期待値 本当に最小化したいもの.
訓練誤差:有限個のデータで代用 代わりに最小化するもの.
※クラスタリング等,教師なし学習も尤度を使ってこのように書ける.
この二つには大きなギャップがある. [過学習]
翻译:
训练误差和泛化误差
参数:表示网络结构的变量
1.损失函数:(通过样本)估计参数在(总体)数据中的情况
泛化误差:损失的期望值 真正想要最小化的误差
训练误差:代入有限的数据 实际被最小化的误差
※在聚类等无监督学习中也写为2.似然性
这两种误差有根本的区别(过拟合)
1.损失函数(loss function):也称代价函数(cost function)。
在数理统计学中, 损失函数在机器学习中用于模型的参数估计,是统计推断的一种,根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。
损失函数是根据数据集生成的经验风险损失和根据算法本身产生的结构风险损失组成的,L2范数实际上是结构风险。
2.似然性(likelihood):
在数理统计学中,“似然性”和“概率”(或然性)又有明确的区分:概率,用于在已知一些参数的情况下,预测接下来在观测上所得到的结果;似然性,则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。(和损失函数的定义一致)
原文:
基本的な考え方
θをパラメータとする確率モデルを考え,各θで観測データが観測される確率密度(「尤度」)を用いる.
尤度 :確率モデル
尤度が高ければ,観測データが観測される確率が高い→「尤もらしい」
負の対数尤度 →最小化で観測データを良く表現するパラメータが得られる. 「最尤推定」
(ベイズ推定も重要だがここでは割愛)
翻译:
基本观点
在以θ为参数的概率模型中,利用各参数观测数据被观测的概率密度(似然性)。
似然性 概率模型
似然性越高,观测数据被观测到的概率就越高→相似也接近
负对数似然→通过最小化,能得到所观测数据的最佳参数。
“最大似然估计”
(贝叶斯估计也重要但这里就不说了)
原文:
KL-divergence
真の分布
モデルの分布
サンプル平均で代用
対数尤度最大化はKL-divergence最小化の近似ともみなせる
※AICはKL-divergenceが一番小さくなる予測分布を与えるモデルを選択する規準. 選択されるモデルはサンプルサイズによって変わりうる (bias-variance tradeoff)
翻译:
1.KL散度
真实分布
模拟分布
平均代入样本
最大似然估计和最小交叉熵有异曲同工之处
※AIC是KL散度选择预测分布最小模型的标准。所选模型可以根据样本大小而变化(bias-variance tradeoff)
1.KL散度(Kullback-Leibler divergence): 也称相对熵(relative entropy)。
在信息论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。
信息熵,交叉熵,相对熵(KL散度)的关系
原文:
回帰
線形回帰
モデル:
正規分布
平均𝑥𝑖 ⊤ 𝜃, 分散1
→ 二乗損失 (最小二乗法)
線形モデルを深層NNモデルにすれば深層NNを用いた最小二乗回帰になる.
翻译:
回归
线性回归
模型:
正态分布
均值𝑥𝑖 ⊤ 𝜃,方差1
→二乘法损失函数(最小二乘法)
线性模型用深度神经网络的话,深度神经网络用最小二乘法进行回归。
原文:
判別
多値判別 (K値判別) (予測器)
:実数値の出力を確率に変換 「soft-max関数」
:多項分布の尤度関数 「cross-entropy損失」
[通常,クラス𝑘がラベルなら𝑦 𝑘 = 1かつ𝑦 𝑗 = 0 (𝑗 ≠ 𝑘)とする.]
:ロジスティック損失
soft-max + cross-entropy = logistic loss
二値の場合 ( k=2)
翻译:
分类
多分类器(k值分类)
将实际输出的数值转换成概率 “softmax函数”
多项分布的似然函数 “交叉熵损失”
通常,类别𝑘作为标签𝑦𝑘 = 1且𝑦𝑗 = 0(𝑗 ≠ 𝑘)
logistic损失
soft-max函数 + 交叉熵 = logistic损失
二分类的情况(k=2)
原文:
損失関数最小化
経験損失(訓練誤差)
二乗損失(回帰)
Cross-entropy損失(多値判別)
基本的には確率的勾配降下法 (SGD) で最適化を実行
AdaGrad, Adam, Natural gradientといった方法で高速化
微分はどうやって求める? → 誤差逆伝搬法
翻译:
最小化损失函数
经验损失(训练误差)
平方损失(回归)
交叉熵损失(多分类)
一般使用随机梯度下降法进行优化
用AdaGrad, Adam,自然梯度等方法加速
如何求解微分呢→反向传播算法
原文:
誤差逆伝搬法
合成関数
合成関数の微分
翻译:
反向传播算法
复合函数
复合函数的微分
原文:
微分を逆に伝搬
連鎖律を用いて微分を伝搬
パラメータによる微分と入力による微分は違うが,情報をシェアできる.
翻译:
将微分反向传播
用连锁律传播微分
虽然按参数微分和按输入微分不同,但信息能够共享。
原文:
確率的勾配降下法 (SGD)
(Stochastic Gradient Descent)
沢山データがあるときに強力
大きな問題を分割して個別に処理
普通の勾配降下法:
全データの計算
翻译:
随机梯度下降法(SGD)
(Stochastic Gradient Descent)
当数据量很大有时很有用
将大问题分为一个个地处理
普通梯度下降法
计算所有的数据
原文:
確率的勾配降下法 (SGD)
(Stochastic Gradient Descent)
沢山データがあるときに強力
大きな問題を分割して個別に処理
普通の勾配降下法:
確率的勾配降下法:
毎回の更新でデータを一つ(または少量)しか見ない
翻译:
随机梯度下降法(SGD)
(Stochastic Gradient Descent)
当数据量很大有时很有用
将大问题分为一个个地处理
普通梯度下降法:
随机梯度下降法:
每次更新数据只能看到一个(或几个)