BAYESIAN LEARNING FOR NEURAL NETWORKS by Radford M. Neal

本文作者 Radford M. Neal 的 PhD Thesis. *(His writing style is like a physicist.)

Reading progress: 46/195


Main Contribution:


1ST PART

In chapter 2.1, Neal argues that under the condition of

1. Bayesian setting where we have prior, posterior

2. Two layer NN

3. Gaussian initialization of weights & bias (can be generalized)

4. Scale the variance inversely proportional to the square root of number of hidden units

Then for each dimension of the output:

1. Every dimension of output is independent. For any dimension:

2. the prior over the functions represented by the NN converges to a Gaussian Process of zero mean and constant variance (variance depends on the input).

3. The joint distribution converge to multivariate Gaussian with zero mean and interesting covariance.

Generalization: As long as the distribution is [independent & identical distribution; has zero mean; finite variance].


2nd PART

1. Tanh leads to smooth function prior

2. Step function {+1,-1} activation leads to locally Brownian prior.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 中层管理人: 心智修炼 观念决定心态,心态决定行为,行为决定习惯,行为决定未来, 人格=性格+哲学 1.心态决定命...
    马拉松跑者夏雨阅读 301评论 0 0
  • 捎来暖意的东风, 在海面停留着 指向那只要漂泊的船, 打算带它启程。 船谢过了它, 桨回答东风: 东边景日出日落虽...
    山屈生阅读 609评论 0 0
  • 今天的主题是季节,你最喜欢什么季节,在这样的天气里你最想做什么事情。 我画了四季,每个季节都有很好玩的事情,但是,...
    wendyy阅读 201评论 0 0
  • 2016年了,我还有好多故事没说完你就笑着离开了,我们还有好多故事没发生你就留我一个人的眼泪。人潮再拥挤欢乐再多,...
    南方的格子阅读 857评论 1 2
  • 蒲草阻落红,风静瀫纹平。 影倒流不动,隐约炸雷声。
    陽春阅读 197评论 0 2