使用神经元实现逻辑操作

f(wx+b)=a

and

f(wx+b) = hardlim([1, 1][x_1, x_2]^\rm{T}-2)
其中hardlim为激活函数,hardlim(n)=a, if n\geq0, a=1, else a=0

or

f(wx+b) = hardlim([1,1][x_1, x_2]^\rm{T}-1)
其中hardlim(n)=a, if n\geq0, a=1, else a=0

xor

f(wx+b) = hardlim([1,1][hardlim([1,1][x_1, !x_2]^\rm{T}-2), hardlim([1,1][!x_1, x_2]^\rm{T}-2)]^\rm{T}-1)

sigmoid

f(x) = \frac{1}{1+e^{-x}}
x=0, f=0.5;x=-\infty, f=0; x=\infty, f=1.
使用sigmoid对多维特征向量进行二分类https://zhuanlan.zhihu.com/p/105722023

  • 根据多维输入变量各分量之间的运算关系整合成输出
  • 将输出映射到[0,1]范围内=》对应着事件发生的概率

softmax

硬最大化:只保留最大响应值,np.max([1,2,3,4,5]) = 5
软最大化:依然保留所有类别的响应值,相对大小关系不变
f(x)= \frac{e^{z_i}}{\sum_{c=1}^Ce^{z_c}}

  • 进行多分类
  • e^{z_i}将激活值z_i映射到\geq0,并且对值进行了拉伸,增强拉伸正的较大的值,压缩负的值.
  • 每一个类别的输出值映射到0-1
  • 约束:所有类别的输出值求和为1

指数函数(斜率不断增大)的优缺点:

  • 优点:拉伸了相近数据之间的距离,放大了微小的差别;求导还是自己,求导不困难
  • 缺点:对数据有指数级放大作用,在激活值较大的时候容易造成数据溢出(error),降低数值计算的稳定性

感性的认识:
softmax,概率,crossentropy(CE),z_i, z_j,梯度下降
https://zhuanlan.zhihu.com/p/105722023 详细分析

http://playground.tensorflow.org (but激活函数只有sigmoid,tanh,ReLU)

https://blog.csdn.net/tengfei461807914/article/details/82079940

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容