[MXNet/Gluon] 动手学深度学习第十六课:词向量(word2vec)

资料:https://www.bilibili.com/video/av18512944?from=search&seid=6776503808153951952
新闻:https://aws.amazon.com/cn/blogs/china/amazon-sagemaker-blazingtext-parallelizing-word2vec-on-multiple-cpus-or-gpus/

没办法通过one-hot计算词和词的相似度,余弦的相似度。cos


给定hit 去生成the man his son 这个四个词的概率,用词向量表示中心词的向量,以及背景词的表达,通过一个极大似然估计。来最大化这个似然估计。
极大似然估值



给定一个中心词w(t)
m窗口大小,m=2 也就是滑窗大小为5
T:文本序列的总长度
上诉公式得到整个文本,给定中心词,生成背景词的联合概率
我们要使得整个联合概率最大化,这个联合概率最大化就等价于最小化这个损失函数


写了log之后乘号✖️换加号➕

怎样去最小化这个损失函数呢!

wc 中心词 V
wo 背景词 U

softmax函数

梯度下降:

随机梯度下降(第5课)


最后计算模型参数的梯度函数。

上课笔记:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容