模型的目的是找到一种有效的可以预测句子或文档周围单词的词汇表征,公式化说明就是,给定一个训练序列w1,w2,w3,...,wT,模型的目的在于最大化平均对数概率:
其中c是训练上下文的大小(可以是中心词wt的函数)。c越大,训练例子就越多,准确率也就越高,但代价是训练时间的增加。基本的Skip-gram Model使用softmax函数:
vw和vw'分别表示词汇表征的输入和输出,W是词典里单词的数量。训练时间很大程度上取决于W的值,而W在训练过程中通常很大。
模型的目的是找到一种有效的可以预测句子或文档周围单词的词汇表征,公式化说明就是,给定一个训练序列w1,w2,w3,...,wT,模型的目的在于最大化平均对数概率:
其中c是训练上下文的大小(可以是中心词wt的函数)。c越大,训练例子就越多,准确率也就越高,但代价是训练时间的增加。基本的Skip-gram Model使用softmax函数:
vw和vw'分别表示词汇表征的输入和输出,W是词典里单词的数量。训练时间很大程度上取决于W的值,而W在训练过程中通常很大。