item2vec trick:
http://cbutech.net/index.php/archives/260
将每个商品后面跟一个叶子类目,一同学习embedding,如图所示。这样的好处是可以让同类目的商品聚到一起,因为同类目的商品都会和同一个类目共同出现。实验也证明这种方式的效果更好,收敛速度更快。另外,我们也尝试过加入店铺等信息,但最终实验结果还是只加类目效果最好,原因一方面是因为类目特征确实是最有效的,另一方面可能是随着加入的属性信息变多,训练中商品参与训练的机会越来越少,使得训练的不够充分。
spark word2vec
在word2vec的findSynonyms方法中,它不计算余弦相似度v1·vi / | v1 | | vi |,而是计算v1·vi / | vi |,其中v1是查询词的向量,vi是候选词的向量.
这就是为什么这个值有时超过1的原因.
只是为了找到更接近的单词,没有必要除以| v1 |因为它是不变的.