原文
Visualizing 100,000 Amazon Products
扩展阅读
[1]Sentence Embeddings. Fast, please!
[2]一个简单但很难超越的Sentence Embedding基线方法
小结
该文主要是通过对亚马逊的商品评论进行句向量的embeddding表达,同时通过快速的降维算法FIt-SNE将embedding映射到2维,然后用tableau进行可视化展现,效果非常不错,可以用于对embedding的分析。
- 针对句向量的计算,作者基于gensim写了一个快速实现SIF算法的库fse,可以用pip进行安装,这个库可以进行迁移学习,可以重新训练也可以先加载现有的embedding来进行再训练。
- 同时,实现了python版本高效的SIF算法,该算法扩展阅读2有介绍,是一个在句子相似度任务上超过平均水平,甚至超过部分复杂的模型的无监督句向量方法。在句子分类上效果也很明显,甚至是最好成绩。
- python实现SIF加速的具体方法在扩展阅读1里面有提到,主要用到的是cPython和BLAS(Basic Linear Algebra Subprograms)进行改写,加速38倍之多。