DSSM 是很有意思的一种深度学习模型,个人对这个模型确实很感兴趣,它打破了对 word 做 WordEmbedding 的概念,而是可以直接对 Query 和 Doc 做 Embedding,而解决 One Hot 维度爆炸的方法就是借助了 Word Hashing 的巧妙设计。英文场景下 tri-grams 的 word hashing 方法取得很不错的效果,冲突概率也仅有 0.0044%,还是可以接受的;在中文场景下因为没有天然分词,确实会更难一些,需要一种针对中文的巧妙的 word hashing 方法。
目前没有看到相关靠谱资料,听说有将汉语文字转化成拼音的,还有将汉语文字转化成笔画的。蚂蚁金服之前推出了一个基于汉语拼音笔画的 DSSM 尝试,成为 cw2vec 算法,如下两篇资源介绍:
https://yq.aliyun.com/articles/376139
https://bamtercelboo.github.io/2018/05/11/cw2vec/
另外还有一点值得一提的是,DSSM 在训练时尽量避免了对原始数据的处理,并且用一个滑动窗口在数据上进行遍历,这种计算方式和图像识别算法感觉颇为相似,这给我们一点启发,就是是否可以打破思维界限,将图像识别算法引入自然语言处理的可能性
下面几篇资源介绍了 DSSM 和它的一些变体,可以作为参考目录自行深度研究
https://www.cnblogs.com/baiting/p/7195998.html
https://blog.csdn.net/zkq_1986/article/details/79128844
论文已经下载 在本地电脑 D://资料/VIP 论文/DSSM
相关论文:
Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM, 2013:2333-2338.
Shen, Yelong, et al. “A latent semantic model with convolutional-pooling structure for information retrieval.” Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. ACM, 2014.
Palangi, Hamid, et al. “Semantic modelling with long-short-term memory for information retrieval.” arXiv preprint arXiv:1412.6629 (2014).
Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. “A multi-view deep learning approach for cross domain user modeling in recommendation systems.” Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015.