同义词挖掘

方法

1、实体Embedding挖掘同义词
利用领域实体的近似Embedding做同义词召回(通常用Skip-Gram方式训练word2vec模型)。
2、竞品数据+翻译模型挖掘同义词
通过领域搜索query,抓取竞品搜索结果title,构建query-title平行语料,进而通过fast-align无监督翻译对齐方法挖掘同义词。
3、通过百度搜索飘红标签挖掘同义词
百度搜索结果中会做匹配关键词及其同义词的高亮飘红逻辑,飘红的关键词在网页源码中会以<em>xx</em>的标签标识,可以快速挖掘同义词,且质量较高。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容