Embedding+抽取式摘要

1）对于某个文档进行分句

2）对于每个分句使用Word2Vec等工具进行向量化（Word Embedding），

3）将句子中的每个词或词组的Word Embedding直接累加，从而获得句子的Word Embedding表示；

4）把每个句子的WordEmbedding直接累加获得整个文档的Word Embedding。

如图1所示，这样文档和句子都以Word Embedding的低维度向量来表示，这个向量分别代表了文档和句子的语义信息。

图1.根据句子word Embedding获得文档Word Embedding

*摘要句子抽取过程，其基本思路是非常简单的：哪些句子在语义上与文档整体语义更相似，那么就选哪些句子作为摘要句。

具体实现流程如图2所示。就是直接用每个句子的语义向量和文档整体语义向量来通过Cosine距离计算两者之间的距离，分值越大，说明这个句子在语义上越和文档整体语义越匹配，那么就越有代表性。当每个句子都算出和文档整体语义的语义相似性得分后，根据得分由高到低排序，并按需要输出一定数量的句子作为文档的摘要。

图2. 摘要计算流程

参考：https://blog.csdn.net/malefactor/article/details/51264244

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。