Embedding+抽取式摘要

1)对于某个文档进行分句

2)对于每个分句使用Word2Vec等工具进行向量化(Word Embedding),

3)将句子中的每个词或词组的Word Embedding直接累加,从而获得句子的Word Embedding表示;

4)把每个句子的WordEmbedding直接累加获得整个文档的Word Embedding。

如图1所示,这样文档和句子都以Word Embedding的低维度向量来表示,这个向量分别代表了文档和句子的语义信息。

图1.根据句子word Embedding获得文档Word Embedding

*摘要句子抽取过程,其基本思路是非常简单的:哪些句子在语义上与文档整体语义更相似,那么就选哪些句子作为摘要句。

具体实现流程如图2所示。就是直接用每个句子的语义向量和文档整体语义向量来通过Cosine距离计算两者之间的距离,分值越大,说明这个句子在语义上越和文档整体语义越匹配,那么就越有代表性。当每个句子都算出和文档整体语义的语义相似性得分后,根据得分由高到低排序,并按需要输出一定数量的句子作为文档的摘要。


图2. 摘要计算流程

参考:https://blog.csdn.net/malefactor/article/details/51264244

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容