从业务角度,自动摘要技术可以用于以下三个场景:
1.理解用户的偏好:拼接商户简介及用户评论作为原文,做出短摘要。摘要中包含当前用户常用的关键词,目的是拉近与用户的距离,使用户有似曾相识的感觉,正合心意的感觉。即通过摘要做到“理解商户,理解用户”。例如用户A在评论中更多的提及“服务很好,热情,环境很舒适”,那么用户A更注重用餐环境及服务,在摘要中,就偏重环境,服务等方面的介绍。用户B在评论中更偏重对口感,味道的关注,如“香甜可口,很新鲜”等,那么再摘要中更侧重对菜品口味的介绍和推荐。
2.理解用户的需求:根据用户历史浏览的商户,推测用户的偏好,比如用户C浏览过“韩式婚纱”,当用户C继续浏览婚宴相关的商户时,摘要可以侧重“韩式,浪漫”,与用户的历史行为相呼应。
3.更好的理解商户:将统计数据体现在摘要中,如“全网最低价”,“最新流行款式”,这些特点可以从数据的统计特征中得出,更好的体现商品的特点。即阿里提出的data-to-sequence。
从技术层面讲,自动摘要生成一般有两种方式:抽取式(Extraction)和摘要式(Abstraction)。
抽取式以抽取原文已有句子,通过删除,替换等编辑方式,将语料缩短(Condense)为短句。其优点是:语义及语法的正确性可以保证,可以基本还原原语料。缺点是严重依赖原文,无法满足个性化推荐的需要,存在细节重复,表达呆板,逻辑不连贯的问题。以TextRank为例,在迭代算法开始之前,需要对原句进行过滤(如情感分析)来构造图中的点集。关键语句提取之后要调整句子顺序,代词与实体词的替换等。参考论文:TextRank: Bringing Order into Texts。
使用TextRank做自动摘要的结果及评价如下表所示:
生成式(Abstraction)即sequence-2-sequence model,可以利用原语料外的词汇描述原文,更灵活,新颖和个性化。摘要式的技术基础为LSTM,Attention Model, beam-search等。以下整理了各主要技术的前沿论文。附件PDF为读书笔记,内容包括编/解码器的神经网络结构,Attention model的物理含义解释,OOV,解码器预测输出等。
Attention Model,计算输入序列对应的隐层状态与输出序列的相关性分布:A Neural Attention Model for Abstractive Sentence Summarization
机器翻译,自动摘要基本结构:RNN encoder-decoder:neural machine translation by jointly learning to align and translate
LSTM:Sequence to Sequence Learning with Neural Networks。
OOV处理:Abstractive Text Summarisation using Sequence-to-sequence RNNs and Beyond
Reference:
https://guillaumegenthial.github.io/sequence-to-sequence.html
https://www.tensorflow.org/tutorials/seq2seq
www.hankcs.com/nlp/textrank-algorithm-java-implementation-of-automatic-abstract.html