-
arXiv preprint. 2024. Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection
Accelerate Inference
Denoise
本文提出了一种新的检索增强范式 Sparse RAG,其通过并行地编码检索到的文档,再仅自动回归高度相关的缓存来选择性地解码输出,这些缓存是通过使用特殊控制 token 提示 LLMs 来选择的。
Sparse RAG -
arXiv preprint. 2024. AdaComp: Extractive Context Compression with Adaptive Predictor for Retrieval-Augmented Large Language Models
Context Compression
本文提出了一种新的低成本上下文压缩的方法 AdaComp,该方法可以同时根据查询的复杂度和检索的质量来自适应地确定压缩率。具体地,本文首先标注 RAG 系统回答目前的查询所需的最少的文档数作为压缩率,并构造查询,检索到的文档及其压缩率的三元组。然后使用改三元组数据训练一个压缩了预测器。在推理期间,压缩器基于预测器的输出自适应地选择
文档作为上下文过滤的文档,并执行 LLMs 推理。
AdaComp -
arXiv preprint. 2024. LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
为了缓解检索增强生成中 'light' 检索器和 ‘heavy’ 生成器的不平衡,本文提出了一种新的检索增强生成框架 LongRAG,该框架由 'long' 检索器和 'long' 生成器组成。
LongRAG -
arXiv preprint. 2024. M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Multiple Partitions
本文提出了检索增强生成的一种多分区范式(称为 M-RAG),其中每个数据库分区作为检索增强生成执行的一个基本单元。基于此范式,本文提出一种创新的框架,该框架利用 LLMs 和多智能体强化学习来显式优化不同的语言生成任务。
M-RAG -
arXiv preprint. 2024. Improving Retrieval Augmented Language Model with Self-Reasoning
本文提出了一种新的自我推理框架,旨在提高检索增强语言模型的可靠性和可追溯性。该框架包括三个自我推理过程:1)(RAP),该过程提示 LLMs 判断检索文档和问题的相关性,2)
(EAP),该过程指导 LLMs 选择并引用相关的文档,然后自动地从引用的文档中选择关键句子的片段作为证据,3)
(TAP)该过程要求 LLMs 基于由前两个过程生成的所有收集的自我推理轨迹生成简明分析,并随后提供最终的推理答案。此外,本文提出一种渐进的训练方法,通过采用阶段性掩蔽策略来提供该框架的性能。
SELF-REASONING framework -
arXiv preprint. 2024. BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models
本文提出一个用于长上下文建模检索增强的新方法,称为 Landmark Embedding。该方法具有三重技术贡献。第一,本文引入了无分块架构。第二,本文提出了位置感知目标函数。第三,本文设计了一个新的多阶段学习算法。
Landmark Embedding -
arXiv preprint. 2024. In Defense of RAG in the Era of Long-Context Language Models
本文提出了顺序保留检索增强生成 (OP-RAG) 机制,该机制显著提高了 RAG 在长上下文问答应用中的性能。
Vanilla RAG vs. Order-Preserve RAG -
arXiv preprint. 2024. Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems
Rewriter
Denoise
- Query Rewriter+ (quality): 通过生成多个查询来克服单个查询的 "Information Plateaus" 现象,并通过重写问题来消除歧义,从而阐明查询的潜在意图。
- Knowledge Filter (quality): 用来解决 "Irrelevant Knowledge" 问题。
- Memory Knowledge Reservoir (efficiency): 用来解决 "Redundant Retrieval" 问题。该模块以一种无参数的方式来动态拓展 RAG 系统的数据库。
-
Retrieval Trigger (efficiency): 用来解决 "Redundant Retrieval" 问题。优化用于获取外部知识的成本。
The integration of four modules into the basic Retrieve-then-Read pipeline
-
arXiv preprint. 2024. RaFe: Ranking Feedback Improves Query Rewriting for RAG
Rewriter
RL
本文提出了一种不需要标注数据来训练查询重写模型的框架。
RaFe - arXiv preprint. 2024. EfficientRAG: Efficient Retriever for Multi-Hop Question Answering
EfficientRAG
- ICML2024. Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation
Superposition Prompting
-
ICML2024. Accelerating Iterative Retrieval-augmented Language Model Serving with Speculation
Accelerate Inference
本文提出了 RaLMSpec,该框架在保证模型输出质量的同时能够减少通用迭代检索增强生成的服务延迟。技术上,通过使用检索文档的时间/空间局部性,RaLMSpec 使用基于缓存的推测检索机制和批量验证来减少检索开销。在此基础上,本文提出三种额外的技术来减少RaLM 的服务延迟:缓存预取,异步验证和最佳推测步长调度。
RaLMSpec
RaLMSpec Pipeline
-
ICML2024. InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining
本文介绍了 Retro 48B,最大的检索预训练 LLM。该模型是在通过 用 100B tokens 在 1.2T tokens 中检索得到的 tokens 上用 43B GPT 模型继续训练得到的。相较于之前冻结预训练解码器权重的,本文解冻解码器,同时训练所有参数并得到了更好的 perplexity。在指令微调之后,
证明了其强大的 zero-shot 能力,可以整合各种下游任务的上下文,并且通过检索增强生成显著优于指令微调的 GPT。此外,本文发现可以直接从
48B 中取出编码器。由此得到的 decoder-only
43B 在下游任务中仍然能取得不错的结果。这说明了通过在指令微调之前继续检索预训练是获得更好的 decoder-only LLM 的一个很有前景的方向。
InstructRetro -
ICML2024. PinNet: Pinpoint Instructive Information for Retrieval Augmented Code-to-Text Generation
Code2Text
本文提出了。它旨在通过关注有价值的部分并消除误导性语义,从检索参考文档中找到最相关的信息。
具体地,本文介绍了一个判别器(discriminator)来预测检索描述与真实之间的相关性。判别器的最后一层参考文档的隐藏表示(hidden representation)捕获了检索描述的关键语义,可直接利用来提高代码到文本生成的准确性。为了充分使用判别器的表示,本文提出了一个新的注意力机制,称为,它使用了多头注意力机制来增强对额外知识的使用。此外,本文提出了一个新的对比学习模型,称为
,用于 code-text 检索。
在 code summarization 和 SQL-to-text 任务上说明了本文提出的模型能够显著的优异与现有的模型。
PinNet -
ICML2024. Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning
Alignment
RL
本文提出了基于强化学习的算法 Trustworthy-Alignment,理论上和实验上证明了大语言模型无需显式监督如何响应达到可信状态(仅仅依靠外部证据文档来响应,而忽略参数知识的干扰)的能力。本工作强调了大语言模型在探索自身内在能力方面的潜力并将对齐的应用场景从满足人类偏好到拓展到创建可信的智能体。
本文回答了以下三个问题:
RQ1. LLMs 具有根据上下文和参数知识做出响应的能力的假设是否正确?
RQ2. 该如何设计一种算法,通过强化学习将检索增强的大语言模型对齐到可信状态,从而增强检索增强大语言模型的可信度?
RQ3. 所提出的算法如何执行以及将检索增强的大语言模型对齐到可信状态有哪些副作用? -
arXiv preprint. 2024. MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery
MemoRAG -
arXiv preprint. 2024. Multi-Head RAG: Solving Multi-Aspect Problems with LLMs
本文提出了 Multi-Head RAG (MRAG),使用解码器块的多头注意力部分的激活作为 embeddings(通常做法是使用最后一层解码器块的激活作为 embeddings)。
decoder architecture
MRAG -
arXiv preprint. 2024. RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation
本文提出了一个新的 RAG 框架,称为 RichRAG。
RichRAG