探索 AI 领域的前沿话题:LLM 推理、SubgraphRAG 与 FastRAG

# 探索AI领域的前沿话题:LLM推理、SubgraphRAG与FastRAG 📖阅读时长:15分钟 🕙发布时间:2025-02-04 > 近日热文:[全网最全的神经网络数学原理(代码和公式)直观解释](https://mp.weixin.qq.com/s/ITFeM-RUVs9k9Kw4njl9KQ?token=992101443&lang=zh_CN) 欢迎关注知乎和公众号的专栏内容 [LLM架构专栏](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzU5OTk5OTg4Ng==&action=getalbum&album_id=3803710040624594945#wechat_redirect) [知乎LLM专栏](https://zhuanlan.zhihu.com/column/c_1860259327224446976) [知乎【**柏企**】](https://www.zhihu.com/people/cbq-91) 公众号【**柏企科技说**】【**柏企阅文**】 今天,我们将探讨AI中的三个引人入胜的话题,它们是: - LLM推理:概述 - 子图RAG(SubgraphRAG):用于高效子图检索和推理的侦探助手 - FastRAG:导航半结构化数据的个性化指南 ## LLM推理:概述 高效推理一直是LLM领域的热门研究方向。我最近阅读了一份调查,想分享一下该领域的概述。 LLM在推理过程中需要大量的计算资源、内存访问和内存使用。这可能会影响延迟、吞吐量、功耗和存储等效率指标,尤其是在资源受限的环境中。 ![](https://upload-images.jianshu.io/upload_images/17294212-a2e0402ad62c5510.png) 我们首先回顾一下LLM的推理过程。 最常用的大型语言模型,尤其是仅解码器的语言模型,通常使用自回归方法生成句子。 为了提高效率,键值(KV)缓存技术存储并重用多头自注意力块中以前的键值对,从而显著降低生成延迟。 ![](https://upload-images.jianshu.io/upload_images/17294212-af8b8b21acb464f0.png) 在每个步骤中,模型都会处理整个令牌序列,包括输入令牌和以前生成的令牌,以预测下一个令牌。随着序列变长,生成变得越来越耗时。 为了解决这个问题,引入了键值(KV)缓存技术。这种方法在多头自我注意(MHSA)块中存储和重用键(K)和值(V)对,从而显著降低延迟。这种广泛采用的优化将LLM推理过程分为两个阶段: - **预填充阶段**:该模型计算并存储初始输入令牌的KV缓存,并生成第一个输出令牌(图2a)。 - **解码阶段**:该模型一次生成一个输出令牌,使用每个新令牌的键(K)和值(V)对更新KV缓存(图2b)。 ![](https://upload-images.jianshu.io/upload_images/17294212-312160d49f0def7b.png) 如图3所示,LLM推理优化可以分为三个级别: - **数据级优化**:专注于通过优化输入提示(例如,输入压缩)或更好地构建输出内容(例如,输出组织)来提高效率。这种方法不会改变原始模型,避免了模型训练的高成本,尽管可能需要最少的辅助模型训练。 - **模型级优化**:涉及设计更高效的模型架构(例如,结构设计)或模型压缩以提高推理效率。这种方法通常需要预先训练或微调,并且可能会略微影响模型性能。 - **系统级优化**:以推理引擎或服务系统为目标,包括硬件加速。它避免了昂贵的模型训练,并且通常对模型性能是无损的。 看完这里,我的理解变得更加清晰。例如: - RAG和Self - RAG属于Input Compression。 - Mixtral 8x7B、MQA和GQA是高效结构设计的示例。 - QLoRA属于Quantization领域的Quantization - aware Training。 - FlexGen涉及推理引擎中的训练后量化和卸载。 ## 子图RAG(SubgraphRAG):用于高效子图检索和推理的侦探助手 - **开源代码**:https://github.com/Graph-COM/SubgraphRAG ### 生动的描述 知识图谱就像一个充满无数线索的犯罪现场。作为侦探助理,SubgraphRAG根据线索快速过滤出最关键的证据(子图)。然后将这些证据交给大侦探(LLM),他用它来解开谜团,解释推理过程,并最终提供合理的答案。 ### 概述 当前基于KG的RAG框架难以有效地平衡检索和推理: - 基于LLM的方法需要多次昂贵的模型调用以进行分步图形搜索,并且由于上下文限制可能会丢失相关信息。 - LSTM或GNN等较轻的模型效率更高,但缺乏复杂的推理能力,经常缺少关键证据。 - 固定的子图检索方法提高了效率,但限制了LLM推理的证据覆盖率。 SubgraphRAG引入了一种基于轻量级多层感知器(MLP)的子图检索器,结合定向距离编码(DDE),以有效地从知识图谱中提取相关子图。通过与未调整的LLM集成以指导通过子图进行推理,SubgraphRAG实现了高效、灵活和可解释的知识增强生成。 ![](https://upload-images.jianshu.io/upload_images/17294212-d50bededb6a37e61.png) 图4演示了SubgraphRAG的三步工作流程: - **主题实体提取**:从查询中提取关键实体(例如,Elon Musk、Jeff Bezos、Bill Gates) - **子图提取**: - **结构特征构建**:DDE(定向距离编码)映射知识图谱三元组和主题实体之间的结构关系,识别与查询相关的连接。图4显示了表示“company founder”和“business partnership”等关系的方向箭头。 - **提取相关三元组**:使用轻量级多层感知器(MLP)并行评分和检索前K个三元组以形成子图(例如,Nvidia与Tesla、Amazon、Microsoft的合作伙伴关系)。用于训练MLP的弱监督信号是通过启发式规则生成的,例如“从主题实体到答案实体的最短路径”,以构建近似相关的子图,从而减少对精确标记数据的依赖。 - **使用LLM推理**:将子图和查询馈送到LLM(例如GPT - 4)以生成答案。在图1中,答案是“Nvidia and NASA”,其中包括一个推理过程。 ![](https://upload-images.jianshu.io/upload_images/17294212-fc19f09b6115a9f0.png) ### 评论 SubgraphRAG基于子图的检索机制和轻量级多层感知器(MLP)很有创意。 但是,我有以下担忧: - **子图尺度动态调整**:子图大小K适应语言模型的上下文窗口,但最佳大小的确定仍不清楚。较大的子图有冗余的风险,而较小的子图可能会错过关键证据。 - **三重评分的局限性**:轻量级MLP评分方法以复杂性换取效率,在多实体场景中可能会丢失高阶关系。该方法过度依赖于预先训练的嵌入,而不是KG结构。 ## FastRAG:导航半结构化数据的个性化指南 ### 生动的描述 想象一下探索一个拥有隐藏景点的广阔城市。传统指南(如VectorRAG或GraphRAG)可能会带您进行通用游览,涵盖所有内容,无论它是否相关。 FastRAG会根据您的兴趣创建自定义行程(模式学习),并仅突出显示您关心的景点(脚本学习)。这样,您可以在更短的时间内看到更多,而不会错过主要景点。 ### 概述 当前的RAG方法(如VectorRAG和GraphRAG)在处理网络管理中生成的复杂半结构化数据时效率低下,面临时间、成本和准确性方面的挑战。 FastRAG旨在以经济高效的方式高效处理现代网络生成的大量半结构化数据。通过引入模式学习和脚本学习来提取和组织数据,它避免了将所有数据直接输入到大型语言模型(LLMs)中,从而节省了资源。 ![](https://upload-images.jianshu.io/upload_images/17294212-c876df2e61d46fa1.png) FastRAG的主要步骤如下: - **数据块采样**:使用关键字提取和熵分析从半结构化数据中提取代表性样本,以选择捕获数据主要特征的最小集合。 - **架构学习**:从所选示例生成JSON架构以定义实体类型及其属性,然后迭代优化架构以确保完整性和准确性。 - **脚本学习**:基于样本数据和Schema,生成并优化Parsing Functions,实现数据的自动化处理。 - **KG创建**:将解析后的JSON对象转换为知识图谱。例如,实体成为类型为标签的节点,简单属性成为节点属性,嵌套属性成为由边连接的子节点。 - **信息检索**:通过使用图查询、文本搜索、组合查询或混合查询方法将用户输入转换为查询语句,从知识图谱中生成精确的答案。 FastRAG使用知识图谱来组织数据是创新的,但它提出了有关维护这些图的成本以及保持实时更新的挑战的问题,尤其是在处理实体之间的复杂关系时。 本文由[mdnice](https://mdnice.com/?platform=6)多平台发布
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,928评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,748评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,282评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,065评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,101评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,855评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,521评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,414评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,931评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,053评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,191评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,873评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,529评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,074评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,188评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,491评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,173评论 2 357

推荐阅读更多精彩内容