大语言模型之应用

继《大语言模型之技术》之后,本次主要是针对大语言模型的评测及应用,包括研究层的应用、行业层的应用。

一、评测

随着大模型技术研究的快速发展,不同模型展示不同的能力,如何准确地评估大语言模型在不同维度的能力水平,值得深入研究。

常见评测指标分类表如下:

常见评测指标分类表

其中,关于分类任务的评测指标,二分类的混淆矩阵如下:

二分类矩阵

精确率,表示模型预测为正例的样本中真正为正例的比例:Precision=TP/(TP+FP)

召回率,表示所有真正为正例的样本中被模型正确预测出来的比例:Recall=TP/(TP+FN)

F1分数,是精确率和召回率的调和平均数,用于衡量模型在分类任务上的综合性能:F1=2*(Precision*Recall)/(Precision+Recall)。

二、大语言模型在研究领域的应用

1.传统自然语言处理任务中的大语言模型

大语言模型在三大类经典自然语言处理任务上的应用,主要包括序列标注、关系抽取以及文本生成任务,构成了许多现有自然语言处理系统和应用的基础。

(1)序列标注

序列标注任务,如命名实体识别(NER)和词性标注(POS),是一种基础的自然语言处理任务。通常来说,这类任务要求为输入文本序列中第一个词项分配适当的语义类别标签,例如NER任务中经典的B-I-O标记方案(Beginning,Inside和Outside)。在深度学习时代,一种主流的技术方法是通过神经网络模型对于序列单元进行编码,然后再将编码后的序列作为特征输入到经典的条件随机场模型(CRF)中,进而CRF能够基于编码后的序列特征进行序列标签的结构化预测。

大语言模型则通过上下文学习或基于特殊提示的方式解决序列标注任务,而无须使用B-I-O标记。例如,仅需要给予大模型相关的提示(如“请识别出句子中包含的实体”)或任务示例(如“输入文本‘中华人民共和国今天成立了’,请抽取出其所包含的命名实体:‘中华人民共和国’”)即可自动抽取出实体。

(2)关系抽取

关系抽取任务关注于从非结构化文本数据中自动提取出蕴含的语义关系。例如,当输入为“莱昂内尔·梅西出生在阿根廷”,其包含的语义关系三元组为“莱昂内尔·梅西-出生地-阿根廷”。通常来说,这类任务会被转化为文本分类或序列标注任务,并可以采用对应的技术方法进行解决。由于大模型具有出色的推理能力,它能够借助特定提示方法(如上下文学习等)来完成关系抽取任务,并在涉及复杂推理场景的任务中相较于小模型更具优势。

为提高对各种场景的适应能力,可以使用大语言模型和小模型相互配合的方法。例如,利用小模型进行候选关系的初筛,再利用大模型进一步从初筛后的候选关系中推理出最合适的关系;也可以采用大语言模型对于数据进行初步标注,从而丰富可用于训练的小模型的标注数据。这种基于两种模型结合的工作范式在信息抽取场景下具有较好的应用场景。

(3)文本生成

文本生成,如机器翻译和自动摘要,是在现实应用中常用的自然语言处理任务。目前基于微调的小型语言模型已经被广泛部署于许多产品和系统中。由前述内容所述,大语言模型具备强大的文本生成能力,通过适当的提示方法,在很多生成任务中能够展现出接近人类的表现。在翻译过程中,大模型能够与用户形成交互,进一步提高生成质量。

文本生成

2.信息检索中的大语言模型

大语言模型对于传统信息检索技术与应用范式带来了重要影响。大语言模型拥有强大的语言理解、推理与生成能力,能够助力构建更为智能的信息检索系统;而信息检索技术能够高效地从外界获取所需要的相关信息,可以为大语言模型提供更为精确、可靠的上下文信息。

信息检索的大语言模型

利用大语言模型进行信息检索:现代信息检索系统通常采用“检索-重排序”的流水线框架。在这个框架内,检索模型首先从大规模语料库中检索相关的候选信息,然后由重排序模型对候选信息进行精细排序,以优化检索结果。

大语言模型增强的信息检索模型:由于大语言模型具有出色的语义理解与生成能力,其可以为信息检索模型补充相关性信息。主要分为两类方法。第一类方法通过构造特殊的提示,使得大语言模型能够充当人类标注者的角色,以较低成本完成大规模训练数据的标注工作,为传统检索模型补充高质量标注数据。第二类方法同样通过设计特殊的提示,利用大语言模型对输入查询进行改写,辅助信息检索模型精准理解用户的需求。此外,还可以利用大语言模型对查询进行详细解释和扩充,并将这些内容附加到原始查询之后,帮助信息检索模型获取更全面的结果。

受限于训练数据的时效性和局限性,当涉及实时新闻或特定专业领域内知识时,大语言模型的生成结果可能不够准确。检索增强生成技术(RAG),可解决这个问题,旨在通过信息检索系统从外部知识库中获取相关信息,为大语言模型提供时效性强、领域相关的外部知识,以减少大语言模型生成内容中的错误。

3.推荐系统中的大语言模型

推荐系统的核心在于捕捉并理解用户的潜在偏好,进而为用户推送合适的信息资源。目前,主流的研究工作通常依赖于用户的交互行为日志数据(如点击商品、评论文本数据)来训练推荐模型(通常是深度学习模型)然而这些方法在实践中面临着一系列技术挑战,如缺乏通用的知识信息、难以应对冷启动和领域迁移问题等。

推荐系统中的大语言模型

大语言模型可以直接作为推荐模型来提供推荐服务。根据是否需要进行参数更新,可分为基于特定提示的方法和基于指令微调的方法。

(1)基于特定提示的方法:

通常采用提示学习与上下文学习方法,通过设计一系列自然语言提示来完成多种推荐任务。首先,可以将用户交互过的物品的文本描述(例如物品标题、描述、类别等)拼接在一起得到一个长句子作为输入文本。然后,结合任务描述构造个性化推荐指令(例如“请基于该用户的历史交互物品向其推荐下一个合适的物品”。)。此外,还可以在提示中加入一些特殊的关注部分来提高推荐性能,可以强调最近的历史交互物品(例如“注意,该用户最近观看的电影是《肖申克的救赎》。”)和应用上下文学习。然而,由于推荐系统中特定领域的用户-物品协同关系较为复杂且难以通过文本数据充分建模,简单的自然语言提示难以使得大语言模型在性能上与经过充分训练的传统推荐模型竞争。

(2)基于指令微调的方法:

通过微调大语言模型将其适配到推荐系统,核心在于构建适合推荐任务的指令数据。相关指令可以基于用户与物品的交互数据以及定制化的提示模板来构造,从而为模型提供明确的任务指导。

4.多模态大语言模型

多模态大语言模型(Multimodal Large Language Model,MLLM)主要是指那些能够处理和整合多种模态信息(比如文本、图像和音频)的大语言模型。以视觉-语言大语言模型为例。多模态大语言模型主要由一个用于图像编码的视觉编码器和一个用于文本生成的大语言模型所组成,进一步这两个模型通过连接模块进行组合,从而将视觉的表示对齐到文本语义空间中。在文本生成的过程中,图像首先被分割成图像块(Patch),然后通过图像编码器和连接模块转换成图像块嵌入,以得到大语言模型可以理解的视觉表示。随后,图像块嵌入和文本嵌入进行拼接并输入到大语言模型中,使得大语言模型可以自回归地生成文本回复。

多模态大语言模型

5.知识图谱增强的大语言模型

尽管大语言模型具有出色的自然语言生成能力,但在知识密集型任务中常常面临一些挑战,例如可能生成幻象或事实错误内容。因此,在一些特定场景中,需要向大语言模型补充外部的知识信息。知识图谱(Knowledge Graph,KG)存储了大量的结构化知识信息,常用于知识密集型的任务场景,也广泛被用于补充大语言知识信息。

知识图谱增强的大语言模型

如上图,展示了整体流程,基于检索的方法首先从知识图谱中检索知识,然后注入大语言模型;基于交互的方法支持大语言模型多次查询知识图谱从而动态地获取外部知识。

(1)基于子图检索的方法

基于检索增强的方法通常首先从知识图谱中检索一个相对较小的子图(知识检索),然后将该子图序列化并作为提示的一部分,输入给大语言模型以丰富其相关背景知识(知识利用)。对于知识检索,可以使用启发式方法过滤掉知识图谱上不重要的节点。这类方法通常使用PageRank等图节点排序算法来计算知识图谱上每个节点的重要性,并按照预先设定的阈值筛选出重要的节点以构成规模相对较小的子图。然而,这种方法仅利用了知识图谱的结构特征,没有考虑节点与输入文本在语义信息上的相关性。

(2)基于查询交互的方法

基于查询交互的方法主要通过大语言模型与知识图谱之间的多轮交互过程动态地获取当前步骤需要的信息,以增强大语言模型利用知识图谱信息的能力,从而更好地解决复杂任务(如多跳问题回答)。具体来说,大语言模型需要首先规划复杂任务的解决方案,将原始复杂任务分解为多个相对简单的子问题。为了支持大语言模型精确地查询知识图谱中的信息,可以基于结构化的程序语言,设计面向知识图谱的专用接口函数,使得大语言模型可以被看作是一个自主信息获取的智能体,知识图谱可以被视为外部环境,其中每一步抽取得到的结构化数据可以看作是环境反馈。在这种设定下,大语言模型可以自主规划如何与知识图谱环境进行交互,最终实现问题的求解。

三、大语言模型在专业领域的应用

除了在研究领域中带来了重要影响,大语言模型目前也广泛地应用到了各种专业领域,进而推动相关技术的改进与升级,包括医疗、教育、法律、金融和科学研究五个领域。

各专业领域的大语言模型及数据集

1.医疗场景下的大语言模型

医疗是与人类生活密切相关的重要领域之一,由于具有较强的通用任务解决能力,大语言模型被广泛用于辅助医生处理各种相关医疗任务,如医疗诊断、临床报告生成、医学语言翻译、心理健康分析等。

医疗大语言模型主要以通用大语言模型为基础,通过继续预训练技术或指令微调方法,让其充分适配医疗领域,从而更好地完成下游的医疗任务。利用医学领域丰富的数据资源(如医学教材、诊断报告等)学习医学领域的专业知识与相关技术。为解决复杂且多样的医疗任务,还需进一步构建特定的指令集合对模型进行指令微调,可通过收集医患对话数据或医学问答数据集,在此基础上设计指令模板,来构造面向不同医疗任务的指令数据。为了增强模型问答的准确性和可信程序,还可以将医疗大语言模型和医学数据库进行结合,利用检索增强等方法来提升模型在处理复杂医疗任务时的能力。

2.教育场景下的大语言模型

教育是人类社会进步的基石,对个人和社会发展都至关重要。在教育系统中大模型已经被用于多种教育相关任务,有助于增强教育场景的智能化、自动化和个性化。

通常来说,教育应用系统面临着多种的用户需求(如作文批改、启发式教学、试题讲解等),而且要支持与用户进行便捷的交互。为此,教育大语言模型需要基于海量的教育相关文本和专业数据对大模型进行训练,并结合大规模的对话数据进行指令微调,从而适配教育应用场景下的多种需求。考虑到教育领域不同学科往往具有显著的知识差异,还可以针对各学科设计专用的教育大模型。如,构建专门面向数学学科的垂域大模型,强化教学学科特有的定理公式等专业知识,并能提供具有启发性的结题过程,以适应数学辅导的实际应用需求。在此基础上,也可以将各学科的垂类模型集成为一个综合教育系统,从而为多学科提供全方位的教学支持和服务。此外,也可以通过集成网络检索和本地知识库等功能,在实际应用时提升在特定场景下教育大模型的效果。

3.法律场景下的大语言模型

在法律领域,相关从业人员需要参与合同咨询、审查、案件判决等日常重复性任务。这些任务需要耗费大量的人力成本,需面向法律领域的人工智能技术辅助完成这些工作,从而减轻从业人员的工作负担。大语言模型具有优秀的模型能力,经过领域适配以后,能够助力完成多种法律任务,如合同信息抽取、法律文书撰写和案件判决生成,具有较好的应用场景。

为了构建法律大模型,可采集大量的法律相关的文本数据,进而针对通用大模型进行预训练或指令微调。数据来源包括法条、司法解释、法考题、判决文书、法律相关论坛和新闻。

由于法律领域具有高度的专业性、且不同国家法律存在差异,在训练法律大模型时需考虑其适用范围。如在中文法律场景下,需在构造训练数据时去除不符合中国法律的相关训练数据,并且针对常见的法律案例、咨询需求等构造指令数据集,从而更准确地理解中国用户的法律需求。

4.金融场景下的大语言模型

随着金融科技的快速发展,金融领域对于自动化的数据处理和分析技术日益增长。大语言模型技术开始逐步应用于金融领域的多种相关任务(如投资倾向预测、投资组合设计、欺诈行为识别等),展现出了较大的应用潜力。

为训练金融大语言模型,需收集大量的金融领域文本数据,通常还可以再添加通用文本数据以补充广泛的语义信息。可供使用的金融领域数据主要包括公开的公司文件、金融新闻、财务分析报告等。

5.科学研究场景下的大语言模型

科学研究是研究人员探索科学问题的学术活动,对于人类社会的发展与进步有重要意义。在科研过程中,研究人员往往需要面对复杂的科学问题,处理与分析大量的实验数据,并需要及时学习最新的科学进展。在这一过程中,可使用大模型技术来辅助人类的科研探索工作,进而推动科学研究的快速进展。

大模型可解决的复杂科研任务,包括辅助论文撰写、物理问题求解、化学反应预测任务等,对于特定的科学领域(如数学、化学、生物等),可通过收集领域特定的数据集合,针对性训练可得。

在研发科学领域的大语言模型时,需选择合适的基座模型和高质量的训练数据。如,对于数学等理工学科,可采用基于代码的大语言模型作为基座模型,并需要收集大量包含形式化的文本(如包含有公式、定理证明等)作为预训练数据。此外,在设计面向科学研究场景的指令数据时,需尽量覆盖相关任务场景下的基础任务(如科学概念理解和问答)与特殊的应用需求(如数值计算和定理证明),还可以针对性适配特殊的数据形式(如化学表达式),从而更为精准地解决领域内的应用需求。


【一个小目标】90/365,关注行业关注趋势,多看多想多反思,做一个讲故事的人,讲一个好故事。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容