阿里云 AI 搜索方案解读:大模型驱动下的智能搜索,助力企业数字化转型

在过去的一年里面,随着大模型的技术突飞猛进,大模型的能力日益增强。这些都驱动着我们的搜索技术快速的演进到了下一代,也就是 AI 搜索的技术。大模型的快速发展不仅重塑了搜索技术的基础,也为各行各业的数字化转型提供了强有力的支持。

一、AI 搜索技术的特点

AI 搜索技术具有以下几个显著的特点:

  1. 重构:一个是 AI 搜索技术方面的重构。AI 搜索技术目前正在基于大模型进行全面重构,通过大模型,搜索的全链路能力得到了重组,包括文本解析、切片和向量化等能力的重新定义。另一个是信息获取的方式与产品的形态的重构。传统搜索依赖关键词匹配,而现在更多采用自然语言的问答式交互,这带来了新的业务场景,如虚拟数字人、企业知识库问答和电商平台的智能客服。
  2. AI 基建:AI 搜索技术已成为 AI native 应用的重要组成部分,包括搜索向量检索、语义搜索和检索生成技术,构成了众多 AI 应用的基础设施。这不仅提高了数据处理的效率,还提升了用户与系统的交互体验,帮助企业实现更高效的信息管理和服务。
  3. 效果提升:目前,效果的关注度在学术界和工业界都达到了空前的高度。大模型的加持使得搜索效果相比传统搜索有了质的飞跃。用户能够更快速地获得相关信息,提升了决策的效率和准确性,尤其在复杂查询和深度信息检索场景中表现突出。

然而,大模型的引入也带来了一些困扰,尤其是幻觉率的问题。在一些对回答准确率要求极高的场景中,确保大模型回答的准确性变得困难,这对企业和开发者在 AI 搜索服务的落地造成了制约。

二、阿里云 AI 搜索的努力与演进

随着 AI 时代的演进,阿里云在云上也做出了相应的努力。阿里云的搜索产品历史上分为两个引擎:一个是与 Elastic 合作的开源引擎 Elasticsearch ,另一个是基于多年经验自研的搜索引擎 Havenask。[

2.1 开源生态的演进:

2017年: 阿里云是和与 Elastic 进行了战略的合作,并且进行了联合产品的发布。也就是我们目前所使用到的阿里云上的 Elasticsearch。

2019年: 我们持续的针对这款云上全托管的 ES 产品,不断提升运维管理能力,增强智能弹性扩缩和监控报警服务,确保客户在使用过程中能够获得稳定和高效的服务,降低开发的成本。除此之外阿里云还基于了ES的内核去自研了一些新的特性。比如:支持索引构建 Indexing service,实现写入的加速。可通过自研存储引擎 Openstore,帮助客户在海量的数据的情况之下,降低我们的存储成本。

2022年: Serverless 服务发布,帮助中小型客户和大客户在数据量大的情况下降低50%的成本,优化资源配置。

2023年: 阿里云的产品全面进入AI搜索领域,8.X 版本开始,向量检索能力一直在持续增强。能力特性也在持续提升。

2.2 自研方案演进:

2008年: 阿里云开始自研一个内部的开源引擎 Havenask,也是历史以来我们支持淘宝、天猫,包括内部双十一很多这种比较高并发,比较极限场景的一款检索引擎。

2014年: 阿里云陆续在云上去探索它的商业化。以场景为核心去帮助课件搭建,帮助客户搭建场景化的智能搜索,提供一些行业的模板以及个性化的方案。以及在电商、内容教育、游戏等行业做一些个性化的方案和效果提升。

2023年: 进入大模型时代之后,Havenask 也是在国内首发了一站式的智能问答的 RAG 产品,以及多模态的 RAG 产品。直到今天,阿里云也一直基于内部的深度的累积持续的去优化 RAG 和 AI搜索的能力。

2.3 搜索产品的核心关注点:

从过去到现在,甚至是未来,搜索产品的核心关注点主要还是围绕着三个方面去做优化:

  • 成本:

这可能也是很多客户非常切身关注的一个问题。因为在大模型时代,我们很多的这个资源主要是基于GPU去完成的那GPU本身又比较昂贵,所以如何帮助客户降本,是后续整个产品演进的一个重要的一个方向。

  • 性能:

这个主要有两点,一个是海量的这种AI数据写入和处理的速度。一个就是在线查询的响应速度。这两个速度都要实现性能体验好的这样的一个要求,也是阿里云产品之后要去帮助大家解决的一个问题。

  • 效果:

阿里云和很多客户做过线上或者是线下的交流。客户有些场景下,既要 AI 的这个交互式的能力,又要保证这个结果的百分之百准确,不能引入任何大模型的幻觉,不能让大模型做任何的胡编乱造。我们是引入搜索链路,在保证准确性的情况之下,我们能够应用到这个 AI 的能力进行一个完整的交互。至于具体的效果优化如下:


三、阿里云AI 搜索产品介绍

阿里云AI搜索开放平台提供了五款场景化产品,包括 LLM智能问答版、日志检索 Serverless版、行业算法版、向量检索版、图检索版。底层是基于非常多的开源的检索引擎,引擎包括企业版的Elastcsearch、阿里自研引擎 Havenask 以及 Milvus等,方便支持与对接。通过这些产品,用户能够实现端到端的搜索解决方案,快速获取所需信息。

目前阿里云AI搜索为客户提供的所有关于 AI搜索能如下图所示:


3.1 阿里云AI搜索开放平台 产品概述

AI搜索开放平台作为阿里云搜索团队的一个旗舰产品,是20多年经验的一个沉淀出来的果实,里面几乎囊括了目前阿里云AI搜索领域能够用到的所有环节的所有服务,旨在为用户提供强大的搜索能力。

对于熟悉开发的客户,使用平台 API 调用的方式可以实现更高的灵活性和快速性。而对于希望快速交付服务的客户,阿里云提供了基于反馈的场景化产品。这些产品针对不同的业务场景分类开发,每个场景都有对应的产品版本,用户只需将数据写入系统,即可直接获取相关结果,几乎无需编写代码。

3.2 阿里云ES 8.15版本特点及应用场景介绍

阿里云ES最新推出的8.15版本,是基于最新的内核,推出的向量增强版。此版本在性能上相较于8.9版本性能提升了五倍以上,支持数据量化,能显著降低内存存储成本75%。此外,该版本原生支持向量检索,不需通过插件实现,同时支持多路融合排序算法,提高了向量搜索与传统搜索结果的融合效果。此版本还支持与AI 搜索开放平台的无缝结合。

在搜索场景(RAG)方面,阿里云的 ES 可以广泛应用于以下几个场景:

  • 智能客服:通过自然语言处理,智能客服能够快速响应客户查询,提供准确的信息。例如,客户可以询问退款政策或快递状态,系统能够即刻给出相关答案,提升客户满意度。
  • 企业内部知识库:企业可以利用AI搜索技术搭建内部知识库,帮助员工快速查找所需信息。这种方式不仅提高了工作效率,还促进了知识共享。
  • 电商导购:在电商平台,用户可以通过AI搜索获得个性化的产品推荐。系统能够根据用户的历史行为和偏好,提供精准的产品建议,提升转化率。
  • 数据服务:在金融等行业,AI搜索技术能够处理复杂的查询,用户可以询问诸如“成立以来涨幅最高的十支基金”之类的问题,系统将基于历史数据以表格的形式输出相关结果。这种能力使得用户可以更直观地对比和分析数据,支持更为精准的投资决策。

四、阿里云AI 搜索方案

4.1 基于阿里云 Elastisearch 搭建 RAG 系统的全链路方案

本方案展示了如何利用阿里云 Elasticsearch 和 AI 搜索开放平台所提供的模型服务,搭建一个全链路的RAG(Retrieval-Augmented Generation)系统。

首先,将客户数据源(如PDF、Word文档)导入系统,并通过文档解析服务识别和抽取信息,接着对文档进行切分和向量化处理,最终将这些向量数据存储到阿里云ES中进行索引构建。

离线数据写入主要是客户将文档(如word、PPT、PDF)导入到 AI 搜索开放平台中,并通过调用文档解析服务进行识别和抽取。针对长篇幅文档,系统会进行切分,如利用小标题或子标题等结构进行语义或文档结构切分。然后,将切分后的文本转化为稠密向量或稀疏向量,并存储到阿里云 ES 中构建索引,完成原始文本索引和稠密向量、稀疏数据索引的构建。

在线查询时,用户输入问题,内部服务理解并扩展客户的问题,接着引入查询理解服务判断问题意图并生成多个可能的问题变种。然后,将问题转化为向量数据,构建索引,进行多路召回,返回 Top N 的知识片段。随后,经过重排模型,以 Prompt 工程方式整合到大模型中进行聚合处理,形成对客户的最终回答。

此外,通过阿里云 ES 的8.15版本,可以利用 Influence API 创建 AI语义搜索模型,演示包括选择通用商业版、配置可视化控制、设置访问白名单、选择模型服务、获取配置信息、在 ES 中创建模型并进行调试等步骤。此过程展示了如何无缝集成阿里云AI模型服务,降低模型使用门槛,实现语义搜索等功能。

4.2 效果评估与优化

为了确保AI搜索方案的有效性,阿里云还提供了全链路的效果测评服务。平台能够帮助客户评估回答结果的相关性、幻觉率和可信度,进行立体式评估。这种评估机制不仅支持单一服务的效果测试,还支持多种服务的同步评估,提升了开发者的决策效率。

通过这些评估,企业能够及时发现问题并进行优化,确保AI搜索服务的稳定性和准确性,从而提升用户满意度。

结尾

阿里云 AI 搜索方案 8.15版本在原有基础上新增了 AI 服务中心栏目和模型管理功能,支持一键创建 AI 开放平台空间及 API ,且维持了对8.13版本所有功能的支持。8.15 内核还强调了其向量能力和 AI 搜索能力,同时也支持日志等基础应用场景,适用于有降本需求的客户。

计费方式上,灵活支持按量付费或包年包月,AI 平台按调用计费,提供前100次免费调用的优惠。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容