AIGC系统是从AIRC系统演化而来,我们在这篇文章中讨论一下AIRC系统的一些设计范式,这对我们后面学习AIGC会非常有帮助。
什么是AIRC系统?
AIRC是内容推荐系统,例如搜索引擎、推荐系统等等,这些系统已经渗透到我们生活的各个角落。
AIRC系统可以分为三大部分:
- 策略建模
- 数据工程
- 模型工程
对于具体业务来说,从业务目标到AIRC系统,需要经历两次演化:
- 产品经理和算法专家将业务目标形式化,变成数学问题。
- 算法专家和架构师把数学问题转换成工程问题。
指标建模
我们要针对业务建立它追求的终极目标,虽然目标可能会调整,但它是最稳定、明确的目标,可以很好的指导我们后续的行动。
我们以电商为例,电商的本质就是对商品进行排序,优先展示排序靠前的内容。我们需要关注两个问题:
- 如何得到排序的概率值
- 如何对海量商品进行在线实时排序
我们可以将用户对每个商品的期望收益进行排序,将排名靠前的商品,展示给用户。
召回和排序
AIRC系统往往会包含召回和排序两个模块。
召回模块
这个模块的核心就是用时间复杂度低的算法排除大量的“错误答案”,减少排序算法的压力。
常见的召回策略包括关键词召回、用户画像召回等,使用这些召回策略需要对业务有深入洞察,针对业务平台的属性来设计特定的策略。
当然,我们在召回策略中,可能会导致最优结果流失。
排序模块
排序模块负责对召回结果进行精确的打分排序。这里会将使用用户、场景和商品的全境特征进行模型建模,尽可能会提高打分的准确度。
风控模块
工业级系统最大的特点是要考虑线上风险。
风控模块一般包含内容安全系统和反作弊系统。
- 内容安全系统会对各种模态物料做安全审核,确保平台投放的内容符合平台形象和法律法规要求。
- 反作弊系统在技术上可以分成实时和离线反作弊这两个部分,实时反作弊一般会通过流量的行为模式还有动作频次来识别攻击者,这部分工作Key防御80%以上的攻击者。