从OpenAI“宫斗大戏”看AI的安全问题,人类能不能提前“拆雷”?

前言

2024年5月17日,OpenAI的首席科学家伊利亚宣布离职,拉开了“宫斗大戏”第二季的序幕。

虽然,伊利亚离职后还能和公司高层愉快合影,但他后来又发推特说“非常期待一个对他个人来说非常有意义的项目”,这场体面离职的背后是波涛汹涌。如果说伊利亚离职暗示了跟OpenAI的价值观不合,那紧跟其后的“超级对齐”负责人简·雷克离职,连发13条推特,揭开阿尔特曼只在乎产品功能和商业化的事实,就彻底点燃了这场“宫斗大戏”。至于后续的员工离职要签“不得诋毁协议”、阿尔特曼和布洛克曼回复质疑等等,把这场宫斗大戏搅成了一锅粥。

当全球都在看OpenAI的热闹时,有些敏锐的人已经发现,AI安全问题才是这场宫斗的导火索。简·雷克称,阿尔特曼对AI安全都是嘴上说得好听,“通往AGI的道路未知又漫长,没有现成经验可借鉴,OpenAI会想尽办法平衡好搜索和安全,造福人类”,但行动上不断削减安全团队可用的算力和各种资源。

一、AI安全现状

AI安全问题不是一时半会才出现的,只不过OpenAI的这场闹剧把它摆到明面上来了。确实,AI产品性能和安全性能两者的分歧难以避免,像 OpenAI一样选择了前者、牺牲安全性的大有人在。

正在为AI技术进步而欢呼雀跃的我们,要做好心理准备——AI会带来误导或更严重的灾难。因为当一个大模型预训练完成时,它可以输出任何你想要的内容。无论是实施犯罪的具体步骤,还是制作危险武器的方法,或者其他违背人类价值观的事情,AI都能快速、通俗、准确地解答,就算它压根不知道正确答案,也能给你瞎编一套“看似可行”的方法论出来。为了遏制这种情况,我们努力过,但效果终究还是有限的。

AI安全问题的来源是大模型本身吗?是,但也不全是。AI会带来什么后果,主要取决于人类怎么使用,有人把AI当作打工的助手,也有人把AI视为打开灰色地带商机、满足不当需求的引子。当越来越多的人钻AI安全漏洞,生成违背人类价值观的内容时,很多“雷”已经在暗处滋生了。

那么,人类能够提前拆除AI安全问题埋下的大雷吗?

二、主要的AI安全保护措施

AI的安全问题涉及很多层面,例如模型、数据、系统、内容等等。在实际部署时,模型剪枝/微调、滤波操作、降低模型过拟合度等防御方法能解决部分AI安全问题,但也可能降低AI的执行效率和产出效果。

下文总结了当前主要的AI安全保护措施:

1.数据隐私保护

为了确保数据的机密性和隐私性,组织可以采用数据加密和匿名化技术。数据加密是一种将数据转换为无法识别的格式,只有通过特定的密钥才能解密的技术。通过数据加密,可以防止未经授权的访问和窃取数据。匿名化技术则是将个人信息和敏感数据进行处理,使其无法被识别出个人身份的技术。除了采用数据加密和匿名化技术外,公司还需要建立完善的AI数据管理制度。

2.强化模型鲁棒性

对抗性攻击是人工智能领域中一个备受关注的问题,它具有很大的隐蔽性和欺骗性,对AI的可靠性和安全性构成了严重威胁。为了提高AI决策和预测的准确性,多种防御技术被用来增强AI的鲁棒性。数据增强是一种常见的方法,即通过生成大量的训练数据来增加模型的泛化能力。预处理和后处理技术也可以用于降低输入数据中的噪声和干扰,提高模型的稳定性。此外,集成学习、迁移学习和鲁棒性训练等方法也被广泛用于提高AI的鲁棒性和抗干扰能力。

3.建立反馈机制

为了更好地应对未知的安全威胁,建立一个反馈机制是非常必要的。这个机制可以让用户、研究人员和开发者向AI系统提供反馈和建议,从而帮助AI系统不断改进和优化安全策略。例如,参与安全漏洞赏金计划,发现并报告安全漏洞,以获得奖励。

4.教育和培训

为了保障AI技术的安全应用,加强对AI开发、使用人员的安全意识教育和培训至关重要。由于AI技术涉及到大量的数据和算法,因此很容易成为黑客攻击的目标,相关人员需要充分认识到安全威胁的存在,并了解如何防范这些威胁。同时,要提高AI开发、使用人员的专业知识和技能,避免出现安全漏洞。

5.多方共享经验

为了应对AI安全的挑战,政府、企业、研究机构和开源社区等利益相关方可以进行合作,共同研究和开发新的AI安全技术和解决方案。通过这种合作,各方可以共享最佳实践、研究成果和经验,从而加快AI安全领域的发展和创新。

三、测评:大厂的AI安全解决方案

AI 技术是很多业务的核心驱动力,但由于AI模型结构复杂、缺乏可解释性,所以在面对复杂的现实场景时,可能产生很多未知的输出。为了巩固AI的安全性,国内外大厂相继提出了众多可行的AI安全解决方案。

本章节测评一下百度的内容审核平台https://cloud.baidu.com/solution/censoring,讨论当AI可能生成违背人类价值观的内容时,怎么提前“拆弹”?

1.使用场景

讨论AI安全,绕不开的就是“场景”,AI生成的内容会在哪些场景高频出现,又会带来哪些安全问题?使用内容审核平台,可以对低质庸俗、政治敏感的AI内容和UGC进行过滤筛选,既能保证高质量的内容,又能帮助企业避免监管处罚风险。

(1)电商平台内容审核

百度云内容审核平台,可以对电商场景下的商品图、评论、产品介绍、直播购物、广告推广内容进行审核过滤,帮助电商平台和运营商家规避风险,并提炼和沉淀出有效的用户评论等内容。

(2)短视频及直播审核

面对高并发的直播场景,平台以及内容生产方为了追求利益最大化,会利用技术手段使得黑产类型升级。政策趋严、技术更新难、内容场景复杂、情感倾向辨识难、AIGC数据量大等困难,意味着视频内容审核势在必行。

试用产品后发现,百度内容审核可以依据视频不同时长、场景、时效性等要求,对视频中的图像、文字、语音、声纹进行全维度审核

(3)社区论坛内容审核

AIGC泛滥、内容风险频发的大环境下,金融、财经、教育、社交、开发者、电商、航司、国企单位等涉及到社区内容的平台,对内容和AI安全的重视程度越来越高。

测试发现,百度云的内容审核可以对图像、文本等相关内容进行检测识别,并可基于平台场景的偏好,自定义设置黑白名单,帮助平台把控UGC内容风险,有效保障UCG内容的高质量生产,创建和谐健康的在线社区环境。

想免费试用,可点击薅羊毛!!一分钟快速领取某云平台内容审核免费测试资源!

2.产品核心

(1)审核范围

本节以百度云的官网和说明文档为参考,整理了平台支持的审核范围。

(2)审核限制

3.技术支持

百度作为国内最早研究 AI模型安全性问题的公司之一,其内容审核平台以视觉计算、NLP、ASR、OCR等技术为底座,能对用户上传、发布或共享的内容进行内容风险安全审查,提示企业对不合规、疑似的内容进行重点关注。

(1)独有的大模型能力

大模型能力是实现自动化、智能化、高效性和准确性的关键技术之一。内容审核基于百度海量数据训练优化,利用深度学习技术及算法迭代模型,识别准确率高,减少人工复查率,能有效降低企业运营成本。

测评发现,百度云内容审核的大模型能力主要包括以下几个方面。通过对文本进行分类和识别,判断其所属的类别或标签;对文本进行语义理解和分析,识别其中的关键词、短语、句子的含义和上下文关系;对文本进行情感分析和判断,识别其中的情感倾向;对图像进行识别和过滤,判断其中是否包含违规或不适宜的内容。

(2)领先的审核能力

具备高并发、高吞吐、低时延等能力,且算法卓越,识别速度业界领先,毫秒级响应,可应对各种实时性业务需求。

审核维度丰富:紧跟监管需求,实时同步政府指令,提供业内最丰富的审核维度,其中图像审核具备恶心图、质量检测的独家识别能力

审核粒度细腻:具备业界最丰富、全面的分类标签体系,并且持续更新。可根据业务需求,自由组合标签,让模型效果犹如“量身定制”。

(3)灵活配置

提供灵活的自定义配置功能,内设150+项细分审核模型标签并且持续更新,界面化调整审核维度和松紧度,5分钟即可完成规则配置,高效适配多元化、细粒度业务场景的审核需求。

更有意思的是,对于业务中小众细分场景的模型需求,如果通用审核模型还没覆盖到,百度云提供接入Easy-DL零门槛开发平台,仅需少量数据简单标注,最快15分钟即可训练对应模型。

策略配置:可根据业务场景,灵活选择审核维度、细分标签、以及对应的审核松紧度,贴合业务场景。

数据统计:一页概览业务全貌;可查看各个接口按照时间维度的调用趋势,并可查看违规数据的类型分布及统计信息。

数据分析:可查看各个媒体类型的数据详情;支持导出全量多维度Excel表格,便于后续业务分析。

(4)部署方式

各行各业都面临着AI安全问题,因此,解决方案的易用、便捷、高效、可视化,对企业来说至关重要。

从百度云官网可知,内容审核平台支持公有云接入、私有化部署,公有云支持API和HTTP-SDK。企业无需自建平台,可基于自身业务诉求,零门槛快速接入使用,灵活选用智能机审平台或人机协同审核平台

API的优势和调用方式可见首例“AI声音侵权案”宣判!聊聊怎么调用API接入百度内容审核平台

私有化部署服务支持主流CPU/GPU环境及国产化系统,可一键部署至企业的本地物理机、本地虚拟机及云主机服务器等。20+款审核模型部署包可供选择,支持内容审核平台人机审核平台两款SaaS平台的本地化部署,为企业提供高隐私性强实时性的内网审核服务,尤其适用于政务、金融、运营商、媒体等业务场景。

四、展望

随着AI技术的普及和应用,人们对于AI安全的认知将会不断提高,企业和个人将会更加注重安全问题。

如果想从根源上解决AI安全的问题,让OpenAI的“宫斗大戏”不再上演,真的是道阻且长。现在,用内容审核的方式,在AI传播过程中加强安全性,已经是一套比较成熟的方案了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容