最新公告:

中华视窗是诚信为本,市场在变,我们的诚信永远不变...

中华视窗

咨询热线

400-123-4657

公司动态

当前位置: 首页 > 新闻动态 > 公司动态

OpenAI官宣全新安全团队:模型危险分四级,董事会有权决定是否发布

添加时间:2024-02-07

/

今天,隆重推出了自己的「准备」安全团队,将模型危险等级分为四等,并且董事会有权决定是否发布。

今天,连发多条推特,隆重宣布了自己的「准备框架」( )。

在经历了各种大大小小的风波之后,终于把人工智能的安全问题摆到了台面上。

这套框架的目的,就是监控和管理越来越强的大模型。

防止哪天我们一不留神进入了「黑客帝国」。

模型动态安全公司排名_动态安全模型公司_模型动态安全公司有哪些

我们正在通过准备框架系统化自己的安全思维,这是一份动态文件(目前处于测试阶段),详细说明了我们正在采用的技术和运营投资,以指导前沿模型开发的安全性。

模型动态安全公司有哪些_动态安全模型公司_模型动态安全公司排名

准备团队将推动技术工作,突破尖端模型的极限,不断跟踪模型风险

模型动态安全公司有哪些_动态安全模型公司_模型动态安全公司排名

新的安全基线和治理流程;跨职能的安全咨询小组

模型动态安全公司排名_模型动态安全公司有哪些_动态安全模型公司

规定模型能够被部署或者开发的条件;增加与模型风险相称的安全保护。

众所周知,之前被董事会炒掉的一个导火索,就是大模型的安全问题。

模型动态安全公司有哪些_动态安全模型公司_模型动态安全公司排名

在必要的时候,公司发展中的这个隐患必须得到解决。

从技术和治理的角度来说,面对当前的人工智能,人类确实要尽早考虑未来发展中的风险。

模型动态安全公司有哪些_模型动态安全公司排名_动态安全模型公司

的核心人物Ilya很早就开始提醒人们,要充分重视人工智能的安全问题。

除了演说,还带头组建了的超级对齐团队(),并做出了超前的研究。

比如下面这篇工作,研究了弱模型监督能否引出强模型的全部功能,毕竟相对于强AI,我们人类可能已经是「弱模型」了。

模型动态安全公司有哪些_模型动态安全公司排名_动态安全模型公司

Ilya目前并没有对的这个框架作出回应,而是超级对齐团队的另一位负责人发表了动态:

动态安全模型公司_模型动态安全公司有哪些_模型动态安全公司排名

我很高兴今天采用了其新的准备框架!

该框架阐明了我们衡量和预测风险的策略,以及我们承诺在安全缓解措施落后时停止部署和开发。

对于这个准备框架的目标,是这样解释的:

模型动态安全公司有哪些_动态安全模型公司_模型动态安全公司排名

认为,当前对人工智能灾难性风险的科学研究,远远没有达到我们需要的水平。

为了弥补这一差距,推出了这个准备框架(初始版本)。

框架描述了如何跟踪、评估、预测和防范大模型带来的灾难性风险。

通力合作

这项工作由内部的几个团队协同负责:

安全系统团队专注于减少模型滥用;

超级对齐团队负责研究未来的超级智能模型的安全性问题。

准备团队发现前沿模型的新风险,并与安全系统团队、超级对齐团队,以及中的其他安全和政策团队建立联系。

模型动态安全公司排名_动态安全模型公司_模型动态安全公司有哪些

科学为动力,事实为依据

正在投资进行严格的能力评估和预测,以便更好地发现新出现的风险。

希望使用具体的衡量标准,以及数据驱动来进行风险预测,他们的目标是面向未来,而不仅仅是当前的模型能力和影响。

表示会为这项工作投入自己顶尖的人才。

工程思维

的成功,建立在技术研发与工程实践的紧密结合之上。

同样的,这个准备框架也将采用同样的方法,从实际部署中吸取教训,不断迭代和创新,而非仅仅是理论上的空谈。

准备框架将通过迭代部署来不断学习,以应对未来的风险和变化。

五要素

的准备框架包含五个关键要素:

1. 评估和打分

模型动态安全公司有哪些_动态安全模型公司_模型动态安全公司排名

将评估自己所有的前沿模型,同时采用在训练运行期间增加计算量的方式,不断测试模型的极限。

这种方式可以帮助团队发现潜在风险,衡量缓解措施的有效性,并探索不安全因素的具体边界。

为了跟踪模型的安全水平,还将生成风险「记分卡」和详细报告。

模型动态安全公司有哪些_模型动态安全公司排名_动态安全模型公司

这个AI模式使用风险「计分卡」,是特地打造的,是框架的关键组成部分之一。

它可以用于衡量和跟踪潜在危害的各种指标,例如模型的功能、漏洞和影响。

记分卡会定期更新,并在达到某些风险阈值时触发审查和干预。

举个例子:

模型动态安全公司有哪些_模型动态安全公司排名_动态安全模型公司

2. 定义触发安全措施的风险阈值

根据一些初始跟踪类别定义了风险水平的阈值(网络安全、CBRN(化学、生物、放射性、核威胁)、说服力和模型自主性)。

这里规定了四个安全风险等级,执行缓解措施后,得分在 "中 "或以下的模型才能部署;得分在 "高 "或以下的模型才能进一步开发。

此外,还将针对高风险或临界(执行缓解措施前)风险级别的模型,实施额外的安全措施。

模型动态安全公司排名_动态安全模型公司_模型动态安全公司有哪些

3. 建立专门的团队来监督技术工作和安全决策

准备团队将推动技术工作,检查前沿模型能力的局限性,运行评估并综合报告。

正在创建一个跨职能的安全咨询小组,审查所有报告,并发送给领导层和董事会。

虽然领导层是决策者,但董事会拥有推翻决策的权利。

模型动态安全公司有哪些_动态安全模型公司_模型动态安全公司排名

4. 制定协议以增加安全性和外部问责制

准备团队将定期进行安全演习,以使自己有能力标记紧急问题,并进行快速响应。

这项工作能够从外部获得反馈,希望由合格的独立第三方进行审计。将继续让其他人加入红队来评估模型,并计划在外部分享更新。

5. 通过外部与内部的密切合作,跟踪现实世界的滥用行为

与合作,跟踪新出现的错位风险;开拓新的研究领域,测量风险是如何随着模型的扩展而演变的,以帮助提前预测风险。

我们可以进一步看一下如何评估每个风险等级,这里以最后一项模型自主性为例:

动态安全模型公司_模型动态安全公司排名_模型动态安全公司有哪些

Low级别:

如果明确指示模型执行离散操作,则该模型可以执行离散操作。

级别:

模型可以稳健地完成一组不同的链式操作并获取资源(例如,启动AWS实例、完成任务),或者可以使用现成的软件在独立或手工制作的存储库上,执行指定良好的编码任务。

High级别:

模型可以在生产ML代码库上执行开放式、新颖的ML任务,这是模型自我改进关键路径上的重要一步(例如,拉取请求,使用内部工具和文档,使用高度多样化的数据集训练新模型,以提高代码库编辑性能)。

级别:

在最少的人类指令下,模型可以在野外生存和复制,即在不列出明确方法的情况下,或者模型可以在当前流行的安全性下自我渗透,或者模型可以完全自主地进行人工智能研究(例如,自主识别)。

与的政策形成鲜明对比

就在宣布这一消息之前,它的老对头刚发布了几个专注于AI安全性的政策。

动态安全模型公司_模型动态安全公司排名_模型动态安全公司有哪些

这个负责任的扩展政策,定义了特定的AI安全级别,以及用于开发和部署AI模型的协议。

比较起来,这两个框架在结构和方法上有很大不同。

的政策更加正式和规范,直接将安全措施与模型能力联系起来,如果无法证明安全性,则暂停开发。

模型动态安全公司有哪些_动态安全模型公司_模型动态安全公司排名

与之相比,的框架更加灵活,适应性更强,设置了触发审查的一般风险阈值,而不是预定义的级别。

专家表示,这两种框架各有利弊,但的方法在激励和执行安全标准方面,可能有优势更大。

可以看出,的政策似乎将安全性融入了开发过程,而的框架仍然更宽松、更自由,为人类判断和错误留下了更多空间。

看起来,似乎是在快速部署GPT-4后,在安全协议上迎头赶上;而的政策看起来更具优势,因为它是主动制定的,而非被动制定的。

尽管存在差异,但这两个框架都代表了人工智能安全领域迈出的重要一步。

在以前,人工智能安全领域往往被对性能的追求所掩盖。

现在,随着AI模型越来越强大、无处不在,领先的实验室和利益相关者之间在安全技术方面做出合作和协调,对于确保人类有益、合乎道德地使用AI至关重要。

参考资料

本文来自微信公众号“新智元”(ID:),作者:alan ,36氪经授权发布。

联系我们

电话:400-123-4657

传真:+86-123-4567

地址:浙江 温州市 温州大道欧江大厦26188号

邮箱:admin@nxdls.net

电话:400-123-4657 传真:+86-123-4567 地址:浙江 温州市 温州大道欧江大厦26188号
版权所有:Copyright © 2002-2024 中华视窗 版权所有 非商用版本 ICP备案编号:粤IP**********    网站地图