AIGC将成为重要的软件供应链

近日,OpenAI推出的ChatGPT通过弱小的AIGC(人工智能生产内容)能力让不少人认为AI的颠覆性拐点行将到来,基于AI将带来全新的软件产品体验,而AI也将会成为将来软件供应链中十分重要的一环。

在OpenAI的文档中,例举了能够利用其实现的48种利用场景,人们在积极探索如何将以ChatGPT为代表的AI能力利用到各行各业。

OpenAI中的利用举例

从利用上,学生可能成为了第一批的危险群体。在线课程厂商Study.com针对1000名18岁以上学生的调研发现,89%的美国大学生应用ChatGPT做家庭作业,53%的学生用它写论文,48%的学生应用ChatGPT实现考试。为了防止学生过于依赖此类工具,避免舞弊,多个国家的学校曾经开始禁止学生应用ChatGPT。

针对ChatGPT带来的影响还没有系统性的钻研,而在ChatGPT之前,2021年OpenAI与GitHub联手推出了AI代码生成工具Copilot。Copilot基于OpenAI通过数十亿行代码训练的Codex模型,可能基于上下文中的内容实现代码的主动补全。在其推出的首月就有超过40万的开发者订阅,而相似的工具还有tabnine、亚马逊公司的CodeWhisperer,都在「抢占」程序员写代码的空间。


GitHub Copilot工作原理

GitHub通过试验发现:

  • 应用 Copilot 可能显著进步开发者的工作完成率(试验中应用Copilot的完成率为 78%,而未应用的为 70%)
  • 应用 Copilot 的开发者的开发速度比不应用要高55%,晋升显著(应用 Copilot 的开发者均匀用时为 1 小时 11 分钟,而未应用的开发者均匀用时达 2 小时 41 分钟)

而在体验上,通过调研发现:

  • 90%的开发者认为晋升了工作的速度
  • 60% 至 75%的开发者认为对工作的满意度有所晋升
  • 87%的开发者在解决重复性工作时缓解了精力内耗

能够预感,会有越来越多的开发者基于Copilot这类的智能代码生成工具进行开发,其生成的代码后果可能随着工夫的积攒被更多开发者信赖。

作为软件供应链将带来的平安及合规危险

平安问题实质上是信赖问题,对于AIGC尤是,随着其利用的宽泛,人们接触到的各类内容都可能是AI生成的。

由此对于开发者、用户而言,可能存在以下危险:

引入破绽代码

依据 OpenAI 的评估,Codex 只有 37% 的几率会给出正确代码。除了存在无奈运行的bug以外,基于AI编写的代码可能引入破绽。Hammond Pearce等人通过钻研89个场景中生成的代码,发现GitHub Copilot给出的后果中40%存在破绽。如下图中生成的python代码,因为将参数间接拼接进SQL语句中,导致存在SQL注入危险。

GitHub Copilot生成的破绽python代码示例

究其原因,可能因为Copilot的训练数据来自于开源代码,大量的开源代码以集体我的项目为主,不会像在企业场景或在实在场景中应用一样思考其安全性,也就是其数据从安全性上可能就存在不平衡;而在训练样本抉择时可能也未对其安全性进行检测、过滤,间接用于训练,因而导致开发者间接应用生成的代码,有很大几率引入破绽危险。

模型被投毒

数据源投毒

模型训练的数据通常来源于公开获取的内容,如果数据源被攻击者管制,在数据标注时又未进行辨认,攻击者就可能通过在数据源中增加歹意数据,烦扰模型后果。对于数据源较为繁多的场景,投毒的可能性更高。最近Google在公布Bard时就因为提供了谬误的事实后果,导致当日股价大跌。在被问及“对于詹姆斯韦伯望远镜的新发现,有什么能够通知我九岁孩子的?”时,Bard 答复:“第一张系外行星照片是由詹姆斯韦伯望远镜拍摄。”而事实却是由欧洲北方天文台的甚大望远镜在 2004 年拍下的,此时间隔詹姆斯韦伯望远镜升空还有 18 年之久。

Bard 对于詹姆斯韦伯望远镜演示截图

应用过程投毒

如ChatGPT应用了基于人工反馈的强化学习机制,AIGC模型可能依据用户的反馈来对其模型进行修改。如同区块链中的51%攻打,如果模型被大量的用户对同一个内容提交谬误的反馈,那么模型则会被谬误地修改。如果攻击者发现了相似调试模式的开关,也可能站在模型开发者的上帝视角实现投毒。

OpenAI针对AI模型存在一些限度策略,不容许ChatGPT输入。而Reddit中一位名叫walkerspider的用户发现,能够通过对话赋予ChatGPT一个突破限度的沙盒环境,从而让ChatGPT不受到其策略限度,这类行为被称作提示符注入攻打(prompt injection)。

使ChatGPT伪装成一个不受限制的DAN

模型存在后门

当模型变得越来越弱小,也就会被赋予越来越多的能力,原来只是生成内容的AI,可能具备执行其余工作的bot能力,这些能力可能被滥用甚至作为后门进行入侵。

来自斯坦福大学的学生 Kevin Liu就通过提示符注入发现了微软新上线的聊天机器人(Bing Chat)存在的开发调试模式,通过对话让AI进入开发者笼罩模式(Developer Override Mode),他理解到Bing Chat在微软外部称为Sydney,理解到它创立的工夫以及模型的规定限度。

Kevin Liu让Bing Chat进入开发者笼罩模式的截图

当AI成为用户与业务的交互入口,那么AI就可能成为企业网络安全新的攻击面,如果它具备了执行代码、网络拜访这样的能力,那攻击者又未尝不可以通过文字管制AI入侵网络呢。

隐衷数据透露

从利用的用户应用场景来看,在用户交互过程中,用户可能提供一些隐衷信息,可能是显式的姓名、手机号、地址等个人信息,也可能是集体的心理状态、偏好等在交互内容语义中隐含的信息。取决于这些隐衷信息的受爱护水平,其可能以实名/匿名的模式,流向模型的开发者、数据标注团队,他们能够取得用户的隐衷信息;也可能间接被用于训练,其输出的隐衷数据可能被作为模型的输入,从而其余用户取得这些隐衷信息。

从模型训练的数据起源看,如果采集到了蕴含隐衷信息的数据作为样本,没有进行人为过滤、标注,则在输入时可能蕴含这些隐衷信息,个人隐私通过AI扩散裸露到更大的范畴。

有开发者在应用Copilot的过程中发现主动补全会提醒身份证号信息,GitHub的CEO Nat Friedman曾回应此类事件称波及隐衷信息的都是随机产生的假数据。

开发者发现Copilot可能补全身份证号

因为存在数据危险,亚马逊、微软都揭示员工不要在与AI交互的过程中输出敏感信息。而在OpenAI的应用条款中也说明会收集用户应用过程中的信息,但没有阐明具体的用处。由此也引发了一些欧洲律师的质疑,因为欧盟的GDPR法规要求个人信息数据应具备被忘记权,而AI获取到的数据,被训练成了模型就如同黑箱个别存在,自动化的过程难以齐全删除痕迹。

OpenAI应用条款中对信息收集的阐明

知识产权合规

AI更快生产内容的同时,也含糊了内容的知识产权危险,由此可能带来合规的隐患。

从数据获取的起源上看,训练过程中获取的数据可能是有相应著作权的内容,如开源代码中有大量应用GPL许可证的代码,基于GPL许可证代码进行软件的二次公布,则也须要提供软件源码,否则属于侵权行为。而Github Copilot有0.1%的几率会给出与原始训练数据齐全一样的代码,这部分代码很可能就有GPL相似的开源许可证束缚。

在《雷神之锤3》游戏中用到了一个非凡的疾速平方根倒数算法来进行效率优化,其中还蕴含难以了解的魔术数字0x5f3759df。有开发者发现当在正文中输出「fast inverse square root」时,GitHub Copilot就能够给出《雷神之锤3》中齐全一样的代码。

Copilot补全应用了雷神之锤3游戏中疾速平方根倒数算法代码

从生成的内容来看,自然人、法人或者非法人组织能力算作作者,AI不能算作我国《著作权法》中的作者,因而难以对AI生成的内容进行版权保护,其知识产权是属于模型的开发者还是使用者,可能存在一致,须要参看应用条款中的约定。例如OpenAI的应用条款中明确,只有用户在恪守法律规定、应用条款限度,并且对输出内容具备所有权的状况下,OpenAI就会将其在输入内容中的所有权力、所有权和利益转让给用户。

总结

以ChatGPT为代表的通用大模型在迅速倒退,软件的开发模式、产品状态正在因为AIGC的崛起而产生扭转,软件产业可能迎来一次变革。

AI将成为软件供应链中的重要组成部分,随之而来在用于利用开发的过程中可能引入各种平安及合规危险,包含:破绽代码的引入;模型可能因为训练数据的偏差或在应用过程中受到提示符注入的攻打,导致输入的后果被投毒烦扰;其自身可能存在后门指令,一旦被开启则可能成为特洛伊木马大杀四方;在数据隐衷爱护上,AI模型还是黑箱式的存在,在训练、应用交互的过程中隐衷数据存在透露危险;AI模型很可能应用受到版权保护的内容作为后果输入,而对于AI生成内容的知识产权爱护还无奈齐全实用现有法律。

这些危险的存在也不意味着对技术利用的否定,实在危险的呈现恰好意味着技术落地利用的开始,也是走向成熟的必经之路。

参考链接

https://blog.symops.com/2022/...

https://github.blog/2022-09-0...

https://tv.cctv.com/2023/02/1...

https://arxiv.org/pdf/2108.09...

https://www.spiceworks.com/it...

https://www.cnbeta.com.tw/art...

http://finance.people.com.cn/...

收费代码检测/情报预警

墨菲平安是一家为您提供业余的软件供应链平安治理的科技公司,能力包含代码平安检测、开源组件许可证合规治理、云原生容器平安检测、软件成分剖析(SCA)等,丰盛的平安工具助您打造齐备的软件开发平安能力(DevSecOps)。

旗下平安钻研团队墨菲平安实验室,专一于软件供应链平安相干畛域的技术钻研,关注的方向包含:开源软件平安、程序剖析、威逼情报分析、企业平安治理等。公司外围团队来自百度、华为等企业,领有超过十年的企业平安建设、平安产品研发及平安攻防教训。

收费代码平安检测工具: www.murphysec.com/?src=j

IDE插件阐明文档:www.murphysec.com/docs/guides…

收费情报订阅: www.oscs1024.com/cm/?src=j