关于存储:代码安全无忧云效Codeup代码加密技术发展之路

84次阅读

共计 5183 个字符,预计需要花费 13 分钟才能阅读完成。

简介:从代码服务及代码平安角度登程,看看云效代码加密技术如何解决这一问题

代码数据存在云端,如何保障它的平安?

局部企业管理者对于云端 代码托管 存在一丝放心:我的代码存在云端服务器,会不会被泄露?

接下来,咱们将从代码服务及代码平安角度登程,看看云效代码加密技术如何解决这一问题。

一、前言

1. 代码托管服务

什么是代码托管服务?

代码托管服务是运行在公共环境,提供软件版本控制治理的服务。

代码托管服务外围要解决的两个问题:

  • 存档:须要具备存档的能力,也就是,把咱们当前工作产出的某个正本保留下来,用于复制、追溯等等。
  • 合作:能够让不同的人,基于同一个对象内容进行工作,他们的成绩能够一起体现在这个内容之上。

Git 自诞生以来,就和“开源”、“共享”这些词紧紧地分割在一起,它之所以能疾速推广,并成为支流的软件版本控制工具,正是得益于它扭转了传统软件版本控制工具的合作形式,让软件奉献与合作变得更加高效与便捷。

2. 代码托管服务的两种状态

代码托管服务通常有两种状态:

  • 应用开源产品或购买公有部署产品,架设在 用户齐全可控的部署环境 上来提供服务。
  • 应用云托管服务产品,只领有对服务的使用权,而不用关注服务的运维。

2.1 自建代码托管服务

代码资产作为企业资产的重要组成部分,始终备受器重。许多企业、机构都会有自运维的代码托管服务。无论是从齐全管制还是数据安全的心理上来说,私网服务仿佛更加可信与无懈可击,但随之而来的 稳定性、可靠性 的问题,却往往让中小企业焦头烂额。

企业倒退之初,兴许只须要一个服务器资源,搭建一个可用的代码托管服务,即可满足肯定的日常研发需要;但随着企业规模不断扩大,遇到的问题逐渐增多,开始须要投入专人来治理这个服务;而企业研发人员倒退到千人以上的规模,甚至须要投入一个小的团队,来负责代码托管服务的运维及定制化开发工作。这无疑是一笔不小的 老本开销

此外,因为自建服务配套不欠缺,很容易产生部分 运维权限过大而引发平安危险,删库跑路等恶性事件,局部 IT 从业者能够仅凭一己之力蒸发公司上亿的市值,无时无刻在为咱们敲响警钟。

2.2 云代码托管服务

而云代码托管服务,以云共享的形式,提供更大范畴的服务能力;同时,因为其背地往往都领有一支教训深厚的运维治理及产品团队,其可靠性远胜于企业自建的托管服务。

但相比较而言,因为云代码托管服务对用户而言只有使用权,无奈登录存储服务器,无奈感知其背地的存储和复制机制,又因为代码自身的 敏感性 ,对云代码托管服务的 信赖问题(如认为代码数据对服务提供方运维人员可见)始终是一些中大型企业的症结。

3. 代码托管服务的演进方向

随着云计算一直演进,通过云原生技术理念的利用能够最大化享受云计算的技术红利,包含弹性伸缩、按量付费、无厂商绑定、高 SLA 等。

而在实际云原生理念时,势必须要:

  • 采取 DevOps 畛域的最佳实际来治理研发和运维流程。
  • 通过 CICD 工具链做到利用的疾速迭代和继续交付。

GitOps、Iac(Infrastructure as code)当初越来越多地被泛滥企业所驳回,代码托管服务也逐步成为了一种具备软件版本控制能力与合作能力的存储基础设施,其在 可靠性 跨地区拜访 方面的能力,也逐步成为各大云代码托管服务的外围掂量指标。而这方面的能力,也正是自建代码托管服务所不能满足的中央。

那么,如何打造云代码托管平安体系,来晋升用户的信任感呢?

4. 云代码托管平安体系

为了更好地撑持代码托管服务的存档能力,云代码托管体系通常会依照以下四个方面来建设:

拜访平安:

拜访平安包含但不限于认证、权限管制、数据传输等等,它次要解决用户的身份辨认,最小限度地赋予指定用户所需的正当权限,在事先最大水平保障代码资产的安全性,同时通过对传输过程数据加密(如常见的 https、openssl 加密)等伎俩,防止中间人截取或篡改用户的数据。

数据可信:

在拜访平安的根底上,还须要通过一些额定的伎俩,确保代码提交及代码归属的可信度(如仅承受特定属主的代码,或要求必须对提交记录进行 GPG 签名),从而进一步升高因为账号泄露等导致的危险。

存储平安:

作为云代码托管服务最外围的能力,存储平安岂但要保障服务的可靠性,数据资产不失落,更能够通过存储快照及备份等伎俩,升高用户应用过程中的危险。同时,如何保障存储于物理设施的数据,不产生数据泄露危险,也是用户最为关怀的问题。

审计风控:

在事先及事中平安能力之外,在预先通过智能化危险辨认、主动防御等伎俩,进一步加固整个平安防护体系。

在拜访平安、数据可信、审计风控等不便,目前各云代码托管服务或多或少的都具备了一些这样的能力,但我认为,存储平安才是最外围的竞争力。在这其中,代码 数据加密技术 的摸索,也是最具备挑战的。

5. 数据加密技术

通过对数据内容进行加密,并将关上这把锁的钥匙,交到用户手中,是当下泛滥云服务用于解决用户信赖问题的银弹。为此,具备云盘加密、云端加密能力的对象存储服务更容易被用户承受,众数据库服务厂商(如 MySQL、Oracle、PostgreSQL 等),也纷纷在自家产品上推出了 TDE(Transparent Data Encryption)的能力。

那么,同样具备存储属性的代码托管服务,是否也能够引入数据加密的能力呢?

在提供用户对代码资产的备份、删除能力之外,通过数据加密,让用户的数据资产仅对用户本人可见,从而达到对代码存储的近齐全可控的目标。

二、业界代码加密计划

1. 客户端加密

以开源软件 git-crypt 为代表的客户端加密办法,是针对敏感信息存储的不错抉择。用户生成一个数据密钥,用于对指标文件加密,将加密后的内容,提交到 git 仓库当中。

在这种模式下,加密的内容,仅提交人可见,而当你须要与别人共享时,能够通过获取别人的 PGP 公钥,对用于加密的数据密钥加密后,提交到代码仓库。对方在获取到数据密钥密文后,应用本人的 PGP 私钥解密,失去数据密钥,就能够解密数据了。

但这种形式的弊病也很显著,数据密钥获取一次,就能够重复应用,无奈解除受权;原有的文本文件加密后变成了二进制文件,也导致 git 无奈对增量批改创立 delta,大量应用及频繁变更就会导致仓库体积迅速收缩。

2. 磁盘加密

磁盘加密技术曾经十分成熟,仿佛也是一个很好的抉择计划。但磁盘加密仅解决物理设施层面的数据安全问题,在 vm(虚拟机)层面,依然是明文拜访数据的。

3. 服务端闲时加密

对于应用不频繁的代码仓库,闲时加密也不失为一种好的解决方案。在一个 Git 仓库不被拜访时,对其进行加密,而当其从新须要被拜访时,就须要期待解密实现,再凋谢拜访。

这种计划的通用性很高,也能够有很多种加密的计划能够抉择,实现的老本也不高,但毛病也很显著:仓库拜访须要一个预热的过程,仓库越大,预热工夫也相应越长;高频拜访的仓库,简直总是以非加密的状态存储在磁盘上,而这些热点仓库,也往往是用户最为关注,也最不冀望被泄露的。

4. 基于 JGit、S3 的云存储加密

AWS 的代码托管产品 CodeCommit,提供了代码加密的能力,它基于 JGit 实现的代码托管服务,复用了原有 JGit 的存储模型,利用 S3 的存储加密能力。

JGit 的社区活跃度大大低于 Git 的社区活跃度,并且在性能比照上,Git 也是远胜于 JGit,这也是各大支流代码托管服务均应用 Git 的起因。

三、云端代码托管的通明加密

云代码托管服的通明加密,是一种 服务端加密技术(Server-Side Encryption):它应用 用户受权的密钥 来实现对用户代码数据的加密;在用户拜访时,应用用户的密钥来对数据进行解密。整个加解密的过程对用户齐全通明,用户能够应用惯例的 Git 客户端来进行代码库拜访,或是浏览代码服务提供的页面服务;但用户保 留对数据的齐全掌控,能够在必要时,通过勾销密钥受权,达到解冻代码数据的目标。

1. 云端通明加密的劣势

Git TDE(Transparent Data Encryption)的劣势:

  • 不依赖文件系统。
  • 文件系统拜访的数据都是密文。
  • 可抉择仅加密一些敏感仓库来升高对性能的影响。

Git TDE 爱护冲破了文件系统访问控制的平安威逼:

  • 偷取存储设备,并且间接拜访代码库文件的歹意用户。
  • 通过磁盘备份复原数据的歹意用户。
  • 爱护静态数据(长久化的数据),对平台运维人员不可见。

2. 加密形式

采纳信封加密[2] 形式进行加解密:

  • 由密钥治理服务 KMS 产生数据密钥,并将数据密钥密文及加密后后果进行存储。
  • 在须要解密时,由 KMS 解密数据密钥密文,从而解密加密后的内容。

KMS 的加解密,通常用于解决大量的数据;而 Git 数据量较大,无奈间接应用 KMS 的加解密服务,抉择信封加密来加密数据密钥便是一个很好的抉择。

3. 密钥粒度

每个代码库一个数据密钥:一库一密能够无效防止数据的泄露。

4. 哪些文件须要被加密

Git 仓库中的数据,包含援用数据(HEAD、分支 branch、标签 tag 等),索引数据(.idx, .bitmap),涣散对象,打包数据(.pack)。

通常状况下,咱们通过 git push 提交的大量代码批改,都会以涣散对象的形式存储,一个涣散对象文件对应一个用户侧文件实体。在进行垃圾回收 git gc 之后,会对涣散对象进行清理,同时将他们打包整一个独自的打包数据(即 packfile)。

那么,在这种状况下,哪些文件须要被加密呢?

咱们认为,分支等援用信息中,不蕴含敏感的用户信息,所以无需加密。同时,索引文件仅用于打包数据的查找,也不是用户信息,无需加密。通常状况下,咱们的敏感信息都存储在较小的文本文件中(如代码文本),联合性能考量,咱们决定:

  • 仅加密 <10MB 的涣散对象(相当于 500 万字中文小说)。
大小压缩加密涣散对象Packfile
< 10MB 
10MB ~ 512MB   
> 512MB  

* 对于提交的单文件 packfile,不进行加密。(默认状况下,当咱们向 git 服务提交单个大于 500MB 的文件时,服务端会将其存储为单文件 packfile,而不是涣散对象,而单个大于 500MB 的文件,咱们能够认为其为二进制资源或者程序,没有加密的必要)
* 除上述单文件 packfile 外,其余 pack 文件均进行加密。

## 5. 何时加密

当用户进行代码提交时,用户提交数据会先通过 SSL/TLS 加密,传输到代码托管云服务,同时获取数据密钥,对提交的数据进行加密,而后长久化到磁盘。

## 6. 如何加密

应用 AES(Advanced Encryption Standard)作为咱们的首选算法,预计在后续也会减少 SM4 的反对。

加密模式

应用 CTR 模式对数据内容进行加密。

密钥长度

应用 256 位数据密钥,由 KMS 生成,平台只保留数据密钥的密文。

## 7. 加密后成果

打包文件 packfile 成果:

涣散对象成果:

## 8. 加密对性能影响

加密会对仓库性能产生小幅度影响:

以 Git 工程的源代码下载为例,加密后打包阶段性能降落约 10~20%;但因为下载过程中,网络传输占据绝大多数的工夫(通常占比 90% 以上),由加密引起的性能降落在整体 应用过程中可忽略不计

# 四、咱们的代码托管产品

## Codeup 代码加密

云端加密代码库是云效团队的自研产品,是目前 国内首个反对代码加密 的托管服务,也是目前 世界范畴内首个应用实时加密计划 的代码托管服务。

通过在云端对托管在云效 Codeup 的代码库进行落盘加密,能够无效防止数据拥有者之外的人接触到用户的明文数据,防止数据在云端发送泄露。同时,代码加密过程对用户齐全通明,用户能够应用任意官网 Git 端(包含但不限于 Git、JGit、libgit2 等)来拜访 Codeup 上的代码仓库。

### 开启仓库加密

具备管理员权限的用户,进入冀望加密的具体仓库的设置页面能够看到「仓库加密」开关,点击关上:

### 新建仓库时开启加密

新建仓库时反对勾选启用仓库加密:

### 开启 / 敞开仓库加密

具备管理员权限的用户,进入冀望加密的具体仓库的设置页面能够看到「仓库加密」开关,点击关上 / 敞开:

敞开加密时,会触发仓库的解密操作。

### KMS 密钥治理服务

返回阿里云 KMS 服务,能够查看到 Codeup 主动创立的服务密钥,该密钥不可删除和禁用,但能够通过批改 KMS 服务密钥的标签,长期禁用 Codeup 对 KMS 的调用:

点击④——密钥详情,能够看到「标签」局部有一个 Codeup 创立的标签键 acs:rdc:git-encryption

通过长期批改或者删除该标签值,即可限度 Codeup 对密钥的拜访,达到长期解冻仓库的目标。

> 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0