关于开源:JuiceFS-即将发布-10-并调整开源许可

61次阅读

共计 4517 个字符,预计需要花费 12 分钟才能阅读完成。

开源一周年

JuiceFS 开始于 2017 年,是一款云原生分布式文件系统,旨在帮忙企业解决多云、跨云、混合云环境下所面临的诸多挑战:数据安全和爱护、大数据架构降级、海量小文件拜访、Kubernetes 规范存储等。JuiceFS 齐全兼容 POSIX、HDFS、S3 拜访协定,并提供 Kubernetes CSI 驱动,在寰球私有云上均有全托管服务。为了更好的打造让开发者爱不释手的软件,咱们于 2021 年 1 月 11 日在 GitHub 上开源了 JuiceFS。

明天,JuiceFS 曾经开源一周年了!

一年前的明天,咱们将 JuiceFS 在 GitHub 上开源,初心其实很简略:心愿通过开源让 JuiceFS 被更多的开发者晓得、理解、并应用。毕竟软件最大的价值还是被应用。开源后的 JuiceFS 让用户不再放心黑盒的云服务,用户能够自行下载代码,摸索 JuiceFS 的有限可能;开发者能够查阅 JuiceFS 的代码,从最底层理解、相熟、信赖他,甚至能够参加到 JuiceFS 的打造中。咱们心愿营造一个相互尊重的社区文化,身处其中不仅能够应用 JuiceFS,也能够在这交换新场景、新玩法,还能够探讨 JuiceFS 的工程设计理念和参加将来方向的制订。

开发者们对 JuiceFS 开源的反馈也超出咱们的预期,开源第一周就登上了 GitHub Trending、Hacker News、InfoQ 等以开发者为次要受众的的媒体平台。

通过一年的工夫,JuiceFS 在社区和产品都获得了长足的提高,但行百里者半九十,咱们深知保持的难度,也将持续怀着凋谢和连贯的心态砥砺前行。

产品全面降级,更加凋谢

JuiceFS 刚开源时,元数据引擎的抉择只有 Redis。存储介质为内存的 Redis 在数据可靠性和扩展性上存在诸多挑战。咱们将元数据引擎的相干代码进行了可插拔革新,引入了对关系型数据库和像 TiKV 这样的事务型 KV 存储的反对,解决了可靠性和可扩展性问题,给了用户更多的抉择。

作为 JuiceFS 数据长久层的对象存储,咱们也反对了近 40 种,根本涵盖了私有云、边缘云、公有云等环境中部署应用的常见品种。当然,如果有脱漏欢送 GitHub 上发动 issue,咱们将尽快反对。拓宽 JuiceFS 的生态和晋升 JuiceFS 开放性是咱们矢志不渝的谋求。

最开始的 JuiceFS 只反对利用最宽泛的 POSIX API,尔后陆续反对了 HDFS、S3 API,和 Kubernetes CSI 和 Windows 操作系统,将来咱们还将反对更多更灵便的拜访形式。这些协定装点成线,将散落在企业外部的数据孤岛,编织成网,更好的帮忙企业买通多态业务零碎的数据,整合不同的技术体系,连贯多云,帮忙客户搭建更加凋谢的数据存储平台。

JuiceFS 还提供了元数据的备份和导入性能,让用户在「意外」背后更多一份保障和牢靠。这一性能给予了用户依照 JSON 格局进行备份的能力,进步数据可读性的同时,也保障了数据在不同元数据引擎间的可替换性。最初,牢靠的 JuiceFS 还提供了「回收站」的性能,在这里能够找到那些被误删除的数据。

除了在产品开放性上的继续投入,咱们还将眼光放到了文档的开放性和易用性上。咱们深刻理解,文档是用户与产品之间重要的纽带!自 JuiceFS 开源以来,咱们始终保持高品质的技术与高品质的文档并行输入的准则。

2021 年,咱们对文档进行了三次残缺迭代,实现了 文档从「专业性」到「普适性」,再到「体验性」的继续变质。优化文档的工作仍在持续,致力确保 JuiceFS 的文档可能「让新用户马上用」,「让老用户释怀用」。除了文档的工作以外,在疾速的版本迭代中,JuiceFS 也始终放弃数据格式、通信协议的兼容性,保障版本的向前兼容,让用户能够平滑降级。

JuiceFS 开源的一年里,产品也有了微小的变动,也让咱们更加动摇走开源路线是无比正确的,因为只有凋谢的生态是最具生命力的。

丰盛场景落地,生态共建

在短短的一年工夫里,有超过 4400 多位的开发者给 JuiceFS 点了个赞。这些开发者不仅仅来自于中国,也有来自于欧洲、美洲大陆、非洲,甚至中东的地区的开发者。新冠疫情尽管隔断了咱们物理上的分割,但开源社区让咱们齐聚一堂,一起在过来的 2021 年,为 JuiceFS 的社区添砖加瓦。

过来的一年里有超过 40 位贡献者实现了超过 800 次 Pull Requests,这是咱们通过 GitHub 和开发者群体实现的 800 次连贯。在这 800 次连贯的加持下,JuiceFS 公布了 16 次新版本,这些背地默默关注 JuiceFS 的社区用户,压力倍增的同时也给咱们满满的能源。

基于微信和 Slack 的社群,搭建了超过 1500 人的用户交换群组,参加了 9 场流动,大家从应用登程,满载而归的是 33 篇对于 JuiceFS 的技术内容和场景实际。在这里,咱们连贯了场景和用户。

文件系统是各种利用开发的基石,如何与其余利用联合,提供卓越的体现和良好的体验,造成生态,是 JuiceFS 社区的重要工作。在过来的一年中,JuiceFS 曾经在一些畛域受到了大家的认可,获得了不错的停顿。

大数据生态

JuiceFS 能够齐全兼容 HDFS,与 Hadoop 生态无缝集成,一些客户曾经替换了 HDFS 实现存算拆散的架构降级。

  • Apache Kylin 4.0 公布了应用 JuiceFS 构建集群的解决方案。
  • 利用 ClickHouse 和 Elasticsearch 的数据生命周期个性,JuiceFS 能够轻松实现数据分层存储,为用户增效降本。

AI 生态

JuiceFS 多拜访协定的反对能够大量省去业务流程中数据迁徙调度工作,与支流机器学习、深度学习训练框架全副兼容。

  • 旷视技术团队还奉献了 JuiceFS Python SDK,不便在 Serverless 环境中拜访 JuiceFS 数据。
  • JuiceFS 缓存减速是 AI 训练场景最受欢迎的个性,PaddlePaddle 曾经将 JuiceFS 集成到 Paddle Operator 中为训练减速。
  • 云知声团队的搭档为 Fluid 社区奉献了 JuiceFSRuntime。
  • 向量搜索引擎 Milvus 也公布了基于 JuiceFS 构建分布式集群的解决方案。
  • Byzer 社区也将 JuiceFS 作为云原生文件系统集成到本人的解决方案中。

Kubernetes 生态

JuiceFS 非常适合作为 PV(PersistentVolume)应用,是容器原生存储(Container Native Storage)。社区提供了 CSI 驱动和全面的文档指南,而且曾经入驻了 KubeSphere 利用商店,在 Rancher 和云托管的 Kubernetes 服务中应用也同样简略。

在应用 JuiceFS 的敌人,也心愿把你的教训和问题反馈到 JuiceFS 社区,不仅能失去反对和帮忙,还能让你的教训帮到很多人,这正是开源社区的价值和魅力。

多行业生产环境验证,JuiceFS 1.0 来了

对于存储系统而言,可靠性永远排在第一位。JuiceFS 创新性地将元数据和数据别离保留到成熟的数据库和对象存储中,一开始就有了可靠性保障,这也是泛滥科技公司在可能在 JuiceFS 公布半年内就投入生产环境并保障稳固运行的关键所在。依靠于规范拜访协定,JuiceFS 采纳了开源社区已有的测试集来保障兼容性和可靠性,还有各种单元测试、压力测试、混沌测试和性能测试保障,在产品疾速迭代的同时保障每次版本公布的高品质。

JuiceFS 开源的一年里,曾经有小米、Shopee、现实汽车、知乎、航天宏图、尧信等多家厂商在生产环境中部署了 JuiceFS,稳固运行半年以上。

  • 小米用 JuiceFS 做 AI 平台的存储底座。
  • Shopee 将 JuiceFS 作为云平台的文件存储服务提供给各业务线,反对了多样的业务场景。
  • 现实汽车用 JuiceFS 实现了数仓的存算拆散。
  • 知乎用 JuiceFS 把 Flink 流计算的启动加载提速 4 倍。
  • ….

JuiceFS 曾经稳固继续的运行多家互联网和 AI 企业的生产环境中,不仅仅为客户降本,更为客户晋升数据应用的效率和缩短新业务上线的周期,当然内置的数据保护和加密也让客户大大宽心。在过来的一年里,每天在线的 JuiceFS 集群数量也稳步回升,从最后的几个,到当初的超过 500,放弃了较高的增长速率。值得一提的是,这仅仅是咱们有记录的数据,置信还有很多咱们没分割到的用户。

在国内外互联网、主动驾驶、基因测序、金融科技、智能制作等多个行业,以及宽广社区开发者的反对、验证和继续反馈之下,通过全面的评估和各类场景下的验证,JuiceFS 社区将于本周公布 JuiceFS v1.0-beta,欢送社区用户测试并给咱们反馈,依据反馈改良后公布 v1.0-GA。

从新思考开源许可

回到 2021 年公布之初,JuiceFS 只反对在挂载后通过 POSIX 形式拜访数据,利用是通过内核来拜访数据,并不需要间接跟 JuiceFS 打交道,利用并不会被 GPL 系列的许可影响,所以过后采纳了文件存储界应用最宽泛的 GPL 许可(AGPL v3)。

随着 JuiceFS 的一直迭代,引入了更多的拜访协定和 SDK(S3 兼容的 HTTP 协定以及跟 HDFS 兼容的 Java SDK),影响用户基于它们去开发商业产品。同时,也有一些开源社区和开发者心愿将 JuiceFS 作为存储底座,整合到本人的我的项目中,但 AGPL v3 与其余开源协定(比方 Apache 协定)的兼容性不太好,妨碍了更多人去享受 JuiceFS 提供的多协定互通和高效缓存零碎等诸多便当。

所以,为了咱们的初心——打造开发者最喜爱的存储产品,Juicedata 团队决定自 JuiceFS v1.0 起将许可更改为 Apache 2.0。

从新定义文件存储,将来可期

JuiceFS v1.0 是一个重要的里程碑,代表它能够被释怀的应用于各种场景的生产环境,开始承受更多更严苛的挑战。之后社区仍将继续加大投入,继续为大家带来更多有价值的个性,比方呼声最高的配额治理,Snapshot,反对更多元数据引擎等。

随着数据规模的快速增长,分布式文件系统愈发重要。传统分布式文件系统都采纳自底向上的一整套零碎,复杂度十分高,难以把握。JuiceFS 创新性地拆散元数据和数据存储,并尽量复用已有的成熟数据库和对象存储等基础设施,拜访协定也是同时兼容所有支流的接口,将分布式文件系统的零碎复杂度和应用门槛大幅升高,从新定义了分布式文件系统的构建形式,通过一套体系和不同组件的搭配,能够满足不同规模和场景的非结构化存储需要。同时,JuiceFS 是齐全云原生的设计,能够跟云上的生态很好地连接,合乎云存储倒退的大趋势,有十分宽泛的利用前景。

只管 JuiceFS 曾经做了十分多的减法,尽量避免反复造轮子,打造成熟牢靠的存储产品依然须要微小的工程投入。咱们在过来一年里也进一步壮大了工程师团队,很多都是从 JuiceFS 社区的参加到退出 Juicedata 团队,也欢送更多气味相投的同学们退出,一起创始分布式文件存储的新时代。

开源产品的研发,须要继续的资金投入,咱们花了 4 年验证过的商业化服务也在快速增长,为 JuiceFS 的倒退提供继续牢靠的资金保障。开源是咱们的星辰大海,商业化为它保障护航。

道阻且长,但行则将至!

欢送关注咱们我的项目 Juicedata/JuiceFS 哟!(0ᴗ0✿)

正文完
 0