关于开源项目介绍:云端共享文件系统-JuiceFS-在-2021-年选择开源

55次阅读

共计 1939 个字符,预计需要花费 5 分钟才能阅读完成。

明天,云原生分布式文件系统官网公众号 Juicedata 果汁数据科技公布音讯称 JuiceFS 曾经开源了!

开源地址:
www.github.com/juicedata/juicefs

JuiceFS 是什么

JuiceFS 是基于 Redis 和对象存储(例如 Amazon S3)构建的开源 POSIX 文件系统,针对云本机环境进行了设计和优化。通过应用宽泛采纳的 Redis 和 S3 作为持久性存储,JuiceFS 能够用作无状态中间件,以使许多应用程序轻松共享数据。

突出的性能是:

  • 齐全兼容 POSIX:JuiceFS 是齐全兼容 POSIX 的文件系统。现有的应用程序能够应用它而无需进行任何更改。请参阅上面的 pjdfstest 后果。
  • 杰出的性能:提早能够低至几毫秒,并且吞吐量能够扩大到简直有限。
  • Cloud Native:通过利用云对象存储,您能够独立扩大存储和计算,也就是合成存储和计算架构。
  • 共享:JuiceFS 是一个共享文件存储,能够被许多客户端读取和写入。
  • 全局文件锁:JuiceFS 反对 BSD 锁(flock)和 POSIX 记录锁(fcntl)。
  • 数据压缩:默认状况下,JuiceFS 应用 LZ4 压缩所有数据,也能够应用 Zstandard。

JuiceFS 的由来

创始人刘洪清清华硕士毕业,毕业后即退出豆瓣成为晚期员工,并研发了国内最早的开源 KV 存储 Beansdb 和 DPark(Python clone of Spark);2013 年他退出 Facebook 总部负责 HDFS 方面的研发,2014 年退出 Databricks,帮忙 Spark SQL 实现了上百倍的性能晋升。

时值 Davies 负责为 Databricks 的存储层提速,尽管 AWS 已有相干的存储计划,但问题很多,且迟迟无奈解决。于是,他提议,自研新的存储计划,系统性地解决问题。

不过,在过后的 Databricks,从架构师到管理层,简直全副认为危险太大,无人反对 Davies 的提议。Davies 在承受 TGO 鲲鹏会的采访时示意说:「过后,CTO(注:Matei Zaharia,Apache Spark 作者)亲口对我说:『存储这不是咱们善于的事件,能不碰尽量不要碰。』」

在 Databricks 否决 Davies 的技术计划后,大略 Matei Zaharia 也没有想到,这个中国来的工程师颇有「美式英雄主义」精力。他岂但没有放弃,反而用业余时间人多势众地写了个原型进去。之后,Davies 回顾道:「我找了一些敌人的公司去试用,发现成果也能够,所以我在想既然有这么不错的货色,就不能湮没它。」

2017 年,Davies 在美国近程敲定了国内的投资和晚期客户,叫上过后也在守业的苏锐,独特创建了 Juicedata,并将产品命名为 JuiceFS。

为什么抉择开源

刘洪清在守业之初,认为 SaaS 能够为用户提供最佳的体验,同时能够更快地迭代产品,所以决定优先把 SaaS 做好。通过 4 年的继续迭代和积攒,JuiceFS 曾经在几十家科技企业的大数据、AI、容器平台、归档、备份等场景中造成最佳实际,SaaS 使用量也继续快速增长,并且在过来的 2020 年首次实现了盈亏均衡。他置信找到了可继续倒退的模式,有信念保障 JuiceFS 的长期经营。

他也发现闭源的根底软件会限度使用者对它的深度了解,不利于它服务更多的人,依附 SaaS 产品的支出撑持和开源社区的力量,能够让 JuiceFS 帮忙更多的人。

将来倒退

最近几年,数据库畛域产生了一件乏味的事件:当 NoSQL 数据库在满足了数据的快速增长后,它在一致性、拜访便捷性和治理能力方面的有余逐步露出,把这些复杂性转嫁到了业务零碎和运维上,开始被人诟病。同时,SQL 数据库也有了长足的停顿,曾经可能满足当初的数据规模需要,通过全面的比照剖析后,大家又在回归 SQL 数据库,已经的 NoSQL 静止也逐步显出颓势。

预计相似的事件也会产生在非构造数据畛域。对象存储在媒体文件等场景获得了微小的胜利,但当人们认为它就是将来的存储状态,开始推广到更大范畴时,它就义掉的树形目录构造、可修改性、元数据性能、一致性等等,变成了一只只拦路虎,影响它在其余场景的应用成果。

咱们深信文件系统是最好的治理非结构化数据的形式,对象存储只实用于某些简略场景。分布式文件系统始终是根底软件中难啃的骨头,JuiceFS 通过对文件系统中元数据和数据的独立形象,大大减低了零碎复杂度,使得文件系统可能借助这些年来对象存储和分布式数据库的停顿,治理超大规模的数据。同时,复杂度的升高能够让更多的开发者参加进来,将来更多的利用也会建设在文件系统接口之上。

JuiceFS 将通过开源社区的相互协作,一方面为各个利用提供更好的存储反对,也会在底层存储引擎和对象存储上加深合作,一起推动文件存储的疾速倒退,打造将来数据生态的松软底座。

正文完
 0