乐趣区

关于大数据:从少林寺毕业后我当上了开源社区区长

本期名人堂咱们有幸邀请到了 Alluxio 开创成员兼开源社区副总裁范斌学生。范斌学生讲述了本人的求学、工作、退出开源社区的经验,以及对将来十年数据编排倒退的瞻望,和对开发贡献者的一些倡议。

问题 1:范斌老师您好,很荣幸有机会采访到您,请先介绍一下您本人?

大家好,我是 Alluxio 的开创工程师以及开源社区副总裁(VP of Open Source)。我本科毕业于中科大计算机系,随后别离在香港中文大学计算机科学工程系和卡内基梅隆大学计算机系获得硕士和博士学位。博士期间我在分布式系统算法和零碎实现等方向发表多篇包含 SIGCOMM, SOSP, NSDI 等顶级国内会议论文,包含提出了 Cuckoo Filter 算法。退出 Alluxio 前, 我在 Google 从事下一代大规模分布式存储系统的钻研与开发。

问题 2:您从大学本科到博士都是学的计算机专业,而且横跨了大陆、香港和美国三地,为什么会这么着迷于计算机呢?

我算是从很小的时候就开始接触计算机了。小学三年级的时候,我加入了学校组织的计算机兴趣班,系统地学习了 BASIC 语言编程。我至今仍记得在老师领导下,编写的第一个 BASIC 程序“打印画布”,实现在电脑屏幕上重复输入同一个符号“#”,如同在一匹布上打印出难看的花纹。过后我一下子就被这个程序迷住了,感觉编写计算机程序,依照本人的想法去做这样或那样乏味的事件切实太好玩了。这就是我入门的经验,从此就十分分心地开始学习计算机程序设计。

小时候我只是感觉计算机是一个有意思的玩具,能够打游戏也能够编写游戏。念完大学、读完博士当前,十分粗浅地意识到这是一个十分了不起的行业,它粗浅的扭转了整个人类社会的运行形式,所以我很骄傲始终投身在计算机科学行业当中。

问题 3:在 CS 畛域 TOP4 的卡内基梅隆大学计算机系攻读计算机博士是什么体验?对退出 Alluxio 开源我的项目和守业公司有什么影响?

我在 2007 年进入了卡内基梅隆大学攻读计算机博士学位,方向是分布式系统,次要是分布式网络系统和分布式存储系统等课题。这一期间,我十分有幸能和很多世界级的专家、学者以及一流的同学一起共事,这个贵重的经验使得我的业余程度以及对畛域的意识都失去了相当大的晋升。特地是让我近距离察看到最优良的学者是如何意识问题、钻研问题和解决问题的。咱们过后具体解决了什么问题可能绝对没有那么重要,而要害是播种了一套方法论,这样前面再做很多相似的事件都会十分得心应手,能够说这是我在整个博士阶段最大的收益之一。

因为同样做的是计算机分布式系统的一些钻研,所以我去加州大学伯克利分校拜访的时候,意识了过后正在那里攻读博士学位的李浩源博士。过后他的博士我的项目就是 Tachyon,起初改名叫做 Alluxio。也是因为这样的机缘,起初我就抉择从 Google 到职退出这家守业公司。

问题 4:您博士毕业后即进入谷歌并在外围存储基础设施团队负责构建散布存储系统的开发,这段经验有什么样的播种?

我在攻读博士期间学习和养成了一套好的办法来钻研和解决一些零碎难题,但真正的工程实际能力还没有失去最好的锤炼。这是因为这一时期作为一个博士生我专一指标是发表好的论文。而为这些论文写的代码也就是俗称的钻研代码 (research code),谋求的是把一些好的想法疾速实现原型,展示给同行看,但并不要求达到生产规范(production ready)。这是从学校里做零碎钻研的一个常见问题。你也能够了解为学术界和工业界的分工是不一样的。

我在退出谷歌工作的两年里最大的播种是拓宽了视线以及造就了良好的工程习惯。我始终感觉 Google 就像是计算机江湖里的少林寺,整个大数据以及 AI 畛域里的各种各样的技术,其实很大一部分最早都是发祥于 Google 的。在这样的平台,你能够见证很多技术的倒退脉络,并提前五到十年看到下一个时代的技术趋势。这个对于宽阔我的眼界是十分有帮忙的。

问题 5:作为 Alluxio 最早的初创者,为什么会抉择退出 Alluxio?有哪些吸引你的中央?比照谷歌这样的大厂光环,你怎么对待退出 startup 公司可能带给你的播种?

其实我在卡内基梅隆大学念博士的时候就立下了一个信心,会去参加一个初创公司。我始终就没有什么大厂情节,始终感觉在小公司尤其是初创公司外面做事会更乏味,节奏更快,更有挑战性。对我来说,我只是始终在等一个适合的机会,可能找到一个我喜爱并违心为之付出的团队和我的项目。

问题 6:Alluxio 起源于开源我的项目,目前逐步商业化,在越来越多的行业被客户认可并应用,是否能够举几个典型例子,Alluxio 如何给客户带来微小价值?

这是一个十分好的问题,我在不同的客户环境下会看到大家应用 Alluxio 的不同办法。不过总体而言,大部分用例都是通过更快的把数据出现给计算,帮忙客户更高效地治理、应用数据,使他们可能更快的从数据之中开掘价值。举个例子,比如说在中国联通这样的场景下,通过应用 Alluxio 能够使他们对于相似 Spark 这样的工作环境有更好的数据管理成果,以及更好的数据输入速度。这样就能够使中国联通大数据平台上的工程师更有效率地实现他们的工作内容,同时更疾速的去迭代算法的开发以及一些不同业务逻辑的开发。这带来的是生产效率的微小晋升。再比方新加坡的星展银行,东南亚最大的银行之一,他们有一些要害的业务跑在 Alluxio 之上。以上例子都表明了咱们所提供的这套数据服务对咱们宽广用户的微小价值。如果这套服务出了问题,不工作了,那给相干企业带来的麻烦也是微小甚至是致命的。正因如此,我感觉咱们的工作责任重大,同时也对咱们的成就十分骄傲。

问题 7:展望未来十年,您感觉数据编排将在整个大数据畛域表演什么样的角色?

我感觉数据编排会成为一个默认的数据层。无论什么时候,不管你是想获取数据,还是想要做大量的数据处理和计算,你都会习惯于从数据编排这层提取数据。它会成为一个大家默认的数据层,也会成为工业界外面的一层工业规范。有了这层规范之后,提供计算的厂商和用户都能够轻松自如地做他们想要做的事件,而不必去关怀具体的数据是怎么取得的,或者它是在一个什么样的服务里边怎么设置的。届时,这种绝对底层或是比拟繁琐的事件就交给数据编排层去解决了,我感觉这会是生产力的一个微小的提高,会让社会的生产效率达到一个更高的层面。

问题 8:作为 Alluxio 开源社区的 PMC Co-chair 对开源社区倒退有何冀望?有哪些想对开发奉献小伙伴们说的话,您有什么 tips 能够让大家疾速的玩转开源社区吗?

好的,首先十分欢送大家退出 Alluxio 开源社区。我在读博士的时候就曾经做了一些我的项目,而后开源了进去,但过后并没有意识到这其实只是开源的程序,一个源代码并不是真正的开源社区。开源社区是人和人之间的组织,社区内的人和人之间会有很多流动和分割,而开源某个我的项目仅仅是把你的代码放到 Github 上或者是相似的服务上托管进来,和真正去做开源社区有很大的不同。

我作为 Alluxio 开源社区的 co-chair,我的工作是如何把这个社区里的用户、代码批改的贡献者以及有能力去做整个我的项目演进的资深开发者很好的组织起来,使大家都能各取所需,并在我的项目中充分发挥本人的作用。在这个过程中会有很多十分优良的敌人参加进来,而咱们在结交新敌人的同时本人也会学习到很多贵重的教训。

如果说要给开发者一些 tips 的话,我感觉是尽可能多的加入社区活动,理解社区外面的人都在做什么事件,提前思考本人冀望失去哪些方面的领导,而后多跟社区里的人做分享交换。这样做会比本人自觉摸索的效率高很多。

咱们社区成员次要集中在 Slack channel 和微信群中,如果大家对这方面有趣味的话,欢送间接退出咱们的 Slack channel 或者分割微信小助手,和咱们的 contributor 或 maintainer 做一个沟通,置信会有事倍功半的成果。

想要理解更多对于 Alluxio 的干货文章、热门流动、专家分享,可点击进入【Alluxio 智库】:

退出移动版