关于开放源代码:代立冬拥抱开源可以避免重复造轮子开发者需要抛弃拿来主义丨COSCon20-专访

2020 中国开源年会 (COSCon’20) 将于 10 月 24-25 日由开源社举办，SegmentFault 思否社区为本次大会的策略单干媒体，并将进行独家的线上直播。

本次年会将采取线上线下相结合的模式，北京、上海、深圳、成都、长沙五城联动，11 个分会场，线上线下同时进行。

本次流动的讲师阵容堪称业界顶配，详情可点击右侧链接进行查看 ——《开源畛域顶配嘉宾团现身开源年会！线上直播、线下团聚，限时收费报名！》

为了让大家进一步理解开源、理解本次 COSCon’20，SegmentFault 思否特地采访了大数据分会场的出品人 —— 代立冬。

代立冬是易观大数据平台总监 & Apache DolphinScheduler PPMC，负责每日数百亿条数据处理链条的流程布局，技术选型，技术攻关及人才梯队建设等工作。专一于数据畛域研发数据平台架构 10 年，擅长于数据平台建设、集群性能调优、数据仓库建设，曾任多家大数据公司数据架构师。

以下为对代立冬老师的访谈内容：

1、您认为开源对于开发者来说，最大的价值和意义是什么？

1）能够不用再反复造轮子了，能够抉择在开源我的项目的根底上做二次开发，开发者有更多的精力专一在本人想做的事件上；

2）对曾经参加开源的开发者来说，开源社区高手泛滥，高手之间的碰撞会使得开发者的技术能力、沟通合作能力失去极大晋升，尤其是沟通合作这种软实力对集体日后的职业成长非常有帮忙；

3）开源曾经成为技术实力的象征，有句话说得好 “talk is cheap, show me the code”, 靠代码谈话曾经变得风行，很多技术岗位优先思考开源社区的 Contributor 或者 Committer；

2、您认为什么样的开源我的项目算是优质的开源我的项目？有没有一些评判规范？

借用 Apache 组织的一个重要观点 “ 社区 > 代码 ”, 优质的我的项目是有足够多样性的社区的, 社区的凋敝水平决定这个我的项目能走多远，换句话说更看重人的能力，贡献者可能来自不同的公司，机构，使得我的项目可能长期倒退。

3、是否分享一下您对国内开源技术和产品的认识？

这 2 年国内的开源技术气氛失去了很大的改善，国内也建设有相似 Apache license 这种级别的木兰协定，最近国内也成立了凋谢原子开源基金会，这在过来都是很难设想的。随着开源气氛的逐步变好，国内的开源技术实力也在迎头追赶国内顶尖程度，有些我的项目曾经达到国内领先水平，但大部分我的项目还是很缺运作教训的，须要向国外如 Apache 这样的国内顶级组织学习。

4、您在具体开源的过程中遇到的最大的挑战是什么？

咱们在做大数据任务调度 – Apache DolphinScheduler 的过程中遇到过很多挑战，最大的挑战还是如何让这个新生的社区实现从 0 到 1 的过程。万事开头难，开源也不例外，开源不是把代码凋谢进来就行了，还须要找到种子用户和开发者，能够说咱们的第一批用户很多都是手把手教人部署，教人用起来，最终取得第一批用户的认可，这极大的加强了咱们对我的项目的信念，随着用户越来越多，逐步实现了从 0 到 1 的过程。

5、对于开源文化将来的倒退，您有什么期待？

特地心愿国内的泛滥开发者对开源有更多的理解，摈弃开源是他人的事件，摈弃”拿来主义“，踊跃拥抱开源、参加开源，为国内开源崛起奉献一份本人的力量

6、请向大家介绍一下往年的 COSCon’20 & Apache Roadshow 大会数据技术专场吧？

随着数字化转型成为泛滥企业的共识，大数据量级的爆炸性增长和人们对数据的实时性的秒级响应要求，技术上如何应答是十分有意思的课题，本次特地邀请 12 位一线大咖分享干货，敬请期待！

挪动互联网、物联网时代的到来，使得数据量级呈几何级爆炸性增长，百亿级数据处理曾经不陈腐，数据量猛增也对大数据处理链条的各个环节提出了新的要求和挑战，这态势也使得国内的大数据技术得以锋芒毕露，呈现了不少由国人主导的国际性我的项目。

大数据前沿到底产生了哪些变动，数据技术专场特地邀请了 12 位一线大咖来分享国内外最前沿的先进技术和寰球的开源现状及趋势。因为疫情起因，十分欢送大家直播时多多交换，也欢送为开源献上一份本人的力量。

第一场 10 月 24 日 13:30 开始

主持人

缪翎

百度高级研发工程师 & Apache Doris PPMC

主持人介绍：缪翎，百度高级研发工程师 & Apache Doris PPMC, 负责 Apache Doris(Incubating) 设计研发工作。负责百度分布式数仓平台的设计开发，以及 Apache Doris 的开源推广工作。次要在数据分析，查问优化，开源等相干畛域进行摸索。

《数据库化的分布式数据库中间件生态圈极简应用策略》

潘娟

京东数科 – 高级 DBA & Apache ShardingSphere PMC

讲师介绍：

潘娟，京东数科高级 DBA&Apache ShardingSphereza wa PMC，次要负责京东数科分布式数据库开发、数据库运维自动化平台开发等工作。曾负责京东数科数据库自动化平台设计与开发，现专一于 Apache ShardingSphere 分布式数据库中间件平台的开发。次要在分布式数据库、开源、分布式架构等相干畛域进行摸索。

分享摘要：

作为 Apache 顶级我的项目的 ShardingSphere，将会在最新公布版本中迈向从分布式数据库中间件生态圈到分布式数据库的转型。已在 GitHub 上播种 12k+ Star 的开源人气我的项目将进一步依据用户需要和利用场景，在这个数据库化的过程中全力打造更为简略、丰盛、一体化、可插拔的分布式数据库产品体系，从而为用户提供最简略易用、功能强大、性能稳固的分布式数据库化产品。本次分享将为具体论述数据库化的产品个性、架构体系、极简落地计划实际等核心内容。

《通过 DataQL 在数据展示类我的项目中晋升 3 倍人效》

赵永春

DataQL – 我的项目发起人

讲师介绍：

赵永春，10 多年软件开发教训，多年架构设计教训。已经就任于阿里巴巴、淘宝技术部、阿里云数据库团队。是开源我的项目 DataQL 的发起者。

分享摘要：

基于 DataQL 的数据聚合能力，为利用提供一个接口配置“界面”。使得使用者无需开发任何代码就能配置一个满足需要的接口。整个接口配置、测试、冒烟、公布。一站式都通过配套图形化 UI 界面实现。这种研发模式的改革使得，研发流程中对后端依赖大大降低从而晋升近 3 倍人效。

《开源、高效的物联网大数据平台》

桑树多

涛思数据 – 利用架构师

讲师介绍：

哈工大毕业，已经效劳于英特尔、摩托罗拉、Ubuntu 等公司，在智能手机、无人驾驶、物联网等方向的开源软件研发和推广应用有 20 年以上的教训。对 Linux 内核、MeeGo OS、Ubuntu 等开源软件产品有代码奉献。对 TDengine 奉献了上万行代码和 400 个以上测试用例。

分享摘要：

充分利用物联网数据的特点，针对通用大数据处理平台的挑战，涛思数据推出了一高性能、高牢靠、可伸缩、零治理的物联网大数据平台 TDengine，而且将外围代码，包含集群性能全副开源，取得寰球开发者的高度关注，在 GitHub 上的 star 曾经超过 14K。本演讲将介绍 TDengine 的技术创新之处，包含存储引擎、计算引擎、流式计算、多维分析等等。

《Apache Doris: 一款反对对海量数据进行疾速剖析的 MPP 数据库》

陈明雨

百度 – 资深研发工程师 & Doris PPMC

讲师介绍：

陈明雨，百度资深研发工程师 & Apache Doris PPMC，负责 Apache Doris(Incubating) 设计研发工作。同时保护 Doris 在百度外部超过千台的部署规模，为超过 200 个业务线提供稳固牢靠的数据分析服务。6 年分布式系统研发教训，始终专一于分布式可扩大剖析型数据库畛域，主导参加了 ApacheDoris 从百度开源到进入 Apache 孵化器的全过程。

分享摘要：

Apache Doris(Incubating)是一款反对对海量数据进行疾速剖析的 MPP 数据库。Doris 自设计之初，就秉承着极简运维、高效牢靠、易学易用的准则，为用户提供全面而高效的海量数据分析能力。自 2018 年底进入 Apache 孵化器后，Doris 曾经公布了 5 个大版本，接管了来自社区 100 多位开发者的奉献，并在多家互联网头部企业和垂直畛域企业落地和利用。本次演讲次要蕴含 Doris 的倒退历程、零碎架构、次要个性和利用案例四个局部，帮忙听众对 Doris 有一个全面而具象的意识。最初，陈明雨会介绍 Doris 社区目前的倒退状况，心愿可能帮忙开发者更方便快捷的退出开源社区。

《Github 2020 全域剖析报告》

王皓月

华东师范大学 – 硕士研究生

讲师介绍：

华东师范大学数据迷信与工程学院硕士二年级，X-lab 实验室一员，开源社媒体组小编，负责 Wuhan2020 公众号的经营，之前参加了实验室 GitHub 2019 年报的撰写，目前是实验室发动的 2020 开源年报我的项目的 committer。

分享摘要：

在开源日益重要的明天，须要一份建设在全域大数据根底上的绝对残缺、能够重复进行推演的数据报告（报告、数据、算法均需开源）。GitHub 剖析报告是 X -lab 发动的 GitHub 开源剖析报告我的项目，旨在通过剖析 Github 全网的开发者行为日志，通过数据的视角，来察看寰球范畴内的开源现状、停顿趋势、演变特色、以及将来挑战等问题，以帮忙所有人更好地了解和参加开源。

《隐衷计算开源框架 Rosetta：数据安全交融新方向》

谢翔博士

矩阵元 – 算法科学家

讲师介绍：

曾任职于华为上海研究所无线平安解决方案设计部，中国科学院软件研究所可信计算与保障实验室博士 & 信息安全国家重点实验室硕士，是格实践、同态加密、零常识证实、平安多方计算等密码学算法和协定设计的专家，发表论文 10 余篇，曾在密码学的顶尖学术会议 Eurocrypt 上发表论文。

分享摘要：

数据隐衷问题曾经成为大数据和 AI 行业最为外围的痛点，如何保障散布在机构间的数据在爱护各自隐衷的前提下进行交融计算曾经成为迫切需要。隐衷计算为机构间数据的平安交融提供了新的技术方向，而密码学则是隐衷计算中最为外围的技术之一。本次报告中，谢翔将零碎的讲述隐衷计算整个行业的最新进展，密码学技术的基本原理以及密码学与大数据畛域、AI 畛域的联合。最初，将介绍基于 TensorFlow 的隐衷计算开源框架 Rosetta，让不相熟密码学的大数据、AI 钻研人员 / 开发者也能够无门槛的应用隐衷计算技术。

第二场 10 月 25 日 13:30 开始

《Apache DolphinScheduler 是如何撑持每日十万级大数据任务调度的》

代立冬

易观数科 – 大数据平台总监

讲师介绍：

易观大数据平台总监 & Apache DolphinScheduler PPMC，负责每日数百亿条数据处理链条的流程布局，技术选型，技术攻关及人才梯队建设等工作。专一于数据畛域研发数据平台架构 10 年，擅长于数据平台建设、集群性能调优、数据仓库建设，曾任多家大数据公司数据架构师。

分享摘要：

本次分享首先会介绍 DolphinScheduler(Incubating)社区的倒退状况，接着介绍咱们过后为何要反复造轮子再造大数据任务调度，DolphinScheduler 整体的设计思维、考量以及 DolphinScheduler 的个性和能力，而后介绍 DolphinScheduler 架构的变迁过程。分享中我也会讲述咱们在做大数据任务调度时遇到的挑战和积攒下来的教训，也会介绍一些用户案例和应用场景及开源的历程。

《从 ClickHouse 的名字来历说起》

朱凯

远光软件 – 大数据 / 平台开发部总经理

讲师介绍：

开源爱好者，Apache DolphinScheduler Committer、ClickHouse Contributor，《ClickHouse 原理解析与利用实际》、《企业级大数据平台构建：架构与实现》作者，公众号《ClickHouse 的机密基地》运营者，ClickHouse 布道者。

分享摘要：

ClickHouse 是一款开源的 OLAP 数据库，自 2016 年开源以来它始终放弃着飞速的倒退速度。其闪电般的查问性能和沉闷的社区，让它成为目前业界公认的 OLAP 数据库黑马。这次分享将带大家疾速领略 ClickHouse 的全貌特色，ClickHouse 它是什么、它的外围性能有哪些以及它能够用在哪些场景。与此同时，朱凯也将和你一起分享 2020 年 ClickHouse 最令人期待的 top 5 新性能。

《Apache IoTDB：工业物联网数据库管理系统》

黄向东

清华大学 – 助理研究员

讲师介绍：

黄向东博士，清华大学软件学院助理研究员。钻研方向为大数据系统架构与工夫序列数据管理技术。他是 Apache IoTDB 我的项目的初始源码提交者之一，同时也是 Apache IoTDB 我的项目 VP。

分享摘要：

工业物联网数据的主体是机器产生的时序数据，是工业互联网的原矿。与其余大数据不同，其具备高通量、低质量、弱模式、查问剖析简单等特点。Apache IoTDB 是从中国高校发动的，通过多年迭代，在多个工业生产零碎中通过验证的新一代工业物联网数据库管理系统，目前已成为 Apache 顶级我的项目。本报告将具体介绍工业物联网中的挑战，Apache IoTDB 的基本概念和个性，并简略介绍基于 Apache IoTDB 的相干理论案例，帮忙听众理解如何基于 Apache IoT 生态，解决工业物联网数据利用需要。

《Apache Kylin 4：凤凰涅槃，浴火重生》

张智超

上海跬智信息 – 大数据架构师

讲师介绍：

张智超目前就任于上海跬智信息技术有限公司（Kyligence）开源组，参加了 Apache Kylin 和 Apache CarbonData 等开源我的项目。

分享摘要：

Apache Kylin 4.0 Alpha 版本日前曾经公布，它是 Apache Kylin 4 的第一个晚期预览版本，是继 Kylin 3 之后的一个重大架构降级版本，采纳 Parquet 这种真正的列式存储来代替 HBase 存储，晋升文件扫描性能；同时从新实现了基于 Spark 的构建引擎和查问引擎，使得计算和存储拆散变为可能，更加适应云原生的技术趋势。本次演讲嘉宾张智超将从架构降级，原理解说，重大个性等几个方面来介绍 Apache Kylin 4.0。

《T3 出行构建数据湖上低提早数据管道的实际》

杨华

T3 出行 – 大数据平台负责人

赵玉威

T3 出行 – 调度平台高级研发工程师

讲师介绍：

杨华，T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内晚期布道者及沉闷贡献者。前腾讯高级工程师，曾主导 Flink 框架在腾讯从落地到撑持日均近 20 万亿音讯的解决规模。

赵玉威，T3 出行调度平台高级研发工程师。

分享摘要：

T3 出行是一家基于车联网驱动的网约车平台，领有海量且丰盛的数据源。为此在很早就基于 Apache Hudi 构建了企业级的数据湖。但数据湖从外界摄取的数据源绝大部分都是原始数据，而为了使原始数据变得更有业务价值和剖析价值，T3 出行须要对数据进行 ETL 等进行脱敏。这时为了解决低提早、高效的数据加工，最后引入了 Easy Scheduler(DolphinScheduler 前身)，在应用过程中发现了不少问题。随着 DolphinScheduler 退出 Apache 孵化器进行孵化并疾速迭代，T3 出行也随之降级到了 DolphinScheduler 并围绕它打造了一个企业级的大数据调度治理平台。这次分享 T3 出行将会对基于 Apache DolphinScheduler 撑持数据湖上低提早数据加工的实际进行介绍。

《PowerJob：新一代分布式任务调度与计算框架》

滕佶祺

阿里巴巴 – 开发工程师

讲师介绍：

毕业于浙江大学，目前是阿里巴巴团体的一名开发工程师，开源我的项目任务调度中间件 PowerJob 作者，在公司外部做过一些技术分享，这次尝试下更大的舞台。

分享摘要：

PowerJob 是新一代的任务调度中间件，旨在解决大型离线工作的调度与计算问题。PowerJob 立足于以后繁冗的业务个性，在任务调度的根底上，创新性地提供工作流 workflow 和分布式工作计算 MapReduce 两大外围性能。本次演讲将会为大家揭秘 PowerJob 我的项目的起源、旨在解决的问题和背地的技术分析。

彩蛋：QA & 抽奖

会场还设有 QA 和抽奖环节，奖品如抱枕、热火大数据书籍等赠送。数据技术专场 24 日特地邀请 Apache Doris PPMC 缪翎女士主持(传说中一个明明能够靠颜值却偏偏拼才华的奇女子）!!!

数据技术专场欢迎您，期待直播间与您相遇~ 大会已开启报名，欢送报名 !!!

报名形式 & 直播链接

对 COSCon’20 内容感兴趣的你，能够通过下方的链接或点击浏览原文进行报名，期待你的参加！除了在线上观看直播外，本次峰会将在 北京、上海、深圳、成都、长沙 五城开展线下团聚，审核通过后即可收费报名加入~

会议报名链接：

https://www.bagevent.com/even…

线上直播链接：

https://segmentfault.com/area…

如果有问题想问本次峰会的大神嘉宾们，欢送在本文评论区中提出，小编精选之后会间接提交给他们哦！