共计 1337 个字符,预计需要花费 4 分钟才能阅读完成。
本文讲述字节跳动一款 App 产品的数据治理故事。该产品随着用户体量和数据体量一直增长,数仓的任务量、数据量也一直攀升,运维难、老本贵、稳定性等问题在一直凸显。通过应用火山引擎 DataLeap 的数据治理能力,3 个月工夫将计算成本大幅缩减 20%。
该产品是一款近千万级 DAU 的产品,疫情 3 年,催生了大量的线下需要转型至线上,海量的数据尽管为产品发明了微小的价值,然而也增高了计算成本和存储老本。“老本治理专项”成为了这个产品的重要工作之一,为了解决数据治理的问题,产品接入了火山引擎自研的大数据开发套件——DataLeap,次要围绕下述两个场景进行老本治理:
1. 疾速启动并取得收益
大数据场景下计算资源的重要价值和低廉老本,须要每个工作都按需应用。而在理论的业务开发过程中,存在大量的异样计算工作,节约了大量的计算资源。计算场景也因而成为该产品数仓团队老本治理的要害切入点。
通过 DataLeap,数仓团队能够设置明确治理指标,并配置治理域,通过选定各种规定的工作治理,比方敞开 / 下线有效工作、优化高耗时并且占用资源 TopN 工作、优化资源申请不合理 TopN 工作、优化表产出小文件 TopN 工作等,由此对队列阻塞状况进行改善,实现阶段性进行缩容。
DataLeap 还反对对工作执行进行全链路监控,主动发现这些异样的计算工作,并在工作台进行展现,让数据研发人员能够查看相应工作,并采取治理措施。
2. 按季度继续治理
数据治理是一项长期性、系统性的工作,通过 DataLeap 平台,该产品优先实现了数据按季度继续治理。
DataLeap 平台提供一系列工作圈选规定,能够圈选出有效、高耗时、资源申请不合理、小文件异样、近 7 天内无更新、写入数据、近 90 天无拜访表等规定,进行定期扫描,由此实现周期性老本治理。除此之外,DataLeap 还提供告诉、一键拉群等治理经营操作,反对查看治理成果,积淀治理教训,无效推动数仓团队老本推动停顿。
其次,为了能更直观监测到数仓衰弱度、量化治理成果,产品团队还引入了 DataLeap「衰弱分」体系。一旦呈现衰弱分不达标状况,会及时限度产品应用资源比例、资源申请等。DataLeap 还反对忙碌和闲置时段队列资源利用率的监测,能够帮忙飞书数仓团队优化任务调度措施。
最终,该产品的数仓团队次要从 YARN 和 HDFS 切入,在引入 DataLeap 的三个月内,疾速落地老本治理我的项目。在计算治理场景,实现 YARN 队列老本升高 20%;在存储治理场景,已开释 7PB 存储空间。
计算治理
- 达成指标:缩容 20% 的 CPU core,YARN 队列老本升高 20%
治理场景
- 回收低使用率 / 老旧队列
- 有效工作下线
- 高耗时工作 & 占用资源 TOP N 优化
存储治理场景
达成指标:开释 7PB 存储空间
随着数据的一直累积和业务的一直倒退,大数据的体量将会变得越来越大,而随之而来的宏大老本,也成为了大数据建设中越来越无奈漠视的问题。
火山引擎 DataLeap 基于字节跳动业务场景和实践经验,积淀有一套残缺的数据品质、SLA 治理、资源优化、告警优化的能力,能够为业务提供晦涩顺滑的数据治理体验;在流程上,笼罩布局式、响应式的用户数据治理双路,同时与各业务密切配合,落地和积淀多项治理规定。
点击跳转 大数据研发治理套件 DataLeap 理解更多