关于人工智能:个推大数据降本提效实战分享QA精选

50次阅读

共计 1698 个字符,预计需要花费 5 分钟才能阅读完成。

个推通明存储实际

列式存储(Column-oriented Storage)是大数据场景中面向剖析型数据的支流存储形式。与行式存储相比,列式存储只提取局部数据列、同列同质数据,具备更优的编码及压缩形式。目前,个推的外围数据正逐渐切换为 Parquet 等新型数据格式存储以取得更高的 I / O 性能和更低的存储老本。

个推数据部降本提效团队 资深数据研发工程师筱得围绕通明存储概念、文件读取流程、通明存储实现形式等,为大家具体解读了个推通明存储优化的全过程。

分享过程中的相干问答:

Q1:如何量化和评估通明存储的收益?

A:量化维度分两方面,首先是从提效方面来掂量,即应用效率是否晋升,比方用户(数据分析师)解决业务需要时的数据应用效率晋升状况。目前咱们联合多个类型的工作综合来看,通明存储可能使跑数工夫缩短 30%;其次是降本方面,即资源耗费是否有缩小,能够通过 CPU 核的应用时长以及内存应用时长进行量化评估。

​Q2:通明存储如何实现历史工程对数据格式的兼容和切换?

A:在兼容方面,咱们是通过扩大 Hadoop 的读写 API,来减少存储格局自动识别和切换能力;在切换方面,咱们先对 Hadoop、Spark 的提交命令进行了扩大,减少 hook,并引入了切换数据格式的黑白名单,从而让工作启动时可能获取要变更的信息;通过以上形式,最终实现了对历史工程的数据格式无感知切换。

标签存算在每日治数平台的实际之路

个推依靠海量数据资源和弱小的建模能力,造成 3,000 余种数据标签,构建了丰盛、平面、多维的画像标签体系,从而为行业客户提供数据洞察相干服务,比方 APP 精细化经营、广告投放人群定向等。

因为业务方的标签组合简单多样,所以在对大规模数据进行计算和标签构建的过程中,如何减速标签计算,实现秒级人群圈选和洞察便成为咱们须要攻克的难题。

个推每日治数平台团队 高级数据研发工程师之昂基于每日治数平台 DIOS 的开发实际,深度分析了无效晋升标签存算以及人群圈选效率的外围技术手段。

分享过程中的相干问答:

​Q1:Spark 的 shuffle 和 Hadoop 的 shuffle(MapReduce) 有什么区别?

A:MapReduce 的 shuffle 和 Spark 的 shuffle 在性能上是简直没有区别的,都是对 Map 端的数据进行分区(有聚合排序和不聚合排序两种形式),而后在 Reduce 端或者下一个调度阶段拉取数据,从而实现 Map 端到 Reduce 端的数据传输性能。

Q2:直播中讲到 ClickHouse 不反对高并发,起因是什么?对于集群的 ClickHouse 写入,有哪些须要留神的中央?

A: ClickHouse 之所以快是因为底层采纳了并行处理机制,默认单次查问应用的 CPU 核数是服务器核数的一半,所以对高并发的应用场景反对得不是很好。如果肯定要反对高并发,倡议在查问层减少限流。

晋升 IT 资源效率,显著升高 IT 总投入

升高企业 IT 老本的一个无效伎俩是大幅晋升 IT 资源的利用效率。麦肯锡的一份钻研报告显示,寰球服务器的均匀每日利用率通常低于 10%,Flexera 的一份报告也显示,企业上云后均匀节约了 30% 的云收入,云老本优化是企业在 2021 年最想做的事件。那么如何晋升 IT 资源效率,升高 IT 总投入?

来自贝联珠贯的杨少华博士为大家分享了大数据工作优化、在 / 离线混部等可能无效晋升 IT 资源效率的外围技术手段。

分享过程中的相干问答:

Q1:个别如何实现在 / 离线混部?

A: 不同公司的实现形式可能不一样。咱们是这样做的:Step1. 将离线工作通过 k8s 调度到在线机器上;Step2. 应用 Agent 动静调节在 / 离线资源的配额;Step3. 利用内核的一些隔离技术进行隔离,在必要时进行干涉,例如在紧急情况下限度离线工作的资源,这种形式会对机器内核版本有一些要求。

Q2:对于 Spark/Flink on k8s,是引入 YuniKorn/Volcano 等第三方调度插件,还是自研相似组件来解决计算资源分配和治理的问题呢?

A: 咱们的计划次要还是 Yarn on k8s,而后 Spark/Flink on Yarn。这里次要思考的是客户对接的侵入性问题,大部分状况下下层数据开发平台都还是接 Yarn。

正文完
 0