无分类 大规模数据传输,知易行难 — 数据传输与 ETL 平台的架构演进 本文首发于 vivo 互联网技术微信公众号([链接]) 作者:周建军本文根据周建军在 2019 年 3 月 30 日 vivo 互联网技术沙龙《亿级用户的智能体验交付之路》的演讲内容整理。 周建军,vivo 大数据专家。负责 vivo …
无分类 Druid Segment Balance 及其代价计算函数分析 Druid 的查询需要有实时和历史部分的 Segment,历史部分的 Segment 由 Historical 节点加载,所以加载的效率直接影响了查询的 RT(不考虑缓存)。查询通常需要指定一个时间范围[StartTime, EndTime],该时间范围…
无分类 PB 级数据处理挑战,Kubernetes如何助力基因分析? 摘要: 一家大型基因测序功能公司每日会产生 10TB 到 100TB 的下机数据,大数据生信分析平台需要达到 PB 级别的数据处理能力。这背后是生物科技和计算机科技的双向支撑:测序应用从科研逐步走向临床应用,计算模…
无分类 ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.4 我们是一个大型开源社区,旗下 QQ 群共 9000 余人,Github Star 数量超过 20k 个,网站日 uip 超过 4k,拥有 CSDN 博客专家和简书程序员优秀作者认证。我们组织公益性的翻译活动、学习活动和比赛组队活动,并和 D…
无分类 阿里小二的日常工作要被TA们“接管”了! 昨天有人偷偷告诉我说 阿里巴巴其实是一家科技公司! 我想了整整一夜 究竟是谁走漏了风声 那么重点来了,阿里到底是如何在内部的办公、生活中,玩转“黑科技”的呢? AI取名:给你专属的“武侠”花名 花名是阿里巴巴…
无分类 这些数据科学家必备的技能,你拥有哪些? 88%的数据科学家受过高等教育且拥有硕士学位,其中46%拥有博士学位。虽然有些人是例外,但通常需要非常强大的教育背景才能拥有成为数据科学家所必需的知识深度。要想成为数据科学家,你可以先获得计算机科学、…
无分类 十年再出发!阿里云智能总裁张建锋演讲全记录 3月21日,“十年再出发”阿里云峰会于国家会议中心正式召开。阿里云智能总裁张建锋(行癫)携核心管理团队首次悉数亮相,并对阿里云做了全面的战略解读。以下是演讲全文。
无分类 使用split_size优化的ODPS SQL的场景 说明1:split_size,设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。设置语句:set odps.sql.mapper.split.size=256。一般在调整这个设置时,往往是发现…
无分类 揭秘:蚂蚁金服bPaaS究竟是什么? 去年9月,蚂蚁金服在杭州云栖ATEC发布了分布式金融核心套件bPaaS( Business Platform As a Service ),对外开放自身沉淀的“产品合约”、“资产交换”、“资产核心”、“会计核算”、“计价” 等金融核心组件,而这款号称…
java 从0到1学习Flink》—— 你上传的 jar 包藏到哪里去了? 这个问题其实我自己也有问过,但是自己因为自己的问题没有啥压力也就没深入去思考,现在可是知识星球的付费小伙伴问的,所以自然要逼着自己去深入然后才能给出正确的答案。