随着咱们迈入2023年,大数据分析、人工智能和云产业将迎来蓬勃的翻新和倒退阶段
以下是咱们预测的,将对行业格局产生重大影响的五大趋势:
世界在巨变,咱们须要尽快寻找行业中的方向,迅速重回轨道
2023年,寰球经济层面的不确定性将继续存在。
在云上部署数据密集型负载的企业需从新评估其云策略,更加关注老本优化,依据现有或新我的项目的ROI(投资回报率)和TCO(总领有老本)来进一步扫视企业的云开销。
在新的一年里,实现老本优化的一个重要途径就是升高企业云老本中占比拟大的数据进口老本(egress cost)。
越来越多的企业会优化其架构,以防止受到超出预期的数据进口老本的冲击。例如,企业能够思考通过Alluxio缓存来升高经网络传输的数据流量。
此外,越来越多的企业在寻求实现“多云部署自在”, 从而可能不受限制地应用任何云厂商的服务。确保利用的可移植性将是实现这一“自在”的前提条件,这让企业可能依据本人的具体要求和估算抉择最佳的计划。
包含OpenAI 的对话模型ChatGPT 、DALL-E 2的图像生成模型以及谷歌LaMDA聊天机器人等大模型在2022年都已展现出微小的后劲。
预计这类模型将在 2023 年解锁更多用例和应用程序。
同时,这些模型的遍及将无望推动人工智能专业化基础设施和解决方案的倒退。
训练具备数十亿个参数的大模型须要非凡的基础设施和解决方案来解决计算需要。因而,可能反对这种规模和复杂性模型的人工智能基础设施将会一直倒退。
此外,随着大模型一直降级优化,研发人员将须要找到更多新的办法,用来把更多的大模型和理论的利用场景联合起来。因而,咱们预计随着人工智能基础设施的倒退,新的工具和平台将呈现,使研发人员可能更容易地开发和利用大模型。
数据共享既包含企业外部的数据共享,也包含企业间的数据共享。
只管数据共享目前尚未遍及,处于晚期阶段,然而,以数据共享为外围的生态体系,包含为数据消费者和数据提供者的基础设施、交易能力和服务,都将在 2023 年失去长足的倒退。
跨区域的数据价值实现将驱动企业外部数据的共享,进一步打消数据孤岛。随着越来越多的企业寻求将数据资产货币化,内部数据共享的利用场景和胜利案例也在显著增多。例如,面向学术界和钻研畛域,企业正在摸索利用数据共享平台来共享钻研数据,从而减速科研进度。
这一趋势将对数据基础设施产生重大影响,企业须要通过调整和降级零碎来反对跨地区、企业、云以及平台的数据共享。因为企业需确保以合规和平安的形式治理和拜访其数据,因而也将更加关注数据治理和数据安全。
在古代数据技术栈中,数据仓库和数据湖的交融趋势越发显著。
其背地的驱动力在于数据日趋复杂化和多样化,企业须要灵便和可扩大的零碎来反对大范畴的数据迷信和剖析用例。因而,数据仓库和数据湖的融合度也越来越高。
Apache Iceberg、Hudi 和 Delta Lake 等凋谢表格格局的衰亡在这一趋势中施展了重要作用。通过应用表格局定义层,能够在单个零碎中无效地存储和治理大量结构化和非结构化数据,使得企业可能以更低的老本更快地提取数据价值。
到 2023 年,随着这些解决方案的迅速采纳,更多的企业将应用凋谢表格格局存储数据。
长期以来,Kubernetes 中的存算拆散对数据本地性造成了挑战。只管在Kubernetes 中进行数据密集型利用的部署和弹性扩大曾经非常容易,但在拜访云原生数据源中的数据(例如 AWS S3 或近程数据仓库)时却更加艰难。
咱们预测,在2023 年,数据本地性的难题将失去解决。
对于Kubernetes调度器来说,可能独立于数据地位进行决策的能力变得越来越重要。这种能力对于Kubernetes接口来说将愈发要害,它将帮忙应用程序和调度器更加高效,诸如Alluxio等组件目前正在打算提供相干反对。
因而,新的一年将会呈现更多弥合计算和存储的解决方案,帮忙企业更好地治理和优化其在 Kubernetes 中的数据存储和解决。
2023年对于大数据、人工智能和云产业而言将是激动人心的一年。
大量的冲破和翻新将主导这些畛域的将来走向,许多技术范式将一直交融,造成一个以数据为核心的生态系统。
至于各项技术将如何演进并影响咱们的生存,让咱们刮目相待。
范斌 Alluxio开创成员兼开源社区副总裁
退出Alluxio前, 在Google从事下一代大规模分布式存储系统的钻研与开发. 范斌博士毕业于卡内基梅隆大学计算机系, 博士期间在分布式系统算法和零碎实现等方向发表多篇包含SIGCOMM, SOSP, NSDI等顶级国内会议论文以及多篇专利。
想要理解更多对于Alluxio的干货文章、热门流动、专家分享,可点击进入【Alluxio智库】: