关于数据库:白话大模型③-我们为何需要机器学习运营平台

42次阅读

共计 1346 个字符,预计需要花费 4 分钟才能阅读完成。

文言大模型系列共六篇文章,将通俗易懂的解读大模型相干的专业术语。本文为第三篇:咱们为何须要机器学习经营平台?

作者:星环科技 人工智能产品部

在人工智能、尤其是其机器学习子畛域里,“没有收费的午餐”(No Free Lunch Theorem)效应也很显著,简略的说:

1. 缩小了人工去做各类特征提取(比方测量人的瞳距),就须要大量“不同”的数据,来训练模型,失去“映射关系”,至于“什么是不同,怎么不同,要的量多少,事实中这种不同很少,能不能合成或生成?”,都是必须要思考的,技术计划不同造成的优劣差距极大。

2. 比拟难达到“一个模型适应所有场景”的状态,比方即使在“人脸识别”技术倒退到如此高度的明天,在 2020 年初,本来好用的手机人脸解锁,面对带口罩的人脸,也是无能为力的,不得不反复方才映射关系步骤来晋升能力。那么,在人工智能畛域“头疼医头脚疼医脚”的打补丁做落地能够么?短期能够,长期不能够。

•试验性质或概念验证性质,能够,比如说,咱们须要一个“人脸识别”小工具,咱们能够采集一些数据,训练一个模型,而后应用;

•投入市场长期经营的产品,不能够。需要、数据、环境在不断扩大、变动,以机器学习和神经网络这类“数据驱动”的人工智能的运行逻辑,导致每次更新(更新大小并不是人认知的含糊的大小,而是机器能解决的数量化后的大小),都须要从新训练模型,从新采集数据,从新标注数据,从新建设模型,从新验证模型,从新上线,这个过程重来一遍是十分耗时耗力的;

•事实上,绝大部份企业外面,存在大量的智能化利用,不单单是一个“人脸闸机”这么一个,于是更加不能零散治理。一个不失当的比喻,古代企业很多软件、数据的搭建,就相似一个小城市的布局建设,而不是一个房子的建设,这个时候,咱们须要的是一个城市规划师和一整套环卫、治安、电力、医疗等班底,而不是一个长期小楼的包工头的草台班子。于是,为了满足消费者(或者企业用户)一直变动和增长的需要,才有了市场才对“智能数据分析平台”这样的软件有需要(咱们下节会形容“数据分析”是什么):

要能解决和治理方才建设映射用的图像样本(即:“数据”);要能建设和治理下面从图像到向量“映射”(即:模型或“算法”);要能治理和调度图到向量,以及图查图消耗的计算资源(即:“算力”)。这些都是“智能数据分析平台”须要做的事件。

如同城市治理假如有管理中心,为了保障智能软件的长期安稳运行,也要有一个指挥、监控、运维核心:

•要能对立的治理、监控“数据”、“模型”、“算力”的存储、治理、调度、应用

•要能对立依据新问题、新需要,改良“映射”(即:“模型继续晋升”)

•要能对立解释“映射”和成果之间的关系:如是否合乎常识、是否法律法范、是否偏心公正。这个核心,就被称作“智能数据分析平台经营平台”(或者合乎国际惯例:“机器学习经营平台”,Machine Learning Ops Platform, i.e. MLOps platorm),特质就是“六个对立”。

不论是否是“大模型”厂商,只有致力于“将模型从实验室和原型验证推向真正生产实践”,都须要这样的平台。比方 2022 年以来最胜利大模型供应商 OpenAI,在其官网的最佳实际中,就明确写了 MLOps 的重要性,与咱们下面的形容简直如初一辙(但“大模型”要求更高)。

正文完
 0