关于程序员:科创人天云数据CEO雷涛打造正确理解数智的认知体系

雷涛天云数据 CEO
荣获国家级 AI 最高奖项：吴文俊人工智能科学技术发明奖。
2020 年中关村高端领军人才获得者；首批 CCF 中国计算机学会大数据专委会委员；主导并参加汇丰银行、中国移动、中国联通、工商银行总部等多个亿级大型信息化我的项目布局建设。

—
文 | babayage
编辑 | 笑笑

两年多求索，《科创人》逐步造成了一套价值判断规范：分享价值观 > 分享办法，分享底层认知 > 分享教训，分享解题准则 > 分享单题答案……抉择成长经验为叙事载体，是因为人生的要害抉择、决断中，最能体现其认知、准则、价值观。

既然价值是目标、叙事是伎俩，就不应为逢迎伎俩而升高价值传递的效率，因而《科创人》决定为一些长于体系化分享认知、准则和底层逻辑的前辈大咖破例，对他们的分享内容放弃二开、呈上源码。

第一位，有请天云数据 CEO 雷涛。

范式、经验主义生效
破坏力来自数据原生

科创人：越来越多的人意识到，这是一个传统范式、经验主义生效的时代，是从新寻找正确答案的时代，您认为冲击既有方法论体系的力量来自何处？

雷涛：每个时代的宏观特色肯定不是繁多因素导致的，但也肯定有一些因素足以对其产生塑造作用。在我看来，基于先验主义而非迷信逻辑的那局部常识体系，正在被数据原生的全新常识生产体系所代替、瓦解。

往年（2021 年）年初，谷歌云人工智能利用人工智能工程师戴尔・马尔科维茨投入了一项乏味的钻研：让人工智能学习饼干松脆、蛋糕松软背地的迷信起因，从而实现一个 AI 烘培菜谱。是否从烘烤工艺决定做饼干还是蛋糕？机器学习的后果是：烘焙的工艺过程上曾经不能定义清晰，只能从原材料的成分上加以界定。

饼干和蛋糕的机器学习过程，以及其余有数的相似案例，通知了咱们一个事实：数字化世界里的常识，是构建在输出（成分）和后果上的，和咱们人类所习惯的白盒过程推理认知（菜谱）相差很大。咱们必须意识到，数字世界中，很多人类已有的常识判断往往生效了，比方咱们如何认定机器智能的图灵测试方法，谷歌大会上曾经证伪了图灵测试辨认机器与人。

数据原生将带来新的常识生产反动，白盒的过程推理认知将被黑盒的数字长程演算代替，后者更精确，更强。

y=f（x），数据原生推动常识生产反动

科创人：大部分声音还是将数字化带来的改革称为转型，但您很果决地应用了反动这个词，您如何定义常识反动？

雷涛：咱们从常识的生产所经验的四个倒退阶段总结:

1 科学实验: 远古的钻木取火到伽利略的比萨斜塔，常识从实际中生产;

2 实践推理: 牛顿利用微积分数学工具推导，常识从公理公式中生产;

3 仿真计算: 基于已知对物理世界仿真建模，常识从规模计算中生产;

4 数据原生: 面向答案求解不确定过程，常识从海量数据关联中生产;

数字经济正在经验“数据孪生”向“数据原生”倒退阶段，前者将人类已有常识利用于数字虚拟世界，尚处于第三阶段，但后者生产适应于数字经济的新认知，是另一个档次的存在。

数据孪生推动常识生产的阶段，是试图用已有的认知和知识结构，去解决虚构数字世界里的问题，用咱们的常识白盒构建一个模型，做高性能计算去推理，常识计算更多依赖公理认知的已有常识自动化，算力基础设施是超算核心的 HPC 高性能计算集群。面对简单动静个性化的计算场景，白盒建模的仿真遇到天花板，例如基于地球物理经典实践建模的气象预报，在局地气象和雷暴等突发极限气象的求解生效。

数字原生是如何生产人类认知之外的新常识。就像 Alpha Go，它没有从人类最佳实际优良棋谱里学习，没有从已有常识里学习，而是从行为数据（黑白落子）中，面向后果（输赢）学习两头不确定性的过程，生产出新的常识，重构新的业务流程和实际。例如电商举荐算法重构了批发商业，打车软件的布局算法重构供应和需要的商业组织状态。

数字原生在重构人类认知。

科创人：数据原生的常识生产方式，从生产常识到扭转物理世界的传导机制是怎么的？

雷涛：举个 AI 商业利用的例子，古代企业的业务模式正在经验从流程驱动到数据驱动转变的商业重构，人工智能曾经能够代替传统的教训、规定、流程，重构商业实际，促成新型商业决策。

这里用一个函数公式来表白 DT（Data Technology）时代的熊彼得增长模式，即外围价值体现为 y =f(x)，y 是后果，x 是数据，f 能够近似了解为是某种法则——但必须强调，数字对法则的了解与人类不同，人善于形象演绎简略法则，而数字是用简单了解简单。以金融畛域为例，当咱们输出大量消费者的行为数据 (x) 与资金交易的后果数据 y，通过数据库和 AI PaaS 平台的加工，失去的是反欺诈危险评估的模型 f，而 f 能够成为 1 乘 100 疾速扩张复制的智能利用，不须要再将数据搬来搬去，只有将 f 投入到各个“反欺诈利用场景”就能发明价值，f 作为新的生产因素，从而在信息产业改革中取得高成长。

新的生产方式和生产资料的变动带来了效率的迭代晋升，机器的角色从谨严地执行人类的指令程序，转变为基于指标进行迭代学习，将输出和输入过程中不确定的过程表白成一个软件模型或智能应用程序，这将大规模进步软件的生产效率，对于信息产业而言，这自身也是一次颠覆性的改革，DT 时代科技企业的支出能够体现为平台工具 + 数据迷信服务的复合性支出。

人类与机器共生的将来

科创人：当机器开始生产常识，人与机器的关系是否将应该颠覆性的改革？在您看来，将来人和机器的关系是怎么的？

雷涛：在过来，面对大量的信息，人类始终认为本人是万物之灵，“你把信息交给我，我来管制而后进行判断”，在这过程中诞生了有数的巨匠和专家。那么教训和专家给咱们的是什么呢？是一系列的报表，你能看到这个月的销售数字、销量等一系列的内容，而后根据这些数字做决策。

但当 AI 呈现之后，人的最高价值不再是解决信息，而是培养 AI，咱们在设计好一个精美的算法引擎之前，先把它扔到生产线上，而后再去布局这个引擎自身的设计，像三千年前的罗马竞技场一样，让两个深度学习的怪兽，本人彼此 PK，失去一个最佳后果。

在这样的模式下，人类和机器的角色被从新定义，AI 的染指使得咱们的角色晋升了，咱们不再是一个简略的参与者，不再是在生产线上反复的工作者，而是更多地从事一些高精尖的工作。

数字世界≠物理世界
突破认知瓶颈，警觉数智“民科”

科创人：您屡次提到了数据原生生产常识的形式呈现出黑盒状态，无奈为人所精确察看、了解，所以咱们不能简略地将 AI 计算的“f”了解为法则？

雷涛：晚期的 AI 也试图想找到一些法则，比方咱们在信用卡里广泛应用的评分体系，到底是三千块钱额度还是三万块钱额度？然而咱们越来越不再依赖于简略地表白事物，而是依赖于复杂性，依赖于数字的表达方式。

AI 还原了咱们对整个世界复杂性的了解，当人类看到一棵树，更习惯于进行抽象思维，不论它是什么色彩的、有多少个枝杈等等，咱们的第一反馈：这是一棵树；但当机器看到这棵树时，会尽量捕捉到它的所有细节，这是机器的短处，它更容易表白复杂性。

必须要抵赖，这个世界上有很多问题，人类没方法形象出简略的法则，比方咱们当初大量应用的视觉计算，怎么能力让图片去认知这是一只猫或者一只狗呢？用人类的语言和思维去形容图片信息是很无限的，这些无限的元素无奈还原简单内容；同样，咱们怎么利用 Alpha Go 把 16 万棋手的大局观、棋风都形象形容进去？

人类的语言在“还原复杂性”这一项上，江郎才尽，而深度学习无疑给了咱们一个形容简单世界的办法，用一套简单的数学体系和分布式计算能力去应答，同时深度学习也给咱们找到了一个认知地图和拼接地图的办法。

用简单应答简单，人类有了新的办法获取更宽泛的认知。

科创人：那么“不能了解数字世界的黑盒”是否将影响人们对这一形式的接收，进而影响这一生产力的遍及？

雷涛：我的确有此担心。面对数字原生这场常识生产反动，最大的解放就是，很多人习惯于用物理世界了解所有、定义所有，在我看来，这种认知会妨碍数字原生的遍及与倒退。

每一场常识反动，都随同着对“认知”的突破，人装了翅膀是飞不了的，真正能让飞机入地的是空气能源；汽车呈现的时候，人们还只是须要一匹更快的马，马力这个词连续至今；今人捏土制陶时，必定想不到现在光刻机在单晶硅片上灼刻集成电路……

新的常识反动，必然带来新的认知体系，反过来说，谬误的认知体系，必然连累常识反动的脚步。

终
2000 年前的秦人还是吃的和 10 万年前今人一样的谷物，但咱们从火车到网络，所有的一切都在减速。在过来的两个世纪，咱们焚烧的有机物残骸是通过亿万年转化而造成的化石原料，这些焚烧曾经对星球前第四季造成了微小耗费，也深刻影响着这颗星球多样性生命均衡演进倒退的过程，有责任的首领设定了碳中和指标，把握冪律法则，学习用更多“霎时”科技力量去生产越来越稀缺短暂的工夫 - 空间。
——摘自《数据原生的时空观》作者：雷涛