随着以 ChatGPT 为代表的 AIGC(AI-Generated Content)技术的极速遍及、以及 AI4S(AI for Science)从愿景走向风行,不同畛域、不同背景的人们以一种前所未有的形式连贯在了一起,独特经验着知识结构、技术体系、产业格局等方方面面的大重构。很多人开始问咱们发动 NBHub 的初衷和整体思考、进而问如何更好地促成单干与碰撞,心愿本篇能给出一个零碎但仍旧初步的答案。
简短版答案
AI4S 与 AIGC 将给整个人类社会的教学与科研体系带来微小的改革;在这场改革中,常识的承载模式及交换分享形式、技术从底层算法翻新到利用落地的过程,都将产生微小的扭转;进而,AIGC 将深刻影响社会生存的方方面面,而 AI4S 将推动科学研究与工业研发的继续变革、从而粗浅扭转世界;在此背景下,NBHub 心愿以云上 Notebook 及进一步衍生进去的一系列文中被称为“代谢通路”的“发表体系”为载体,推动解决教学与科研体系变革过程中的瓶颈问题,进而推动造成一个激励凋谢的技术交换与分享、将拓展集体能力边界和人类认知边界融为一体的社区共同体。
NBHub 的口号是“让常识跑起来”。这里的“跑”既指常识以云上 Notebook 的模式一键运行、疾速上手,又指常识在一个跨畛域的凋谢共建的社区中充沛、自在地流传与分享。
中长版答案
咱们将通过以下四个局部进行探讨:
- AI4S 与 AIGC 时代,常识体系的更新迭代在减速、从底层翻新到利用落地的过程在减速;
- 教学的新痛点、新需要、新实际——云上 Notebook 如何变革常识的流传、分享、与学习形式;
- 科研的新痛点、新需要、新实际——云上 Notebook 如何变革跨学科科研过程及狭义的学术发表体系;
- 综合上述探讨,NBHub 心愿做什么。
AI4S 与 AIGC 时代,常识体系的更新迭代在减速、从底层翻新到利用落地的过程在减速
自工业革命以来,人类社会曾经不再领有所谓的“通才”。进入信息时代,信息爆炸随同着常识爆炸,对于“学什么、怎么学、为什么学”等问题,任何具体的答复仿佛都已不再能跟得上时代的节奏。进入 AI 时代,这所有又进一步须要被扫视。如果说信息时代的“数字常识体系”尚属零散的网页索引和模拟器体系,那么 AI 时代的“常识体系”将在更大程度上被大模型死记硬背。
常识体系的更新和迭代正一直减速,而且,常识体系呈现出的是网状结构,而非被学科门类划分的树状构造。网状结构的演变有可能是间断的,但投影到树状构造却充斥着相变。这将带来哪些变动呢?最突出的变动可能是对许多具体技能的需要迭代速度的显著进步。试想一下,还有哪些具体学科专业可能放弃至多 5-10 年的待业劣势呢?再想一下,咱们能够说“AI 可能是将来最须要学习的常识体系”,但对于“学什么、怎么学、谁来教”的问题,每年又在以多快的速度在倒退和变动?
与此同时,从底层翻新到利用落地的过程也在减速。上一代工业软件从最根底的计算机联合数值模仿的算法冲破,到成为成熟解决方案与行业深度联合,用了 30 年;而从 Transformer 这样的最根底模型架构翻新到 ChatGPT 这样的杀手级利用,仅用了 5 年。这种减速过程背地的起因是简单多元的——这在本篇探讨的领域之外。然而,这个过程越来越指向一个特色时间尺度的变动——从 20-30 年缩短到 3-5 年、甚至更短。
3-5 年意味着什么呢?它意味着一个学生从本科退学到毕业的工夫、一个博士生从抉择钻研方向到毕业的工夫;它意味着任何一个花足够长时间习得的具体技能体系自身都可能不再被须要;当然,它也意味着对更基本、更深层次的通识能力和人文关心的需要。
这是咱们当下所处时代的大背景。
咱们与 ChatGPT 探讨了更多问题,感兴趣的读者能够点击链接查看:https://nb.bohrium.dp.tech/detail/1320?utm_source=segmentfault
教学的新痛点、新需要、新实际——云上 Notebook 如何变革常识的流传、分享、与学习形式
教什么?学什么?谁在教?谁在学?啥时候教?啥时候学?在 AI4S 与 AIGC 时代,这些问题变成了灵魂问题。常识体系更新速度与教学体系适应和教学资源供给之间存在着难以和谐的矛盾。传统的课本、教材和教学方法很难满足学生对最新常识的需要;老师也面临着如何在无限的工夫内学新技术、以及向学生传授更多、更无效的常识的压力;甚至,对于大学和研究生教育来说,很大比例上充当主力的青年教师群体同时也面临着下一部分将探讨的科研压力,从而加剧了上述痛点痛的水平。
在这种背景下,自主学习、一生学习以及继续定义问题、解决问题的能力显得尤为重要。然而,这样的能力体系该如何系统地倒退起来呢?咱们发现,在跨学科碰撞与合作需要旺盛的当下,一个显著的缺失是可能疾速上手、疾速建设手感的“新技术入门体系”。
在信息爆炸与技术爆炸的时代,咱们理解新技术停顿的渠道和形式在疾速变动。文献与技术 blog 的规模在扩充、均匀品质在升高;技术博客或社交媒体的宣传更加简短、疾速,但也难以深刻。更要害的是,在很多跨畛域的需要中,如何真正疾速上手、尝试(例如花看一篇微信公众号的工夫来摸索 SAM 这样的图像预训练模型对资料图像表征需要的成果和进一步计划),并基于真正的“手感”来判断如何逐层深刻,正在成为畛域倒退的瓶颈点。这曾经催生了 Hugging Face Space 等实际,但更宽泛的切入形式仍有待进一步摸索,特地是思考到 AI4S 的场景需要,知识结构往往更深、数据更少、软件 / 流程等历史包袱更重。
为了应答这些挑战,咱们认为,满足个性化和灵活化学习需要的云上 Notebook 体系是最要害的切入点。在传统的教育模式中,云上 Notebook 作为一种基于云计算的在线编程环境,可能轻松实现常识的生产、流传和学习。在教学过程中,老师能够通过云上 Notebook 创立实时的教学示例和练习,学生则能够在线实现作业并获取即时反馈。此外,利用云上 Notebook,老师可能轻松地为学生提供最新的教学资源,使得常识的流传更加迅速。同时,学生能够依据本人的需要抉择感兴趣的课程和我的项目,实现个性化学习。
云上 Notebook 还为老师和学生提供了一个共享的在线空间,不便单方进行实时交换和合作。更要害的是,在此基础上,“老师”与“学生”将不再是对抗的、单向的关系,而是能够有十分多样化的组合——试想,当一个同学尝鲜、学习完一个新技术后,不只是写了一个技术 blog,而是写了一个优良的云上 Notebook(咱们将在后续文章中联合咱们的实际来给出对于“优良的云上 Notebook”的思考),而后马上所有人就能够连贯云上机器进行实战式学习、优良的案例也能无缝进入教学课堂,甚至大家能够互相评论、更新、改良、积淀这个 Notebook。这样的模式岂不恰好是解决上述挑战问题的要害?
最初,为什么强调“云上”?外围起因是运维部署和弹性扩大等方面的能力需要是对立的、且具备规模效应的,很难以教学科研绝对习惯的“小作坊”模式做起来。而恰好是这些能力也让不同工夫地点、不同模式组合、不同规模的灵便的、交互式的教与学成为可能。
科研的新痛点、新需要、新实际——云上 Notebook 如何变革跨学科科研过程及狭义的学术发表体系
在 AI4S 和 AIGC 畛域的疾速倒退背景下,科研体系在信息时代伊始就面临的挑战被进一步放大。以跨学科单干为例,不同畛域的研究者在语言、办法和工具上的差别,使得跨学科单干在技术层面上变得十分艰难。更雪上加霜的是,不同畛域背景的人们所受到的激励也各不相同,这至多反映在他们所认可的学术期刊及相应的评审根据上,这使得大家即使关注同一问题,也容易因为关注的角度、心愿我的项目推动的形式方向不同而难以获得无效停顿。
那么,咱们期待云上 Notebook 能做些什么呢?
咱们须要从对狭义的发表体系的探讨开始。实际上,学术论文体系、开源社区、微信公众号等,自身都能够被视为狭义的发表体系。它们在载体与出现模式、评审机制与评估体系、各方激励等方面均有所不同,因而实用于不同类型的状况。咱们将不同的发表体系类比为不同类型的“代谢通路”,因为它们代表了不同类型的常识体系的排汇、合成、消化、合成、进化过程。
在当下这个 AI4S 和 AIGC 时代,咱们发现:一方面,科研人员是在前沿翻新和摸索人类认知边界的一线群体;另一方面,实质上在承当推动科研体系运行核心作用的学术发表体系正在变得臃肿、轻便、僵化、从而反过来解放了科研人员的生产力和创造力。在资源无限、学术群体规模持续增长的状况下,良性竞争正逐步演变为“卷”的格局。越是“卷”,人们就越容易被现有指标绑架,越容易浪费时间或投机取巧,从而越难以产出有意义的工作。
对相干问题的探讨曾经有很多,这里咱们仅就出现模式、评审与迭代机制来针对云上 Notebook 略作探讨。
就“出现模式”而言,学术文章的出现模式是文字、图表等;开源软件的出现模式基本上是代码和文档;而云上 Notebook 的出现模式则综合两者,自身能很不便地搭载文档和代码,且在良好的后端反对下,还能够有模型 / 数据 / 算力稳固可扩大的零碎环境,并保障学术成绩或技术摸索的可重复性。当下正在有越来越多的学术期刊摸索 Notebook 的模式。例如,2022 年末,流体力学顶刊 Journal of Fluid Mechanics (JFM) 公布了其 Notebook 系列。咱们间接援用其发刊词《Introducing JFM Notebooks》的首段作为对这里探讨的补充:
Source: J. Fluid Mech. (2022), vol. 952, E1, doi:10.1017/jfm.2022.903
就评审与迭代机制而言,学术论文体系依赖的是“同行评审”。当下面临两个问题:
- 在跨学科语境下“同行”是否容易被定义和归类;
- “卷”的场面及文章和期刊日益泛滥的状况下“同行”是否有足够多的工夫来做高质量、负责任的评审。而从对常识体系的迭代推动形式来看,对学术论文来说,新的停顿往往意味着须要通过新的一篇文章来出现。也是因而,越来越多的文章的越来越大比例的局部正在成为八股文——这会成为大语言模型更善于的事件。
相比较而言,开源社区的“评审”是分布式、用脚投票的——一个货色解决问题就有人用、有人用且有问题就会继续反馈与解决,于是用户的规模和一系列反馈便起到了评审的作用。开源体系的迭代,无论是开源代码,还是开源的数据、模型,乃至像 wikipedia 这样的开源文档体系,都有较为成熟的 CI(continuous integration 继续集成)机制来更新迭代。云上 Notebook 作为一种新的出现模式,评审与迭代机制能够较为灵便,能够参考学术论文、也能够参考技术 blog 或者 wikipedia,但其外围在于带着 code block 以及蕴含数据模型算力的云上环境。
对很多翻新成绩来说,开源 + 云上 Notebook 可能是一种比发表文章反馈迭代快且宽泛很多的模式。咱们置信,会有越来越多的 Paper with Notebook、甚至 Paper as Notebook 的实际呈现,这也更能适应“常识体系更新迭代减速、从底层翻新到利用落地过程减速”的大背景。
值得注意的是,对云上 Notebook 的反对不意味着对现有发表体系的“代替”,而意味着为翻新成绩找到新的“进口”、新的“代谢通路”。咱们也在积极探索各种类型的“代谢通路”,例如发动 DeepModeling 开源社区并逐步体系化,也例如联合 MLOPS 技术的算法解决方案疾速上线也在新一轮的尝试中(一个参考是联合 Uni-Mol 技术的 Bohrium APP Uni-QSAR)。这些尝试正在很大水平地解放生产力和创造力。咱们会发现,对于大量真正有意义的算法来说,疾速解决问题、失去反馈比使劲憋文章、跟审稿人干架来得更要害——当这里的“大量”真的“量够大”时,变革也天然就会产生。此外,这些实质上在晋升翻新效力的伎俩也能最大水平地减缓与“卷”的逻辑的矛盾。
同样值得注意的是,无论是这里的 Notebook、还是 APP,与纯正的开源代码或 Wiki 体系很大的区别在于对后端环境的需要。算力 / 数据 / 软件等零碎环境是任何类型的计算解决方案所必须的,在这些方面哪怕开发成本是固定的,更大的老本——且是边际老本——也会产生在规模化应用和继续迭代保护上。对于任何一个 AI 模型体系也同样如此。因而,咱们须要一个运行足够良好的经济模型和协同体系来撑持这个体系的运行,这是须要依据理论状况寻求最佳计划的、也是须要继续摸索的。
综合上述探讨,NBHub 心愿做什么
NBHub 心愿推动造成一个在 AI4S 与 AIGC 时代让常识“跑”起来的社区。这里的“跑”既指以云上 Notebook 的模式一键运行、疾速上手,又指在一个跨畛域的凋谢共建的社区中充沛、自在地流传与分享。这种灵便的社区模式将作为教学与科研体系的无效补充,并终将推动现有教学与科研体系的变革。
NBHub 目前次要通过微信公众号的模式经营,咱们也将摸索更为丰盛的模式。咱们心愿 NBHub 的内容笼罩 AI4S 与 AIGC 畛域那些适宜不只“看”、还得“跑”的常识,包含经典的技术体系、也包含前沿的技术停顿,以及好玩、有用的陈腐内容,和对先进实际的推广介绍,等等。对于那些痛点显明、共振强烈的群体(例如咱们最近发现的 AI for Bioinformatics 群体)咱们将进一步通过灵便的社区教学交换等模式的流动组织起来。对于任何对 NBHub 的想法、倡议,都欢送提出;也欢送以任何模式退出咱们。
令人惊喜的是,在咱们推出一系列优质 Notebook 内容的同时,其集散地—— Notebook 案例广场,正在被越来越多地关注起来。有一天,咱们发现有一位敌人在他的朋友圈激情地举荐案例广场。当咱们问他是什么激发他的分享欲时,他说:“……我顺着这个 Uni-mol 相干的教程摸到了整个案例广场,发现外面曾经有很多高质量的 Notebook 了;想起以前学货色的时候都是全网搜(可能尤其在 CSDN 上),而后品质和版本都参差不齐,在学习之前还得先解决很多的配置问题,不同版本的指令可能还不太一样;而后惊奇地案例广场上的 Notebook 的数量和覆盖面曾经很广了,还有包含像 Python 作图类的教程,Notebook 有审核、能跑通;我感觉这对老手或者想理解这个畛域的人是很冲动的,甚至可能很少会有人的知识面是笼罩案例广场上所有案例的;所以从这个角度上我感觉是个“宝藏库”,肯定水平上,新手入门最高效的形式之一是在有标准答案或者领导的状况下“做作业”,这个层面上,案例广场升高了我获取常识的老本,进步了学习效率”。对此咱们感到冲动——这正是咱们心愿推动做好的。
最初,One More Thing。通过 NBHub,咱们最心愿提倡的,还是回归好奇心与责任心驱动下最奢侈的价值谋求。技术在飞快地倒退,但“科技向善”永不过期。如 DeepModeling 社区宣言所言,“那些心愿通过计算建模冲破迷信边界、解决困难问题的人们正在以前所未有的新形式集结起来。他们须要新的基础设施——新的合作平台,新的代码框架,新的数据处理伎俩,新的算力应用形式;他们须要新的文化——谋求通力协作、惠及公众;谋求常识与工具的自在交换与分享;谋求尊重并观赏互相的成就、和而不同。”咱们心愿推动的,是让那些志同道合者,能在这里,成为更好的本人。