生成式 AI 基础设施堆栈初学者指南
近十年来,我对对话式人工智能的浓厚兴趣促使我摸索其在进步生产力和应答业务挑战方面的后劲。我与别人独特创建了 Humin,这是一个对话式人工智能 CRM,起初被 Tinder 收买。此外,我还领导了 Snaps 的技术合作伙伴关系,这是一个客户服务对话式人工智能平台,已被 Quiq 收买。
我始终是对话式人工智能界面的倡导者,并且撰写了无关聊天机器人、对话式商务和对话式搜寻的将来的文章。当初让我兴奋的是生成式人工智能的显着提高。它曾经扭转了写作、编码、内容创作,并在医疗保健、迷信和法律等畛域前景广大。
但在技术和风险投资方面迅速倒退的是根底组件、生成解决方案的根本组成部分、“镐和铲子”。跟上这些提高自身就是一个(乏味的)挑战。
最近该畛域的收买也引起了我的留神。就在两周前,Databricks 以惊人的 13 亿美元收买了生成式 AI 基础设施平台 MosaicML。
在过来的几周里,我花了一些工夫来理解生成式人工智能基础设施的前景。在这篇文章中,我的指标是清晰概述要害组成部分、新兴趋势,并重点介绍推动翻新的晚期行业参与者。我将解释根底模型、计算、框架、计算、编排和矢量数据库、微调、标签、合成数据、人工智能可观测性和模型安全性。
我的指标是以简略间接的形式了解和解释这些概念。此外,我心愿可能利用这些常识来进行将来的增长投资。
在这篇文章的结尾,我将通过阐明两家公司如何以统一的形式利用基础设施堆栈来连贯所有这些概念。
大型语言和根底模型
让咱们从大型语言模型或法学硕士开始。简而言之,法学硕士是应用大量文本和代码(包含书籍、文章、网站和代码片段)进行训练的计算机程序。法学硕士的最终目标是真正了解单词和短语的含意,并善于生成新句子。它与深度学习联合起来实现这一点。
根底模型是这些法学硕士的别称,施展着至关重要的作用,因为它们为宽泛的利用提供了根底。在这项钻研中,正如其名称自身所暗示的那样,咱们将把大部分精力集中在这个根底方面。
这些模型利用微小的数据集来学习各种工作。尽管他们偶然会犯错误或体现出偏见,但他们的能力和效率正在一直进步。
为了将这个概念变为事实,让咱们思考一个理论的例子。设想一下,您是一名作家,正在为故事寻找新的想法。通过在模型中输出几个单词,它能够生成潜在概念的列表。我利用它来接管无关本文题目的倡议。同样,面对问题的科学家能够通过输出几个单词来利用根底模型的力量,从大量数据中发现所需的信息。
根底模型引发了人工智能零碎开发的重大转变。它们为聊天机器人和其余人工智能界面提供能源,它们的提高很大水平上归功于自监督和半监督学习。当初,这些术语的确切含意是什么?
在自我监督学习中,模型通过依据频率和上下文破译单词含意来从未标记的数据中学习。另一方面,半监督学习波及应用标记和未标记数据的组合来训练模型。标记数据是指已将特定信息调配给数据的实例,例如带有自行车和汽车标记图像的数据集。而后,该模型能够应用标记图像辨别两者,并进一步欠缺对未标记图像的了解。我很快就会深入探讨微调的概念。
当初,当波及到在根底模型之上构建应用程序时,呈现了一个要害的思考因素:开发人员应该抉择开源模型还是关闭模型?
开源人工智能模型的底层代码和架构可公开拜访,任何人都能够收费应用、批改和散发。这种开放性营造了一个合作环境,开发人员和钻研人员能够在其中为模型改良做出奉献,使其适应新的用例,或将其集成到本人的我的项目中。
另一方面,闭源人工智能模型将其代码和架构放弃公有,限度公众的自在拜访。这些模型的应用、批改和散发通常由开发它的公司严格控制。此办法旨在爱护知识产权、维持品质管制并确保负责任的应用。只管内部开发人员和钻研人员无奈间接为模型改良或调整做出奉献,但他们通常能够通过领有模型的实体提供的预约义接口或 API 与模型进行交互。
在凋谢模型和关闭模型之间进行抉择可能会带来挑战。抉择开源解决方案意味着承当治理基础设施需要的责任,例如解决能力、数据存储和网络安全,这些需要通常由关闭模型提供商提供。
在撰写本文的过程中,我想理解这些模型的独特劣势和卖点。最重要的是,我向该畛域的建设者寻求见解。
尽管我遇到的观点可能有所不同,但在抉择根本模型时呈现了一些要害主题:应用程序所需的精度、开发人员团队解决本人的基础设施的筹备水平,以及如果没有进行足够的摸索,则偏向于保持相熟的内容。没有进行过。
首先,准确性至关重要。依据模型须要实现的工作,谬误的容忍度可能会有所不同。例如,销售聊天机器人能够解决偶然呈现的谬误,使其适宜在现有根底模型的根底上构建。然而,考虑一下主动驾驶汽车的状况,其中的谬误可能会带来灾难性的结果。
其次,云托管施展着重要作用。对于旨在维持精益经营的麻利初创公司来说,解决计算能力、数据存储和技术复杂性可能会扩散他们对外围指标的注意力。这就是为什么许多初创公司抉择在 Chat-GPT 等现成的闭源平台之上进行构建。另一方面,在基础设施治理方面领有外部专业知识的大公司可能会偏向于开源路线,以保留对各个方面的管制并更深刻地理解零碎的后果。
最初,业务指标施展影响力。不同的公司有不同的议程,这可能会影响决策过程。例如,Zoom 投资并利用了 Anthropic,这是一种针对企业用例和安全性量身定制的模型。尽管 Anthropic 可能不具备比 OpenAI 更优良的零碎,但 Zoom 可能心愿防止其数据被与 Teams 竞争的 OpenAI/ 微软应用的危险。这些策略思考因素在确定合作伙伴公司抉择构建其零碎时施展着重要作用。
大型语言模型 (LLM) 的前景不断扩大。这里有一些当先的模型,例如 OpenAI 的 GPT4 和 DALL-E、Cohere、Anthropic 的 Claude、Meta AI 的 LLaMA、StabilityAI、MosaicML 和 Inflection AI。
OpenAI 是人工智能行业的基石,以其在 GPT4 和 DALL-E 方面的提高而闻名。ChatGPT 是一种闭源模型,具备令人印象粗浅的对话式 AI 界面,使机器人可能与人进行简单的对话,而 DALL-E 能够依据文本形容生成独特的图像。
MosaicML 是一家开源人工智能初创公司,开发了一个用于训练大型语言模型和部署生成式人工智能工具的平台。最近被 Databricks 收买的 MosaicML 独特的开源办法将持续帮忙组织创立本人的语言模型。
Meta AI 对 AI 畛域的奉献 LLaMA 是一个开源模型。通过激励其余钻研人员应用 LLaMA,Facebook 旨在促成新应用程序的开发并进步语言模型的准确性。
StabilityAI 以 Dance Diffusion 和 Stable Diffusion 等零碎而闻名,是开源音乐和图像生成零碎的领导者。他们的指标是激发寰球创造力。该公司还领有 MedARC,这是医疗人工智能奉献的根底模型。
Anthropic 是一家由 OpenAI 资深人士独特创建的闭源公司,它创立了 Claude,一种平安且功能强大的语言模型。Claude 作为解决数据的新模型怀才不遇,为负责任的人工智能建立了晚期基准。
Inflection 是一家资金雄厚的人工智能根底模型初创公司,其大胆的愿景是为每个人打造“集体人工智能”,最近其弱小的语言模型为 Pi 对话代理提供了能源。该公司失去了微软、里德霍夫曼、比尔盖茨、埃里克施密特和英伟达的反对。
最初,加拿大初创公司 Cohere 提供了专为企业应用而设计的牢靠且可扩大的大型语言模型。他们的模型满足企业的特定要求,确保可靠性和可扩展性。
半导体、芯片、云托管、推理、部署
生成式人工智能模型依赖弱小的计算资源来训练和生成输入。
尽管我从根底模型开始,GPU 和 TPU(专用芯片)以及云托管的确形成了生成式 AI 基础设施堆栈的根底。
计算是解决数据(并执行计算)的能力,在人工智能零碎中施展着至关重要的作用。GPU、CPU 和 TPU 是不同类型的计算。生成式人工智能堆栈中最重要的是 GPU,它最后是为图形工作而设计的,但在计算密集型操作(例如生成式人工智能的训练网络)方面表现出色。GPU 针对并行计算解决进行了优化,这意味着将大型工作合成为可由多个处理器同时解决的较小工作。AI/ML 工作是高度可并行化的工作负载,因而 GPU 才有意义。
生成式人工智能须要大量的计算资源和大型数据集,这些资源在高性能数据中心进行解决和存储。AWS、Microsoft Azure 和 Google Cloud 等云平台提供可扩大的资源和 GPU,用于训练和部署生成式 AI 模型。
GPU 领导者 Nvidia 的市值最近冲破了 1 万亿美元,像 d-Matrix 这样的新进入者正在进入该畛域,推出用于生成 AI 的高性能芯片,以帮忙推理,即应用训练有素的生成模型对新数据进行预测的过程。d-Matrix 正在构建一款新的推理芯片,与以后的计算加速器相比,应用数字内存计算 (DIMC) 技术可显着升高每个令牌的提早。d-Matrix 认为,解决内存计算集成问题是进步 AI 计算效率的要害,从而以高效且经济高效的形式解决推理应用程序的爆炸式增长。
Lambda Labs 帮忙企业按需部署人工智能模型。Lambda 为电力工程师提供工作站、服务器、笔记本电脑和云服务。最近,Lambda 推出了 GPU Cloud,这是一项专门用于深度学习的 GPU 云服务。
CoreWeave 是一家专一于大规模高度并行化工作负载的业余云服务提供商。该公司已取得 Nvidia 和 GitHub 创始人的赞助。其客户包含 Stability AI 等生成式人工智能公司,并反对开源人工智能和机器学习我的项目。
此外,还有专门的公司致力于反对生成式人工智能。HuggingFace 实质上是法学硕士的 GitHub,通过名为 Hub 的合作平台提供全面的 AI 计算资源,促成模型在次要云平台上的共享和部署。
乏味的是,云提供商正在与要害的根底模型参与者保持一致;微软在 OpenAI 上投入了资源和大量资金,谷歌投资了 Anthropic 并补充了其 Google Brain 打算,亚马逊则与 HuggingFace 结盟。论断是,对于可能想要应用特定根底模型之一的公司来说,AWS 之前基于信用和翻新的主导地位不再是默认选项。
编排层 / 应用程序框架
该堆栈的下一级是应用程序框架,可促成人工智能模型与不同数据源的无缝集成,使开发人员可能疾速启动应用程序。
应用程序框架的要害要点是它们放慢了生成式人工智能模型的原型设计和应用。
这里最驰名的公司是 LangChain,它最后是一个开源我的项目,起初倒退成为一家真正的初创公司。
他们引入了一个开源框架,专门用于简化应用法学硕士的利用程序开发。该框架的外围概念围绕着将各种组件“链接”在一起以创立聊天机器人、生成问答(GQA)和摘要的概念。
我与创始人兼首席执行官哈里森·蔡斯获得了分割。他说:“浪链提供了两大附加值。第一个是形象的汇合,每个形象代表构建简单的 LLM 应用程序所需的不同模块。这些模块为该模块内的所有集成 / 实现提供了标准接口,从而能够通过一行代码轻松切换提供程序。这有助于团队疾速试验不同的模型提供商(OpenAI 与 Anthropic)、向量库(Pinecone 与 Chroma)、嵌入模型(OpenAI 与 Cohere)等。第二大附加值是在链中——执行更简单的 LLM 调用序列以启用 RAG、摘要等的常见办法。”
另一个参与者是 Fixie AI,由苹果和谷歌的前工程负责人创建。Fixie AI 旨在在 OpenAI 的 ChatGPT 等文本生成模型与企业级数据、零碎和工作流程之间建设连贯。例如,公司能够利用 Fixie AI 将语言模型性能合并到客户反对工作流程中,客服人员能够在其中解决客户票证、自动检索相干购买信息、依据须要发放退款以及生成票证草稿回复。
矢量数据库
堆栈的下一个级别是矢量数据库,它是一种非凡类型的数据库,以有助于查找类似数据的形式存储数据。它通过将每条数据表示为数字列表(称为向量)来实现此目标。
向量中的这些数字对应于数据的特色或属性。例如,如果咱们解决图像,向量中的数字可能代表图像的色彩、形态和亮度。在向量数据库中,须要把握的一个重要术语是嵌入。嵌入是一种数据表示模式,它封装了对于人工智能取得了解和维持长期记忆至关重要的语义信息,这对于执行简单工作至关重要。嵌入是一种数据表示模式,它封装了对于人工智能取得了解和维持长期记忆至关重要的语义信息,这对于执行简单工作至关重要。
这是一个具体的例子。自行车的图片能够无效地转换为一系列数值,包含尺寸、车轮色彩、车架色彩和车把色彩等特色。这些数字示意有利于无缝存储和剖析,比单纯的图像具备劣势。论断是矢量数据库具备以机器易于了解的形式解决和存储数据的能力。
这些数据库能够概念化为具备有限列的表。
在我之前构建对话式人工智能的教训中,我次要应用在表中存储数据的关系数据库。然而,矢量数据库善于示意数据的语义,反对相似性搜寻、举荐和分类等工作。
几家公司开发了矢量数据库和嵌入。
Pinecone 是该品类的创造者。他们领有专为大规模机器学习利用程序设计的分布式矢量数据库。除了生成式 AI 公司之外,它还领有 Shopify、Gong、Zapier 和 Hubspot 等客户,提供具备 SOC 2 Type II 认证和 GDPR 就绪性的企业级解决方案。GDPR 合规性很重要,因为如果开发人员必须删除记录,在数据库中执行起来并不难,但因为模型的构造形式,从模型中删除不良数据要艰难得多。松果还有助于记忆聊天体验。
另一个值得注意的矢量数据库是 Chroma,它是一个专一于高性能相似性搜寻的新开源解决方案。Chroma 使开发人员可能向其反对 AI 的应用程序增加状态和内存。许多开发人员表白了对像“ChatGPT 但针对他们的数据”这样的 AI 工具的渴望,而 Chroma 通过实现基于嵌入的文档检索来充当桥梁。自推出以来,Chroma 已取得超过 35,000 次 Python 下载。此外,它的开源合乎让人工智能更平安、更统一的指标。
Weaviate 是一个开源矢量数据库,非常适合寻求灵活性的公司。它与其余模型核心兼容,例如 OpenAI 或 HuggingFace。
微调
基础设施堆栈的下一层是微调。在生成人工智能畛域,微调波及针对特定工作或数据集进一步训练模型。此过程加强了模型的性能并对其进行调整以满足该工作或数据集的独特要求。这就像多才多艺的运动员如何专一于特定的静止以在其中获得优异成绩一样;根底宽泛的人工智能还能够通过微调将其常识集中在特定工作上。
开发人员在现有模型之上构建新的应用程序。尽管在海量数据集上训练的语言模型能够生成语法正确且晦涩的文本,但它们在医学或法律等某些畛域可能不足精确性。在特定畛域的数据集上微调模型,使其可能内化这些畛域的独特特色,从而加强其生成相干文本的能力。
这与之前对于作为其余服务和产品平台的根底模型的观点是统一的。微调这些模型的能力是其适应性的关键因素。微调现有模型能够简化流程并且具备老本效益,而不是从头开始(这须要大量的计算能力和大量数据),尤其是在您曾经领有大型特定数据集的状况下。
该畛域的一家驰名公司是 Weights and Bias。
标签
精确的数据标记对于生成人工智能模型的胜利至关重要。
数据能够采取多种形式,包含图像、文本或音频。标签用作数据的形容。例如,自行车的图像能够标记为“自行车”或“自行车”。机器学习的一个比拟繁琐的方面是提供一组标签来教诲机器学习模型它须要晓得什么。
数据标记在机器学习中施展着重要作用,因为算法从数据中学习。标签的准确性间接影响算法的学习能力。每个人工智能初创公司或企业研发实验室都面临着正文训练数据以教诲算法辨认什么的挑战。无论是医生通过扫描评估癌症的大小,还是司机在主动驾驶汽车录像中标记街道标记,贴标签都是必要的步骤。
不精确的数据会导致模型后果不精确。
数据标签依然是许多行业机器学习和人工智能提高的重大挑战和阻碍。对于学科专家来说,为此调配工夫老本昂扬、劳动密集型且具备挑战性,导致一些人在隐衷和专业知识限度最小的状况下转向众包平台。它通常被视为“清洁”工作,只管数据最终管制着模型的行为和品质。在大多数模型架构都是开源的世界中,公有的、畛域相干的数据是构建人工智能护城河的最弱小的办法之一。
Snorkel AI 是一家放慢标签流程的公司。该公司的技术最后是斯坦福人工智能实验室的一项钻研打算,旨在克服人工智能的标签瓶颈。Snorkel 的平台帮忙主题专家以编程形式(通过一种称为“弱监督”的技术)而不是手动(逐个)标记数据,让人类参加其中,同时显着进步标记效率。这能够将流程从几个月缩短到几小时或几天,具体取决于数据的复杂性,并且从久远来看使模型更易于保护,因为随着数据漂移、发现新的错误模式或业务,能够轻松地从新拜访和更新训练标签。指标发生变化。
Snorkel AI 联结创始人兼首席执行官 Alex Ratner 示意:“在预训练和微调等每项以模型为核心的操作背地,都是更重要的以数据为核心的操作,这些操作创立模型理论学习的数据。”“咱们的指标是让以数据为核心的人工智能开发不再像手动、长期工作,而更像软件开发,以便每个组织都能够开发和保护实用于其企业特定数据和用例的模型。”Snorkel 以数据为核心的平台还有助于系统地辨认模型谬误,以便标记工作能够集中在最有影响力的数据片段上。现在,财产 500 强公司在金融、电子商务、保险、电信和医药等数据密集型行业中应用它。
Labelbox 是一家当先的人工智能标签公司。我与首席执行官 Manu Sharma 进行了交谈。
Labelbox 帮忙 OpenAI、沃尔玛、Stryker 和 Google 等公司标记数据并治理流程。“Labelbox 使根底模型在企业环境中变得有用”。开发人员应用 Labelbox 的模型辅助标记疾速将模型预测转化为用于生成 AI 用例的新的主动标记训练数据。
其余公司专门开发用于执行手动正文的界面和劳动力。其中之一是规模,重点关注政府机构和企业。该公司提供视觉数据标记平台,联合软件和人类专业知识,为开发机器学习算法的公司标记图像、文本、语音和视频数据。Scale 雇佣了数以万计的承包商来进行数据标记。他们最后向主动驾驶汽车公司提供标记数据,并将其客户群扩大到政府、电子商务、企业自动化和机器人畛域。客户包含 Airbnb、OpenAI、DoorDash 和 Pinterest。
综合数据
合成数据,也称为模拟实在数据的人工创立的数据,在机器学习和人工智能 (AI) 畛域提供了多种益处和利用。那么,为什么要思考应用合成数据呢?
当实在数据不可用或无奈利用时,就会呈现合成数据的一个次要用例。通过生成与实在数据具备雷同特色的人工数据集,您能够开发和测试 AI 模型,而不会侵害隐衷或遇到数据限度。
应用合成数据有很多长处。
合成数据能够爱护隐衷,因为它不足个人身份信息 (PII) 和 HIPAA 危险。在无效利用数据的同时,确保恪守 GDPR 等数据法规。它通过生成用于训练和部署的数据来实现可扩大的机器学习和人工智能应用程序。合成数据加强了多样性,通过代表不同的人群和场景来最大限度地缩小偏见,并促成人工智能模型的公平性和包容性。“条件数据生成”技术和合成数据还能够解决没有足够数据来测试和训练模型的初创公司的“冷启动”问题。公司将须要合成专有数据集,而后应用条件数据生成技术对其进行加强,以填补他们无奈在野外收集的边缘状况;这有时被称为模型训练的“最初一英里”。
当谈到合成数据解决方案时,有几家公司提供了牢靠的抉择。Gretel.ai、Tonic.ai 和 Mostly.ai 是该畛域值得注意的例子。
Gretel.ai 容许工程师依据实在数据集生成人工数据集。Gretel 联合了生成模型、隐衷加强技术以及数据指标和报告,使企业开发人员和工程师可能按需创立精确且平安的特定畛域的合成数据。所有三位创始人都领有网络安全背景,并曾在美国情报界负责过各种职务,他们的首席技术官是空军的一名退伍军官。
例如,Tonic.ai 将其数据宣传为“实在的虚伪数据”,强调合成数据须要尊重和爱护实在数据的隐衷。他们的解决方案实用于软件测试、机器学习模型训练、数据分析和销售演示。
模型监督 /AI 可观测性
该堆栈的下一个级别是人工智能可察看性,它波及监督、了解和解释人工智能模型的行为。简而言之,它确保人工智能模型失常运行并做出公正、有害的决策。
模型监督是人工智能可察看性的一个子集,专门致力于确保人工智能模型合乎其预期目标。它波及验证模型是否没有做出可能无害或不道德的决策。
数据漂移是另一个须要思考的重要概念。它指的是数据分布随工夫的变动,这可能导致人工智能模型变得不太精确。如果这些变动有利于某些群体,模型可能会变得更加有偏见并导致不偏心的决策。随着数据分布的变动,模型的准确性会升高,可能导致谬误的预测和决策。人工智能可观测平台提供了应答这些挑战的解决方案。
为了说明人工智能可察看性的需要,我分割了 Krishna Gade 和 Fiddler.ai 的首席执行官兼首席运营官 Amit Paka。Gade 此前曾负责 Facebook News Feed 的工程负责人,亲眼目睹了企业在了解本人的机器学习模型方面面临的挑战。
“随着这些零碎变得更加成熟和简单,了解它们的运作形式变得极其艰难。诸如“为什么我会在我的动静中看到这个故事?”之类的问题 为什么这个新闻故事会疯传?这个音讯是真的还是假的?很难答复。”Gade 和他的团队在 Fiddler 开发了一个平台来解决这些问题,进步 Facebook 模型的透明度,并解决“AI 黑匣子”问题。当初,Krishna 和 Amit Paka 推出了 Fiddler 平台,帮忙 Thumbtack 甚至 In-Q-Tel(CIA 危险基金)等公司提供模型可解释性、古代监控和偏差检测,为企业提供集中管理这些信息和信息的形式。构建下一代人工智能。Amit 与我分享道:“AI 可察看性对于平安和负责任的 AI 部署变得十分重要。当初它曾经成为每个推出人工智能产品的公司的必备品。咱们认为,如果没有人工智能可察看性,咱们就不会有企业采纳人工智能,而人工智能可察看性正在造成人工智能堆栈中要害的第三层。
Arize 和 WhyLabs 是其余为生产中的法学硕士创立了弱小的可察看性解决方案的公司。这些平台解决了增加护栏的问题,以确保实时为 LLM 申请提供适当的提醒和响应。这些工具能够辨认并加重任何 LLM 模型中的歹意提醒、敏感数据、有毒反馈、有问题的主题、幻觉和越狱尝试。
Aporia 是另一家强调人工智能可察看平台重要性的公司,它意识到信赖可能在几秒钟内失去,并须要几个月的工夫能力复原。Aporia 专一于客户一生价值 / 动静定价,目前正在利用其 LLM 可察看性功能深入研究生成式 AI。
模型平安
堆栈的顶部是模型平安。生成式人工智能的一项重大危险是输入存在偏差。人工智能模型偏向于采纳和流传训练数据中存在的偏差。例如,人工智能简历筛选工具偏爱名字为“Jared”且有高中长曲棍球经验的候选人,这揭示了数据集中的偏见。亚马逊也面临着相似的挑战,因为培训数据次要由男性员工组成,他们的人工智能简历筛选工具体现出对男性候选人的外在偏见。
另一个担心是人工智能的歹意应用。深度造假波及通过可信但捏造的图像、视频或文本流传虚伪信息,可能会成为一个问题。最近产生的一起事件波及人工智能生成的五角大楼爆炸图像,引起公众的恐怖和困惑。这凸显了人工智能被错误信息武器化的可能性,以及须要采取保障措施来避免此类滥用。
此外,随着人工智能零碎的复杂性和自主性的增长,可能会呈现意想不到的结果。这些零碎可能会体现出开发人员未预料到的行为,从而带来危险或导致不良后果。例如,Facebook 开发的聊天机器人开始创造本人的语言来更无效地进行交换,这是一个意想不到的后果,强调了严格监控和平安预防措施的必要性。
为了加重这些危险,偏差检测和缓解等技术至关重要。这波及辨认模型输入中的偏差并采取措施将其最小化,例如进步训练数据多样性和利用偏心技术。用户反馈机制(用户能够标记有问题的输入)在欠缺人工智能模型方面施展着至关重要的作用。对抗性测试和验证通过艰难的输出来挑战人工智能零碎,以发现弱点和盲点。
弱小的智能可帮忙企业对其人工智能模型进行压力测试,以防止失败。Robust Intelligence 的次要产品是人工智能防火墙,通过继续的压力测试来爱护公司人工智能模型免受谬误的影响。乏味的是,这个人工智能防火墙自身就是一个人工智能模型,其工作是预测数据点是否会导致谬误的预测。
Arthur AI 于 2019 年首次亮相,其次要指标是通过提供相似于 Robust Intelligence 解决方案的 LLM 防火墙来帮忙企业监控其机器学习模型。该解决方案监控并加强模型精度和可解释性。
CredoAI 领导企业理解人工智能的道德影响。他们的重点在于人工智能治理,使企业可能大规模掂量、监控和治理人工智能产生的危险。
最初,Skyflow 提供基于 API 的服务,用于平安存储敏感和个人身份信息。Skyflow 的重点是满足金融科技和医疗保健等各个领域的需要,帮忙平安存储信用卡详细信息等要害信息。
这所有如何联合在一起?
为了更深刻地理解应用这些工具的当先公司,我采访了 Science 首席执行官 Will Manidis、io。
ScienceIO 通过构建专为医疗保健打造的最先进的根底模型,正在彻底改变医疗保健行业。数百家最重要的医疗保健组织在其工作流程的外围应用 ScienceIO 模型,这使 Will 对如何在生产中部署法学硕士有独特的见解。这是他所看到的:
● 计算:ScienceIO 依附 Lambda Labs 利用本地集群来满足其计算需要。这确保了高效且可扩大的解决能力,比 AWS 或 GCP 等超大规模服务更具老本效益。
● 根底模型:ScienceIO 利用其外部数据创立本人的根底模型。他们业务的外围是 API,该 API 有助于将非结构化医疗数据实时转换为结构化数据(命名实体解析和链接),而后可用于搜寻和剖析目标。他们的许多客户抉择在其工作流程中将 ScienceIO 与更通用的模型链接起来,以执行信息检索和合成等工作。
● Vector:ScienceIO 的外围产品之一是嵌入产品,专为医疗保健畛域的高质量嵌入而构建。Will 的外围信念之一是自定义嵌入将变得越来越重要,特地是作为通用模型的补充。ScienceIO 宽泛应用 Chroma 来存储和查问这些向量嵌入。
● 编排:对于利用程序开发,ScienceIO 依赖于 LangChain。外部模型存储、版本控制和拜访由 Huggingface 提供反对。
● 微调:尽管 ScienceIO 的外围根底模型是专门针对医疗保健数据进行从头训练的,也就是说,他们从未见过成堆的垃圾社交媒体数据或相似数据,但许多客户有趣味对其进行额定的微调用例。ScienceIO 推出了 Learn & Annotate,这是他们的微调和人机交互解决方案来解决这些用例。
我还与 Innerplay 首席执行官 Pedro Salles Leite 进行了交谈,该公司利用人工智能帮忙人们和公司变得更具创造力。Innerplay 帮忙公司以更快的形式制作视频,包含剧本创作。
Pedro 八年来始终在钻研和构建人工智能用例。对于他的基础设施堆栈,他说他的工作是确保产品对用户有意义……而不是设置编排或根底模型 – 只是减少了另一种复杂性。这是他的堆栈:
● 根底模型:Innerplay 应用 14 种不同的根底模型将想法变为事实。他们应用关闭模型次要是因为“在产品适宜市场之前没有 GPU”。
● 矢量数据库:Innerplay 应用矢量数据库来执行解决 PDF 文档等工作。他们从 PDF 生成脚本,须要矢量数据库来实现此操作。
● 微调:Innerplay 十分置信微调。该公司手动筹备数据集,但打算应用人工智能来筹备数据,以便未来进行微调。
● 原型制作:他们用它来评估输入和比拟模型。Spellbook by Scale 通常用于在进入 Python/ 生产环境之前疾速测试机器学习过程中的迭代。
● 人工智能可察看性:他们当初开始思考人工智能可察看性,以重视隐衷的形式改良他们的人工智能。作为一个内容创作平台。佩德罗说,“Innerplay 须要确保人们用它来做善事”。
论断
对生成式人工智能基础设施的摸索仅仅涉及了外表,技术开发和底层根底组件投资的疾速提高是引人注目的。像 MosaicML 这样的公司被以惊人的金额收买,并且该畛域的参与者数量一直减少,这表明了该畛域的微小价值和趣味。
这是一个简单且一直倒退的场景,具备多个档次,从根底模型到微调,从半导体到云托管,从应用程序框架到模型监督。每个层在利用生成式人工智能的力量并使其在各个行业的利用中都施展着至关重要的作用。在这项钻研中,许多从一个畛域起步的公司扩大到其余畛域。