关于chatgpt:Visual-ChatGPTMicrosoft-ChatGPT-和-VFM-相结合

38次阅读

共计 2697 个字符,预计需要花费 7 分钟才能阅读完成。

举荐:应用 NSDT 场景编辑器助你疾速搭建可二次编辑的 3D 利用场景

什么是 Visual ChatGPT?

Visual ChatGPT 是一个蕴含 Visual Foundation 模型(VFM)的零碎,可帮忙 ChatGPT 更好地了解、生成和编辑视觉信息。VFM 可能指定输入输出格局,将视觉信息转换为语言格局,并解决 VFM 历史记录、优先级和抵触。

因而,Visual ChatGPT 是一种 AI 模型,它充当了 ChatGPT 限度与容许用户通过聊天进行交换并生成视觉效果之间的桥梁。

ChatGPT 的局限性

在过来的几周和几个月里,ChatGPT 始终是大多数人的对话。然而,因为其语言训练性能,它不容许解决和生成图像。

而你有视觉根底模型,如视觉变压器和稳固扩散,它们具备惊人的视觉性能。这就是语言和图像模型的组合发明了 Visual ChatGPT 的中央。

什么是可视化根底模型?

视觉根底模型用于对计算机视觉中应用的根本算法进行分组。他们采纳规范的计算机视觉技能并将其转移到 AI 应用程序上,以解决更简单的工作。

Visual ChatGPT 中的提醒管理器由 22 个 VFM 组成,其中包含文本到图像、管制网、边缘到图像等。这有助于 ChatGPT 将图像的所有视觉信号转换为语言,以便 ChatGPT 更好地了解。那么 Visual ChatGPT 是如何工作的呢?

Visual ChatGPT 如何工作?

Visual ChatGPT 由不同的组件组成,以帮忙大型语言模型 ChatGPT 了解视觉对象。

Visual ChatGPT 的架构组件

  • 用户查问:这是用户提交查问的地位
  • 提醒管理器:这会将用户的视觉查问转换为语言格局,以便 ChatGPT 模型能够了解。
  • Visual Foundation Models:它联合了各种 VFM,例如 BLIP(Bootstrapping Language-Image Pre-training),Stable Diffusion,ControlNet,Pix2Pix 等。
  • 零碎原理:这提供了可视化聊天 GPT 的根本规定和要求。
  • 对话历史:这是零碎与用户进行交互和对话的第一个点。
  • 推理的历史:这应用不同 VFM 过来具备的先前推理来解决简单的查问。
  • 两头答案:通过应用 VFM,模型将尝试输入几个逻辑上低估的两头答案。

无关提醒管理器的更多信息

你们中的一些人可能认为这是 ChatGPT 解决视觉效果的强制解决办法,因为它依然将图像的所有视觉信号转换为语言。上传图像时,提醒管理器会合成蕴含文件名等信息的外部聊天历史记录,以便 ChatGPT 能够更好地理解查问所指的内容。

例如,用户输出的图像的名称将充当操作历史记录,而后提醒管理器将帮助模型通过“推理格局”来确定须要对图像执行的操作。在 ChatGPT 抉择正确的 VFM 操作之前,您能够将此视为模型的外部想法。

在下图中,您能够看到提醒管理器如何启动可视 ChatGPT 的规定:

开始应用可视化聊天 GPT

要开始您的 Visual ChatGPT 之旅,您须要先运行 Visual ChatGPT 演示:

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

您还能够在 Microsoft 的 Visual ChatGPT GitHub 上理解更多信息。确保查看每个视觉根底模型上的 GPU 内存应用状况。

可视化聊天 GPT 的用例

那么 Visual ChatGPT 能做什么呢?

图像生成

您能够要求 Visual ChatGPT 从头开始创立图像,并提供形容。您的图像将在几秒钟内生成,具体取决于可用的计算能力。其应用文本数据的合成图像生成基于稳固扩散。

更改图像背景

同样,应用稳固的扩散,Visual ChatGPT 能够扭转您输出的图像的背景。用户能够向助手提供他们心愿将背景更改为什么的任何形容,稳固的扩散模型将绘制图像的背景。

更改彩色图像和其余成果

您还能够依据为应用程序提供形容来更改图像的色彩并利用成果。Visual ChatGPT 将应用各种预训练模型和 OpenCV 来更改图像色彩,突出显示图像边缘等。

对图像进行更改

Visual ChatGPT 容许您通过编辑和批改图像中的对象来删除或替换图像的各个方面,并向应用程序提供定向文本形容。然而,须要留神的是,此性能须要更多的计算能力。

Visual ChatGPT 的局限性

家喻户晓,组织总须要致力解决某种模式的缺点来改善其服务。

计算机视觉和大型语言模型的联合

Visual ChatGPT 重大依赖 ChatGPT 和 VFM,因而,这些各个方面的准确性和可靠性会影响 Visual ChatGPT 的性能。应用大型语言模型和计算机视觉的组合须要大量的提醒工程,并且可能难以实现纯熟的性能。

隐衷和平安

Visual ChatGPT 可能轻松插入和插入 VFM,这可能是一些用户对平安和隐衷问题的担心。Microsoft 须要更多地钻研敏感数据如何不被泄露。

自我校对模块

Visual ChatGPT 的钻研人员遇到的限度之一是因为 VFM 的失败和提醒的多样性而导致的生成后果不统一。因而,他们得出结论,他们须要钻研一个自我更正模块,以确保生成的输入合乎用户的要求,并可能进行必要的更正。

须要大量 GPU

为了从 Visual ChatGPT 中受害并利用 22 个 VFM,您将须要大量的 GPU RAM,例如 A100。依据手头的工作,确保您理解无效实现工作所需的 GPU 量。

总结

Visual ChatGPT 仍有其局限性,但这是同时应用大语言模型和计算机视觉的重大突破。如果您想理解无关 Visual ChatGPT 的更多信息,请浏览本文:Visual ChatGPT:应用 Visual Foundation Models 进行对话,绘图和编辑 Visual ChatGPT 与 ChatGPT4 类似吗?如果你尝试过这两种办法,你有什么认识?在上面发表评论!

原文链接:https://www.mvrlink.com/visual-chatgpt/

正文完
 0