举荐:应用NSDT场景编辑器助你疾速搭建可二次编辑的3D利用场景
什么是Visual ChatGPT?
Visual ChatGPT 是一个蕴含 Visual Foundation 模型 (VFM) 的零碎,可帮忙 ChatGPT 更好地了解、生成和编辑视觉信息。VFM 可能指定输入输出格局,将视觉信息转换为语言格局,并解决 VFM 历史记录、优先级和抵触。
因而,Visual ChatGPT 是一种 AI 模型,它充当了 ChatGPT 限度与容许用户通过聊天进行交换并生成视觉效果之间的桥梁。
ChatGPT 的局限性
在过来的几周和几个月里,ChatGPT 始终是大多数人的对话。然而,因为其语言训练性能,它不容许解决和生成图像。
而你有视觉根底模型,如视觉变压器和稳固扩散,它们具备惊人的视觉性能。这就是语言和图像模型的组合发明了Visual ChatGPT的中央。
什么是可视化根底模型?
视觉根底模型用于对计算机视觉中应用的根本算法进行分组。他们采纳规范的计算机视觉技能并将其转移到AI应用程序上,以解决更简单的工作。
Visual ChatGPT 中的提醒管理器由 22 个 VFM 组成,其中包含文本到图像、管制网、边缘到图像等。这有助于 ChatGPT 将图像的所有视觉信号转换为语言,以便 ChatGPT 更好地了解。那么Visual ChatGPT是如何工作的呢?
Visual ChatGPT 如何工作?
Visual ChatGPT 由不同的组件组成,以帮忙大型语言模型 ChatGPT 了解视觉对象。
Visual ChatGPT 的架构组件
- 用户查问:这是用户提交查问的地位
- 提醒管理器:这会将用户的视觉查问转换为语言格局,以便 ChatGPT 模型能够了解。
- Visual Foundation Models:它联合了各种VFM,例如BLIP(Bootstrapping Language-Image Pre-training),Stable Diffusion,ControlNet,Pix2Pix等。
- 零碎原理:这提供了可视化聊天GPT的根本规定和要求。
- 对话历史:这是零碎与用户进行交互和对话的第一个点。
- 推理的历史:这应用不同VFM过来具备的先前推理来解决简单的查问。
- 两头答案:通过应用 VFM,模型将尝试输入几个逻辑上低估的两头答案。
无关提醒管理器的更多信息
你们中的一些人可能认为这是 ChatGPT 解决视觉效果的强制解决办法,因为它依然将图像的所有视觉信号转换为语言。上传图像时,提醒管理器会合成蕴含文件名等信息的外部聊天历史记录,以便 ChatGPT 能够更好地理解查问所指的内容。
例如,用户输出的图像的名称将充当操作历史记录,而后提醒管理器将帮助模型通过“推理格局”来确定须要对图像执行的操作。在 ChatGPT 抉择正确的 VFM 操作之前,您能够将此视为模型的外部想法。
在下图中,您能够看到提醒管理器如何启动可视 ChatGPT 的规定:
开始应用可视化聊天GPT
要开始您的 Visual ChatGPT 之旅,您须要先运行 Visual ChatGPT 演示:
# create a new environmentconda create -n visgpt python=3.8# activate the new environmentconda activate visgpt# prepare the basic environmentspip install -r requirement.txt# download the visual foundation modelsbash download.sh# prepare your private openAI private keyexport OPENAI_API_KEY={Your_Private_Openai_Key}# create a folder to save imagesmkdir ./image# Start Visual ChatGPT !python visual_chatgpt.py
您还能够在Microsoft的Visual ChatGPT GitHub上理解更多信息。确保查看每个视觉根底模型上的 GPU 内存应用状况。
可视化聊天GPT的用例
那么Visual ChatGPT能做什么呢?
图像生成
您能够要求Visual ChatGPT从头开始创立图像,并提供形容。您的图像将在几秒钟内生成,具体取决于可用的计算能力。其应用文本数据的合成图像生成基于稳固扩散。
更改图像背景
同样,应用稳固的扩散,Visual ChatGPT能够扭转您输出的图像的背景。用户能够向助手提供他们心愿将背景更改为什么的任何形容,稳固的扩散模型将绘制图像的背景。
更改彩色图像和其余成果
您还能够依据为应用程序提供形容来更改图像的色彩并利用成果。Visual ChatGPT将应用各种预训练模型和OpenCV来更改图像色彩,突出显示图像边缘等。
对图像进行更改
Visual ChatGPT 容许您通过编辑和批改图像中的对象来删除或替换图像的各个方面,并向应用程序提供定向文本形容。然而,须要留神的是,此性能须要更多的计算能力。
Visual ChatGPT 的局限性
家喻户晓,组织总须要致力解决某种模式的缺点来改善其服务。
计算机视觉和大型语言模型的联合
Visual ChatGPT 重大依赖 ChatGPT 和 VFM,因而,这些各个方面的准确性和可靠性会影响 Visual ChatGPT 的性能。应用大型语言模型和计算机视觉的组合须要大量的提醒工程,并且可能难以实现纯熟的性能。
隐衷和平安
Visual ChatGPT可能轻松插入和插入VFM,这可能是一些用户对平安和隐衷问题的担心。Microsoft须要更多地钻研敏感数据如何不被泄露。
自我校对模块
Visual ChatGPT的钻研人员遇到的限度之一是因为VFM的失败和提醒的多样性而导致的生成后果不统一。因而,他们得出结论,他们须要钻研一个自我更正模块,以确保生成的输入合乎用户的要求,并可能进行必要的更正。
须要大量 GPU
为了从Visual ChatGPT中受害并利用22个VFM,您将须要大量的GPU RAM,例如A100。依据手头的工作,确保您理解无效实现工作所需的 GPU 量。
总结
Visual ChatGPT仍有其局限性,但这是同时应用大语言模型和计算机视觉的重大突破。如果您想理解无关Visual ChatGPT的更多信息,请浏览本文:Visual ChatGPT:应用Visual Foundation Models进行对话,绘图和编辑Visual ChatGPT 与 ChatGPT4 类似吗?如果你尝试过这两种办法,你有什么认识?在上面发表评论!
原文链接:https://www.mvrlink.com/visual-chatgpt/