乐趣区

关于人工智能:绝OpenAI-年底上新单卡-1-分钟生成-3D-点云textto-3D-告别高算力消耗时代

内容一览:继 DALL-E、ChatGPT 之后,OpenAI 再发力,于近日公布 Point·E,能够根据文本提醒间接生成 3D 点云。
关键词:OpenAI   3D 点云   Point·E 

 OpenAI 年底冲业绩,半个多月前公布的 ChatGPT 宽广网友还没玩明确,近日又悄么公布了另一利器 – 能够根据文本提醒,间接生成 3D 点云的 Point·E。

text-to-3D:用对办法,一个顶俩

3D 建模想必大家都不生疏,近年来,在电影制作、视频游戏、工业设计、VR 及 AR 等畛域中,都能够看到 3D 建模的影子。

然而,借助人工智能创立真切的 3D 图像,依然是一个耗时耗力的过程,以 Google DreamFusion 为例,给定文本生成 3D 图像通常须要多个 GPU、运行数小时。

给定一个形容,DreamFusion 生成高保真 3D 物体

通常意义上,文本到 3D 合成的办法分为两类:

办法 1: 间接在成对的 (text, 3D) 数据或无标签的 3D 数据上训练生成模型。

此类办法尽管能够利用现有的生成模型办法,无效地生成样本,但因为不足大规模 3D 数据集,因而很难扩大到简单的文本提醒。

办法 2: 利用事后训练好的 text-to-image 模型,优化可辨别的 3D 表征。

此类办法通常可能解决简单多样的文本提醒,但每个样本的优化过程都代价昂扬。此外,因为不足弱小的 3D prior,此类办法可能会陷入 local minima(无奈与有意义或连贯的 3D 指标一一对应)。

Point·E 联合了 text-to-image 模型以及 image-to-3D 模型,综合以上两种办法的劣势,进一步晋升了 3D 建模的效率,只须要一个 GPU、一两分钟即可实现文本到 3D 点云的转换。

 原理解析:3 步生成 3D 点云

Point·E 中,text-to-image 模型利用了大型语料库(text, image pair),使其对简单的文本提醒也能解决切当;image-to-3D 模型则是在一个较小的数据集 (image, 3D pair) 上训练的。

用 Point·E 根据文本提醒生成 3D 点云的过程分为三个步骤:

1、根据文本提醒,生成一个合成视图 (synthetic view)

2、根据合成视图,生成 coarse point cloud (1024 point)

3、基于低分辨率点云和合成视图,生成 fine point cloud (4096 Point)

Point·E 流程概览

因为数据格式和数据品质对训练后果影响微小,Point·E 借助 Blender,将所有训练数据都转换为了通用格局。

Blender 反对多种 3D 格局,并配有优化的渲染 engine。Blender 脚本将模型对立为一个 bounding cube,配置一个规范的 lighting 设置,最初应用 Blender 内置的实时渲染 engine 导出 RGBAD 图像。

"""
Script to run within Blender to render a 3D model as RGBAD images.

Example usage

    blender -b -P blender_script.py -- \
        --input_path ../../examples/example_data/corgi.ply \
        --output_path render_out

Pass `--camera_pose z-circular-elevated` for the rendering used to compute
CLIP R-Precision results.

The output directory will include metadata json files for each rendered view,
as well as a global metadata file for the render. Each image will be saved as
a collection of 16-bit PNG files for each channel (rgbad), as well as a full
grayscale render of the view.
"""

Blender 脚本局部代码
通过运行脚本,将 3D 模型对立渲染为 RGBAD 图像

残缺脚本详见:https://github.com/openai/poi… 

过往 text-to-3D AI 横向比照

近两年来,涌现了泛滥对于 text-to-3D 模型生成的相干摸索,Google、NVIDIA 等大厂也纷纷推出了本人的 AI。

咱们收集汇总了 3 个 text-to-3D 合成的 AI,供大家横向比照差别。

DreamFields
公布机构:Google
公布工夫:2021 年 12 月
我的项目地址:https://ajayj.com/dreamfields…

联合了神经渲染 (neural rendering) 与多模态图像及文本表征,仅根据文本形容,就能够能够在没有 3D 监督的状况下,生成各种各样 3D 物体的形态和色彩。

DreamFields 从 4 个视角别离渲染的示例

DreamFields 生成 3D 物体的过程中,借鉴了在大型文本图像数据集上预训练过的 image-text model,并对源自多视角的 Neural Radiance Field 进行了优化,这使得预训练 CLIP 模型渲染的图像,在指标文本下获得了良好的成果。

DreamFusion
公布机构:Google
公布工夫:2022 年 9 月
我的项目地址:https://dreamfusion3d.github.io/

DreamFusion 能够借助预训练 2D text-to-image diffusion model,实现 text-to-3D synthesis。DreamFusion 引入了一个基于概率分布蒸馏 (probability density distillation) 的 loss,使 2D diffusion model 可能作为参数图像生成器 (parametric image generator) 优化的 prior。

输出文本提醒
a DSLR photo of a peacock on a surfboard
DreamFusion 生成 3D 物体

通过在与 DeepDream 相似的程序中利用该 loss,Dreamfusion 优化了一个随机初始化的 3D 模型(一个 Neural Radiance Field 或者 NeRF),通过梯度降落法使其从随机角度的 2D 渲染达到一个绝对较低的 loss。

Dreamfusion 不须要 3D 训练数据,也无需批改 image diffusion model,证实了预训练 image diffusion model 作为 prior 的有效性。

Magic3D
公布机构:NVIDIA
公布工夫:2022 年 11 月
我的项目地址:deepimagination.cc/Magic3D/

Magic3D 是一个 text-to-3D 内容的创立工具,可用于创立高质量的 3D mesh model。利用 image conditioning 技术以及基于文本提醒的编辑办法,Magic3D 提供了管制 3D 合成的新办法,为各种创意利用开拓了新的路径。

Magic3D 构造概述
以 coarse-to-fine 的形式
根据输出的文本提醒,生成高分辨率的 3D 内容

过程包含两个阶段:

阶段 1:应用低分辨率的 diffusion prior 取得一个 coarse model,并用 hash grid 和 sparse acceleration structure 进行减速。
阶段 2:应用从粗略神经表征 (coarse neural representation) 初始化的 textured mesh model,通过高效的可微分渲染器与高分辨率的 latent diffusion 模型交互进行优化。

技术提高仍需冲破局限

text-to 3D 的 AI 陆续面世,但基于文本生成 3D 合成尚处于晚期倒退阶段,业内还没有一套公认的 Benchmark,能用来更公正地评估相干工作。

Point·E 对于 fast text-to 3D 合成而言,具备重大意义,它极大晋升了解决效率,升高了算力耗费。

但不可否认,Point·E 依然具备肯定的局限性,比方 pipeline 须要合成渲染,生成的 3D 点云分辨率较低,不足以捕获细粒度的形态或纹理等。

对于 text-to 3D 合成的将来,你怎么看?将来的发展趋势又会怎么?欢送评论区留言探讨。

退出移动版