艾巴生活网

您现在的位置是:主页>科技 >内容

科技

英伟达通过PERFUSION添加了从文本创建图像的功能

2023-08-14 09:04:24科技传统的飞鸟
Nvidia推出了名为 Perfusion 的革命性图像生成器,它仅占用 100KB 的空间,与经典软盘的大小相当,给科技界留下了深刻的印象。一个更高

Nvidia推出了名为 Perfusion 的革命性图像生成器,它仅占用 100KB 的空间,与经典软盘的大小相当,给科技界留下了深刻的印象。

英伟达通过PERFUSION添加了从文本创建图像的功能

一个更高效的模型

这一进步在不影响性能的情况下重新定义了小型化的极限,因为Perfusion 的训练过程已经优化到现在只需要 4 分钟即可完成。

这标志着机器学习的效率和速度向前迈进了一步,进一步巩固了英伟达作为人工智能领域创新领导者的地位。

在人工智能驱动的艺术创作工具的动态领域,Nvidia 专家揭示了一种将文本转换为图像的创新策略,称为“灌注”。

规模远低于竞争对手

与竞争对手开发的高价巨型模型不同,Perfusion 因其简单性而脱颖而出。这种方法的大小仅为 100KB,训练速度仅为 4 分钟,为将定制概念变为现实而提供了惊人的创造性灵活性,同时又不牺牲其独特的本质。

Perfusion 的引入是通过 Nvidia 和以色列特拉维夫大学合作开发的一篇研究论文进行的。

尽管尺寸紧凑,但这一创新系统在领先的基于人工智能的艺术生成器中脱颖而出,包括 Stability AI 的 Stable Diffusion v1.5、最近添加的 Stable Diffusion XL (SDXL) 和 MidJourney 等大牌产品,在进行具体编辑。

Perfusion 的核心被称为“Key-Locking”,这种技术通过在生成图像的过程中将用户所需的新颖概念(例如特定的猫或椅子)与更一般的类别连接起来来进行操作。

这种方法对于防止过度拟合至关重要,过度拟合是模型过度遵循精确训练示例的现象。过度拟合可能会阻碍人工智能提出相关概念的新鲜和创造性版本的能力。

适度策略

与当前单独消化概念的工具不同,Perfusion 允许用户通过文本提示指导过程来直接合并各种元素。这使他们能够将不同的概念(例如特定的猫和椅子)连贯地组合在单个图像中。

Perfusion 的突出特点之一是它能够让用户在推理过程中完全控制图像的视觉保真度和提示的文本一致性之间的平衡。

所有这些都是通过操作单个 100KB 模型来完成的。这项创新使用户能够轻松探索帕累托前沿,其中权衡文本和图像之间的相似性。

此功能使用户能够选择最适合其需求的理想折衷方案,而无需重新训练模型。

模型的训练

至关重要的是要了解训练模型的任务是一项需要技巧的技能。过度关注精确再现模型可能会导致一遍又一遍地重复生产相同的输出。

同样,强迫生成器过于严格地遵循提示,而不给它一些自由,通常会导致不令人满意的结果。调整发生器与指示的接近程度的能力成为有效个性化的重要组成部分。

虽然其他基于人工智能的成像仪为用户提供了微调最终产品的方法,但这些方法往往过于严厉。例如,在稳定扩散中广泛使用的称为 LoRA 的微调技术可以增加应用程序的大小,从数十兆字节到超过一千兆字节 (GB)。

与其他 AI 相比存在巨大的尺寸差异

另一方面,文本反转嵌入虽然更轻,但往往不太准确。Dreambooth 方法提供了显着的对比,该方法目前被认为是最准确的,其训练模型的权重达到了 2GB 以上。

相比之下,Nvidia 声称 Perfusion 所达到的视觉质量和提示一致性水平超过了上述领先的人工智能技术。

灌注的极其高效的规模允许通过调整成像过程仅更新必要的部分,这与精心调整整个模型的方法不同,其占地面积跨越数千兆字节。

这项研究与英伟达对人工智能领域日益增长的投入是一致的。2023 年,由于其图形处理单元 (GPU)在 AI 模型训练领域持续占据主导地位,该公司股价上涨了 230%。

随着 Anthropic、谷歌、微软和百度等公司大力投资生成式 AI,Nvidia 的创新模型 Perfusion可能会为其带来显着的优势。