AIGC提示词美学定义
上QQ阅读APP看书,第一时间看更新

生成式绘画的底层技术逻辑

生成式绘画工具能形成的图片风格和艺术效果广受赞叹。它是如何绘制作品的呢?为何生成式绘画工具生成的图片有时令人惊艳,有时却又不尽如人意?为了更好地把控生成的画面,在使用生成式绘画工具之前,我们需要对生成式绘画的底层技术有一些基本了解。

因为部分生成式绘画工具,如Midjourney尚未开源,外界很难获取其具体架构。但行业中生成式绘画工具的底层技术基本一致,接下来,本章就以已经开源的生成式绘画工具Stable Diffusion为例,简单讲解一下生成式绘画工具的实现逻辑。 Stable Diffusion是一个由多个组件和模型组成的系统,它是在CLIP模型的基础之上,将扩散模型等其他模型组件融合而来的。下图是以Stable Diffusion为例,描述了其整个工作流程的底层技术逻辑。

我们可以用一个具象的比喻帮助大家理解。Stable Diffusion就像一个预先受过专业训练、经验丰富的“大厨”,它以用户输入的自然语言形式的提示词为“食材”,用其内置的文本编码器(Text Understander)进行“备菜”,通过图形信息创建器(Image Information Creator)进行“烹饪”,再借助图形解码器(Image Decoder)进行“摆盘”,最终,大厨得以呈现一桌“美味佳肴”。这个比喻很好地概括了生成式绘图模型利用文本生成图片的总体过程。

这里需要着重解释的是Stable Diffusion这类模型的“秘诀”,也就是扩散模型(Diffusion Models),它是“大厨烹饪”得以实现的底层技术,它揭示了机器模型的作图原理。扩散模型是一种基于Transformer技术的概率模型,它的训练逻辑就是通过连续向原数据添加高斯噪声(加噪)来破坏训练数据,然后通过回溯这个加噪过程(去噪)来恢复原数据,并在这个过程中学习。

扩散模型总体包括两个过程,其一是加噪过程:采样一段数据(例如图像),并随着时间的推移逐渐增加噪声,直到数据无法被识别,并求出最大似然估计;其二是逆向的去噪过程:尝试将原始图像进行形式复现,在此过程中模型会通过神经网络学习如何生成图片或其他数据。通过基于扩散模型的深度学习链路,计算机能够实现对图片内容的识别与“理解”。

Stable Diffusion这类模型,在向公众发布之前利用海量数据进行了预训练,这意味着模型已经储备了大量图片的特征知识。在用户输入一段提示词之后,提示词会被文本编译器转译为计算机语言。这时,Stable Diffusion模型会直接调用数据库中的预训练数据,以转译后的提示词内容为蓝本,从一个浑然的噪声区域开始,逐步减噪、调整,最终形成画作。生成式绘画模型这位“大厨”的“享饪”过程,即是一个扩散的过程。